СИСТЕМА ГОЛОСОВОГО УПРАВЛЕНИЯ АВТОМОБИЛЕМ

24.11.2013

   С каждым днём появляются возможности усовершенствовать мир новыми технология­ми и системами, делая жизнь более ком­фортной и удобной. Рассматривая повсе­дневное исполнение транспортных средств, нельзя не отметить, что это далеко не совре­менная техника, сложная в управлении, тре­бующая дополнительных усилий и внимания. Автомобили, в которых основные бортовые функции управляются вручную и при этом отсутствует «умная» электроника, хотели бы упростить управление до подачи голосовых команд.

   Распознавание команд голосом является ак­туальным вопросом передовых технологий. Несмотря на то, что современная наука дос­тигла вершин прогресса, всё же в повседнев­ной жизни очень трудно встретить транс­портное средство, оснащенное системой рас­познавания голоса и управления с его помо­щью бортовыми командами. Передовые авто/концерны мира, такие как Ford, BMW, Mercedes, стремятся повысить безопасность и комфорт водителя, поэтому дают возмож­ность управлять бортовой электроникой при помощи голоса («включи радио, включи сле­дующую станцию, позвонить, номер»).

   Разработка системы, позволяющей не отводить взгляд от дороги и не занимать руки водителя лишними манипуляциями. Голос является идеальным решением для управления бортовыми функциями. Отсутст­вие различных кнопок и необходимости их нажимать существенно снижает риск опас­ности отвлечь водителя во время управления автомобилем.

   

Голосовое управление имеет большие пер­спективы на автомобильном транспорте, одна­ко ни отечественные, ни зарубежные автомо­били не могут ощутить «силу слова».

В связи с этим разработана компьютерная система голосового управления и контроля за бортовыми функциями автомобиля. Данная система сможет быть интегрирована в обыч­ный автомобиль и при этом обеспечивать как и удобство во время езды, так и безопасность работы автомобиля.

Сегодня существуют два основных вида техно­логий распознавания голоса. Один из них - это распознавание речи, зависящее от диктора, т.е. пользователь должен сначала научить систему распознавать его голос, и только после этого система может функционировать. Второй - это распознавание речи, не завися­щее от диктора, т. е. система способна распо­знать любую речь, независимо от того, кто говорит. Системы распознавания речи, зави­сящие от диктора (голосозависимые), пред­назначены для одного конкретного пользова­теля. Другие способы распознания, голосоне- зависимые системы разрабатываются для любого пользователя конкретного типа (на­пример, американский английский). Это са­мые сложные в разработке и самые дорогие системы, а точность распознавания у них ниже. Однако эти системы более гибки. Адаптивные системы приспосабливаются к характеристикам нового диктора. Уровень их сложности лежит где-то посередине между голосонезависимыми и голосозависимыми системами. Системы распознавания изолиро­ванных слов работают с дискретными слова­ми - в этом случае требуется пауза между словами. Это самая простая форма распозна­вания, так как в этом случае легко определя­ется конец речевого сигнала, а произношение слова не затрагивает другие слова. Посколь­ку в этих системах количество слов постоян­но, то их легче проектировать. Системы рас­познавания непрерывного речевого сигнала работают с речевым потоком, в котором сло­ва сливаются, т.е. не разделены паузой. Не­прерывную речь обрабатывать гораздо слож­ней по целому ряду причин, во-первых, трудно определить начало и конец слова. Вторая проблема - это коартикуляция. На звучание каждой фонемы влияет звучание соседних фонем, а на начало и конец слов влияют предыдущие и последующие слова. Распознавание непрерывной речи зависит также от скорости речи: с быстрой речью ра­ботать сложнее, чем с медленной.

Размер словаря системы распознавания голо­са влияет на степень сложности, требования к процедурам обработки и точность системы. Одним системам для работы необходимо всего несколько слов (например, только чис­ла), а другие работают с очень большими словарями (например, диктофонные маши­ны). Четких градаций объемов словарей нет. Но обычно словари классифицируются на:

-    маленькие словари - это десятки слов;

-    средние - сотни слов;

-    большие словари - тысячи слов;

-    очень большие словари - это десятки тысяч слов.

Есть еще две проблемы, тесно связанные с объемом словарей. Одна из них касается раз­работки и обеспечения доступа к специаль­ным базам данных (словарям): необходимо обеспечить ведение такой базы и возмож­ность обновления данных для специальных групп пользователей различных профессий, например в медицинской или правовой сфере. Вторая проблема - это проверка грамматики. Ведь программы разрабатываются не только для записи продиктованных слов, но и вклю­чают функции проверки и исправления структур предложений.

Из вышесказанного следует, что системы распознавания голоса требуют огромных ре­сурсов, включая вычислительную мощность, память и сетевые возможности. С распозна­ванием голоса тесно связаны две технологии:

-    цифровая обработка сигнала;

-    распознавание образов.

Методы цифровой обработки сигнала обыч­но осуществляют преобразование, очистку и трансформацию акустического сигнала в цифровой формат данных и другие представ­ления, которые могут непосредственно обра­батываться системой распознавания речи. Эти задачи включают фильтрацию шумовых сигналов, которые примешиваются к звуку при передаче акустических сигналов от вос­принимающих устройств (микрофонов) или по сети. Методы распознавания образов ис­пользуются при выделении и распознавании отдельных слов или предложений речевого потока или в некоторых случаях для иденти­фикации говорящего. Кроме этого, понадо­бится лингвистическая теория - в ней заложе­ны фундаментальные концепции и принципы распознавания речи и понимания языка.

Процесс распознавания голоса проходит в не­сколько этапов. На каждом из этапов для об­работки речевого сигнала используется целый ряд различных методов. Процесс распознава­ния голоса можно разбить на три этапа:

-    получение голосового сигнала и предвари­тельная обработка речи;

-    распознавание фонем и слов;

-    понимание речи.

«Понять» речь - это самое трудное. На этом этапе последовательности слов (пред­ложения) должны быть преобразованы в представления о том, что хотел сказать гово­ривший. Хорошо известно, что понимание речи опирается на огромный объем лингвис­тических и культурных знаний. Большая часть систем распознавания голоса учитыва­ет при этом знания о естественном языке и конкретные обстоятельства. Задача, связан­ная с распознаванием голоса, - распознава­ние говорящего, т.е. процесс автоматическо­го определения, «кто говорит» на основе вхо­дящей в речевой сигнал индивидуальной ин­формации. При этом речь может идти об идентификации или о верификации говоря­щего. Идентификация - это нахождение в из­вестном множестве контрольных фраз эк­земпляра, соответствующего манере данного диктора говорить. Верификация диктора - это определение идентичности говорящего: тот ли это человек? Технология распознавания диктора позволяет использовать голос для обеспечения контроля доступа; например, телефонный доступ к банковским услугам, к базам данных, к системам электронной ком­мерции или голосовой почте, а также доступ к секретному оборудованию. Обе технологии требуют, чтобы пользователь был «занесен в систему», т.е. он должен оставить образец речи, по которому система может построить шаблон. В процессе разработки предприни­мались попытки создать и аппаратную реализацию систем распознавания голоса, но такие системы не показали высоких резуль­татов. Чип поддерживает голосозависимое распознавание на базе словаря, хранимого в постоянном запоминающем устройстве чипа (ROM, read only memory). Словари го- лосозависимых систем хранятся вне чипа и могут быть загружены во время работы сис­темы.

   Для распознавания бортовых команд в авто­мобиле достаточно сложным является подав­ление окружающего шума работы двигателя, внешних звуков дороги и разговора пасса­жиров. Для этого  предложено снимать звук не с общего микрофона, а с микрофонной гарнитуры, которая обеспечи­вает наиболее близкий контакт к голосовым связкам человека.

   Система, кроме управления основными ко­мандами, должна работать и как «умная» электроника. Гибкость программного обес­печения позволяет настроить работу всех функциональных приборов логически. К примеру, самая простая защита от запуска стартера во время того, как двигатель уже ра­ботает. При прокрутке стартером включенно­го мотора изнашиваются шестерни, что в дальнейшем может нарушить запуск машины автомобиля. Данная система будет блокиро­вать ошибочное действие человека и не за­пустит стартер, чем продлит ему срок служ­бы. Естественно, что компьютерная система не смогла бы работать и анализировать про­исходящие процессы без дополнительных встроенных датчиков, которые являются «нервными окончаниями» всей системы.

   Для водителя, который впервые сел за руль автомобиля, будет включен обучающий курс работы с данной системой, в ходе которого ему представится обучить компьютерную про­грамму на распознавание его личного голоса.

   Использование компьютера на бору автомо­биля позволяет расширить функциональ­ность системы дополнительными опциями. Замена зеркала заднего вида на инфракрас­ную камеру ночного видения, которая пере­дает изображение на монитор. В систему за­ложено голосовое управление аудиосистемой (поиск музыки, регулирование громкости и т.п.). А также замена классической системы зажигания на микропроцессорную, роль бло­ка управления которой также возложена на компьютер. Такая система обеспечивает ста­бильную работу двигателя и снижает расход топлива.

   Продолжается модернизация и исправление неточности работы системы, не решена окончательно и проблема отделения речевого сигнала от шумового фона. В настоящее время пользователи систем распознавания голоса вынуждены либо работать в условиях минимального шумового фона, либо исполь­зовать микрофонную гарнитуру. Что касает­ся того чтобы команда, случайно высказан­ная в слух, не запустилась, была добавлена активация по «имени» машины. Например, «Автомобиль, включи фары». Для этого в предыдущем варианте обычно надо нажать кнопку принятия команды. Решение этих проблем началось, и уже получены много­обещающие результаты. Одна из долгождан­ных разработок в области распознавания го­лоса - это человеко-машинные диалоговые системы. Система «умеет» работать с непре­рывным речевым потоком и предпринимать ответные действия. Диалоговый интерфейс в системе позволяет человеку разговаривать с машиной, создавать и получать информацию, решать свои задачи.

Комментарии

Пока нет комментариев

Написать комментарий



KIEVSTAR +38 (096) 050-02-12
MTC +38 (050) 072-48-61
Услуга "Обратный звонок"
Мы перезвоним вам сами
Цены на компьютеры. Объявления Украины и России.
Яндекс цитирования Твитнуть Украина онлайн
Active Search Results