Правильная ссылка на эту страницу
http://az-design.ru/Support/HardWare/SGS-ATES/B19830519Elc014.shtml

Попытка создания многоязычной системы распознавания речи на основе фонемного анализа

Для удовлетворения потребностей своих многоязычных потребителей фирма Ing. C. Olivetti & Со. (Ивреа, Италия) работает над созданием системы распознавания речи, базирующейся на анализе мельчайших единиц речи — фонем. Фирма считает, что такой подход поможет ей найти приемлемое в технико-экономическом отношении решение проблемы создания системы распознавания речи для испанского, английского, французского, немецкого и итальянского языков, в которой обеспечивался бы достаточный компромисс между такими принципиально важными характеристиками, определяющими ценность системы, как зависимость от говорящего, размеры словаря и возможность распознавания непрерывной речи.

«В конце концов теоретически цель у всех одна: разработать систему, которая обеспечивала бы распознавание связной речи, была бы независимой от говорящего и имела бы неограниченный словарь без каких бы то ни было синтаксических ограничений,— отмечает Витторе Витторелли, управляющий фирмы Olivetti по системам обработки речи в Техническом научно-исследовательском центре (Ивреа). — По существу это означает возможность замены человека в обычной разговорной ситуации машиной.

Полная эмуляция этого процесса сейчас была бы, вероятно, невозможной и, разумеется, слишком дорогой для промышленных применений фирмы Olivetti, однако нет причин, препятствующих воспроизведению этого процесса частично». Это представляет собой компромисс между полным распознаванием речи и оповещением пользователя при помощи усложненных сообщений-напоминаний в целях контроля.

Задача разделена. Представители фирмы Olivetti подчеркивают, что это исследовательский проект и какого-либо практического выхода можно ожидать не ранее, чем через несколько лет. Фирма разделила задачу на две основные части: обработка сигнала, необходимая для распознавания произнесенной речи, и интерфейс между пользователем и машиной. В первой части работы базируются на применении линейного предиктивного кодирования главным образом потому, что этот метод обеспечивает выдачу как гласных, так и согласных звуков с параметрами высоты основного тона для гласных звуков.

В помощь проведению работ по распознаванию речи фирма намерена также использовать всю имеющуюся в наличии информацию относительно лексических и синтаксических ограничений, а также статистические данные о частоте появления различных слов и словосочетаний. Таким образом, если входное речевое сообщение нельзя идентифицировать сразу по его собственному критерию, машина может произвести экстраполяцию команды, используя для этой цели комбинацию результатов обработки сигнала и имеющихся данных.

В основном процесс распознавания будет происходить следующим образом. После преобразования входного речевого сигнала в цифровую форму будет осуществляться его выборка с частотой 18 000 раз/с, что эквивалентно частоте 9 кГц, с перекрывающимися промежутками длительностью 30 мс. Затем будут сравниваться речевые характеристики с набором фонем оператора, полученным в результате короткого периода обучения, и с перечнем приемлемых для машины команд. Будучи идентифицирована, такая команда может затем обрабатываться точно так же, как любая поступившая от другого устройства ввода, например с клавиатуры.

Если же машина не может идентифицировать команду даже с имеющимися в ее распоряжении возможностями обработки сигнала и данными, то именно на этом этапе вступает в действие интерфейс человек-машина. По словам Витторелли, оператор должен в реальном времени получить от машины обратную связь относительно того, почему машина не поняла команду.

«Машина должна сообщить оператору что-нибудь наподобие следующего: «Вот, что я поняла, и это не соответствует модели, которую я распознаю» или «я не могу уловить различие между х и у с тем, чтобы оператор мог внести коррективы и в конечном счете предотвратить ошибки,— объясняет он. — Что мы действительно стараемся сделать, так это приуменьшить роль идеи распознавания речи и заменить ее концепцией управления машиной с использованием речи».

Сравнения. Хотя давать конкретное определение интерфейсу между пользователем и машиной еще рано, фирма Olivetti проводит эксперименты по графическому представлению входного сигнала, поступающего от оператора, посредством которого осуществляется сравнение этого речевого сигнала, например с гласными звуками, которые экстраполированы машиной на основании фонемного анализа в процессе обучения. Чтобы добиться успеха, фирме наверняка придется мобилизовать весь свой опыт и знания в области эргономики.

Несмотря на то что концепция взаимодействия пользователя с машиной, несомненно, будет еще развиваться, фирма Olivetti тверда в своем намерении придерживаться принципа фонемного распознавания (см. «Упрощенный подход к решению проблемы создания многоязычных систем распознавания речи»). Она убеждена, что ее выбор дает большие возможности для решения проблемы распознавания связной речи и свободен от ряда недостатков, присущих распознаванию на уровне слов или по речевым шаблонам таких, как необходимость в большом объеме памяти, зависимость длительности времени вычисления и периода обучения от объема словаря, одинаковый вес речевых шаблонов независимо от их семантического соответствия данному контексту и необходимость сегментации слов в связной речи.

«Фонемное распознавание, с другой стороны, по многим причинам представляет собой потенциально более гибкий и удобный для пользователя метод взаимодействия с машиной»,— говорит Витторелли. Оно позволяет создавать системы, зависимые и независимые от говорящего. В первом случае процедура обучения ограничивается набором фонем. Кроме того, при достаточно высокой точности распознавания выделение границ слова не является больше проблемой. И наконец, структура словаря может включать в себя данные о семантической уместности каждого фонема в пределах используемых в словаре слов [pp.88,92].

Роберт Т. Галлахер

Дочерние статьи:

Упрощенный подход к решению проблемы создания многоязычных систем распознавания речи

Выходные данные:

Журнал "Электроника" том 56, No.10 (666), 1983г - пер. с англ. М.: Мир, 1983, стр.17

Electronics Vol.56 No.10 May 19, 1983 A McGraw-Hill Publication

Раздел: ЭЛЕКТРОНИКА ЗА РУБЕЖОМ

Тема:     Италия





Дата последнего изменения:
Thursday, 21-Aug-2014 09:10:44 MSK


Постоянный адрес статьи:
http://az-design.ru/Support/HardWare/SGS-ATES/B19830519Elc014.shtml