Правильная ссылка на эту страницу
http://az-design.ru/Support/Archiv/Elc1984/A19841022Elc006.shtml

Одноплатная система распознавания речи

Результатом сотрудничества между французскими государственной исследовательской лабораторией и небольшой микроэлектронной фирмой стало создание системы для распознавания слитной речи, которая может быть интегрирована в имеющейся аппаратуре обработки данных или реализована в виде отдельного периферийного устройства. Кроме того, недорогая одноплатная система речевого ввода базируется на достаточно гибкой архитектуре, что дает возможность в будущем использовать новые алгоритмы и программы в области распознавания речи.

Первоначальные исследования для создания данной системы проводились в лаборатории Национального научно-исследовательского центра связи (CNET), находящейся в Ланьоне, Бретань. Разработанный алгоритм позволяет распознавать до 100 французских слов, соединенных в предложения длиной до 6 слов.

Когда специалисты CNET, используя свой компьютер типа Astre, довели надежность распознавания в среднем до 90%, они обратились к расположенной в Мейлане (близ Гренобля) фирме Xcom S.A. с предложением реализовать полную систему в виде одной печатной платы.

В результате фирма Xcom создала почти готовую для продажи систему речевого ввода на одной плате под названием Seraphine — французский акроним выражения «автоматическая записывающая и распознающая система для интерпретации и исполнения речевых команд». При затратах около 3000 долл. система Seraphine может быть реализована в любом компьютере с шиной Multibus. Отдельное периферийное устройство распознавания речи стоит на 100 долл. дороже.

Одноплатная система распознавания речи Seraphine выполняет динамическое сравнение кодированных предложений с эталонными словами на основе обучения и з
Одноплатная система распознавания речи Seraphine выполняет динамическое сравнение кодированных предложений с эталонными словами на основе обучения и записанных правил синтаксиса.

Летом 1984г. фирма Interstate Voice Products (Орандж, шт. Калифорния) выпустила в продажу плату VocaLink ценой 1650 долл., которая позволяет программировать персональный компьютер фирмы IBM 240 отдельными речевыми командами1{Электроника, 1984, №12, с.4}. Более сложная плата VPC 2000 фирмы Voltan (Фримонт, шт.Калифорния) распознает не изолированные слова, а слитные фразы для речевого набора телефонных номеров и справочной службы, ее цена составляет 2450 долл. Фирма Tecmar Inc. (Солон, шт.Огайо) выпускает устройство ценой 995 долл., распознающее 200 слов.

Система Seraphine зависима от диктора. Перед использованием оператор в течение 10 мин обучает ее, произнося вслух слова из словаря системы. После акустического анализа слова запоминаются в ЗУПВ объемом от 24 до 32 кбайт. Необходимый для конкретного применения синтаксис хранится в отдельной памяти. Сравнивающий модуль сравнивает анализируемую речь с содержимым двух памятей и вырабатывает требуемую команду.

Процесс распознавания речи в системе начинается с того, что оператор произносит команду в широкополосный микрофон. Произнесенная команда проходит через модуль фильтрации, где. от речи отделяется шум. Далее речевой сигнал преобразуется в цифровую форму. Полученная информация на этапах обучения и распознавания подвергается анализу методом кепстра2{Кепстр — спектр мощности логарифма спектра мощности. — Прим. перев.}, который разделяет голосовые и тональные параметры. Такой способ кодирования с низкой скоростью следования информации (2400 бит/с) использует сигнальный процессор типа NEC 7720 для выделения из сигнала наиболее важных параметров каждые 20 мес в виде векторов, состоящих из шести коэффициентов.

Указанные параметры затем сравниваются при помощи микропроцессора 68000 с эталонными словами, записанными в процессе обучения, и с приемлемыми последовательностями слов, хранящимися в синтаксической памяти. В результате процессор генерирует команду. Способ сравнения или распознавания сводится к тому, что микропроцессор вычисляет показатель различия между блоками анализируемой речи. Предложение идентифицируется в виде взаимно связанных эталонных слов, менее всего отличающихся от анализируемой комбинации.

В CNET и фирме Хсот полагают, что их система найдет применение в системах связи для доступа к сетям и организации новых служб, при автоматизации учрежденческих работ и обработке информации, где она сможет в некоторых случаях заменить клавиатуру, а также в промышленности для управления станками и технологическими процессами.

Одно из наиболее привлекательных свойств системы Seraphine — ее гибкость. CNET разрабатывает новые алгоритмы, которые можно будет легко реализовать в этой системе, а ее архитектура позволит даже перейти к фонетическому принципу распознавания речи и тем самым значительно расширить словарь. Однако в последнем случае возрастают требования к производительности компьютера, и микропроцессор 68000 не сможет им удовлетворить.

Сейчас CNET работает над более реальными направлениями по усовершенствованию процесса распознавания речи, используя идентификацию ключевых слов в речевом вводе и создавая независимую от диктора систему, которая не требует стадии обучения. Недавно CNET и фирма Хсот провели эксперимент по оснащению телефонной кабины в Париже системой, распознающей произносимые вслух телефонные номера. Обе организации были удовлетворены достигнутой 90%-ной вероятностью распознавания. Однако некоторых обозревателей больше удивил факт, что ни кабина, ни система распознавания речи не были разграблены [No.27, pp.17,18].

Роберт Т. Галлахер

Выходные данные:

Журнал "Электроника" том 57, No.21 (702), 1984г - пер. с англ. М.: Мир, 1984, стр.9

ElectronicsWeek Vol.57 No.27 October 15, 1984 A McGraw-Hill Publication

ElectronicsWeek Vol.57 No.28 October 22, 1984 A McGraw-Hill Publication

Раздел: ОБОЗРЕНИЕ ЭЛЕКТРОННОЙ ТЕХНИКИ

Тема:     Обработка речи





Дата последнего изменения:
Thursday, 21-Aug-2014 09:10:55 MSK


Постоянный адрес статьи:
http://az-design.ru/Support/Archiv/Elc1984/A19841022Elc006.shtml