Правильная ссылка на эту страницу
http://az-design.ru/Support/HardWare/GEC/D19840126Elc028.shtml

Схемы распознавания и синтеза речи в одной ИС

УДК 621.3.049.771.14:534.78

Н. Рао Вемула (N. Rao Vemula)
Отделение микроэлектроники фирмы General Instrument Corp. (Хиксвилл, шт.Нью-Йорк)

N. Rao Vemula. Single IС can perform speech recognition and synthesis, pp.120—122.

Описана ИС SP1000 фирмы General Instrument, которая, работая под управлением 8-разрядного микропроцессора, осуществляет как распознавание, так и синтез речи. Мостовой фильтр с изменяемой конфигурацией реализует в зависимости от режима работы передаточные функции с одними нулями или полюсами. Применение адаптивной фильтрации для выделения ЛПК-параметров уменьшает объем вычислений и емкость необходимой памяти.

ИС типа SP1000 знаменует собой новое достижение в области распознавания и синтеза речи, поскольку, работая совместно с микропроцессором, она реализует обе эти функции благодаря применению фильтра с изменяемой конфигурацией. Указанная ИС (рис.1) синтезирует высококачественную речь и одновременно является системой распознавания речи с параметрами, определяемыми пользователем. Соответствующим программированием выбирается зависимый или независимый от голоса диктора режим распознавания. Это единственная в своем роде однокристальная система, которая в реальном времени, используя линейное предиктивное кодирование, осуществляет как анализ, так и синтез речи2{Электроника, 1983, №23, «Обозрение электронной техники»}. Изготовленная по n-канальной МОП-технологии схема взаимодействует непосредственно с большинством микропроцессоров через двунаправленную 8-разрядную шину данных и восемь управляющих линий.

Осуществить указанные функции в одном кристалле удалось главным образом благодаря новому способу выделения ЛПК-параметров. Если в обычном линейном предиктивном кодировании анализ производится методами автокорреляции или ковариации, каждый из которых требует памяти емкостью не менее 3К, то в ИС типа SP1000 для этого достаточно 300 бит внутренней памяти. Такое снижение объема памяти удалось получить благодаря применению оригинального адаптивного фильтра. В нем встроенная обратная связь обновляет коэффициенты фильтра таким образом, чтобы быстро отслеживать изменяющиеся во времени параметры входного речевого сигнала. Адаптивная фильтрация устраняет необходимость в сложных расчетах и обеспечивает выделение параметров входного сигнала в любых точках.

Схема распознавания

В режиме распознавания входная фильтрация производится двухполюсным фильтром Баттерворта, причем для получения высоких технических характеристик достаточно использовать внешний 8-разрядный аналого-цифровой преобразователь. Так как алгоритм реализован микропрограммно, то его можно обновлять в соответствии с последними достижениями в области распознавания речи, не изменяя аппаратную часть Сэкономить память процессора и упростить схему удалось также благодаря применению восьмизвенного мостового ЛПК-фильтра, содержащего в передаточной функции одни нули. Коэффициенты, определяемые при помощи управляющей обратной связи, усредняются в фиксированных временных интервалах, в результате чего коэффициенты изменяются плавно и точно отображают параметры входного сигнала.

С целью дальнейшего усовершенствования ИС и получения точных значений параметров сигнала система распознавания содержит усилитель с автоматической регулировкой усиления, который поддерживает практически неизменной амплитуду входного сигнала. ИС SP1000 генерирует управляющие сигналы для этого усилителя. Значения указанных сигналов определяются путем вычисления мгновенной амплитуды входного сигнала в движущемся временном стробе.

Синтез — более простая операция, которая осуществляется без использования управляющей обратной связи. В этом режиме фильтр преобразуется в десятизвенное устройство с одними полюсами и загружается извне ЛПК-коэффициентами синтезируемого речевого кадра. Микропроцессор считывает хранящиеся в памяти стандартные коды и направляет соответствующие параметры речевого сигнала в ИС SP1000. В режиме синтезатора мостовой фильтр почти нечувствителен к степени квантования коэффициентов фильтра.

Архитектура

Конфигурация ИС предусматривает обновление ЛПК-коэффициентов синхронно в каждом периоде высоты тона либо асинхронно в фиксированных временных интервалах. Имеются два идентичных блока с изменяемой конфигурацией для хранения коэффициентов: один выполняет функпии буфера при работе с внешним микропроцессором, а второй содержит информацию для фильтра синтезатора. В этих блоках хранится информация о коэффициентах фильтра, амплитуде возбуждающего сигнала и периоде тона для таймера.

Собранная в корпусе типа DIP с 28 выводами ИС SP1000 выполнена на кристалле размером 5,1*4,1 мм. На микрофотографии (рис.1) регистры данных расположены внизу слева, мостовой фильтр с изменяемой конфигурацией — внизу справа, а блок возбуждающих сигналов — вверху справа. В большинстве применений ИС соединяется с 8-разрядным микропроцессором и другими схемами (рис.2). В числе восьми управляющих линий для связи ИС со стандартным микропроцессором имеются линия строба, линия выборки кристалла, две адресные линии, линия запроса прерывания, линия чтения-записи, линия ожидания и линия сброса.


Рис.1. Речевая ИС. Используя передаточные функции с одними нулями и с одними полюсами в одном мостовом фильтре с изменяемой конфигурацией, n-канальная МОП ИС SP1000 фирмы Genera! Instrument с 5-В питанием осуществляет как распознавание, так и синтез речи. Кристалл размером 5,1*4,1 мм установлен в корпусе типа DIP с 28 выводами и управляется микропроцессором.

Двойная функция. В режиме распознавания ИС SP1000 включена на входе системы и в реальном времени выделяет ЛПК-параметры из речевого сигнала. При синте
Рис.2. Двойная функция. В режиме распознавания ИС SP1000 включена на входе системы и в реальном времени выделяет ЛПК-параметры из речевого сигнала. При синтезе ИС синтезирует речевые сигналы, используя поступающие от микропроцессора ЛПК-параметры.

Обычно при работе с микропроцессором ИС SP1000 занимает четыре ячейки памяти в адресном пространстве процессора. Процессор может считывать из ИС или записывать в нее 8-разрядную информацию при помощи стандартного протокола работы с периферийными устройствами. Однако при передаче коэффициентов в ИС записывается 9-разрядное слово, что обеспечивает повышенную точность. Девятый бит передается по линии самого младшего разряда в адресной шине. Информация передается по линиям данных при условии, что линия строба ИС SP1000 находится в активном состоянии. Линия записи-чтения управляет направлением передачи информации, в то время как адресные линии выбирают в качестве источника или получателя данных конкретный регистр в ИС. Другими словами, адресные линии совместно с линией записи-чтения управляют работой системы.

Четыре ячейки в ИС SP1000 доступны для шины данных процессора. Информация может записываться во все четыре ячейки, но процессор может считывать только три из них. Выборка ячеек производится адресными линиями А0 и A1 и линией записи-чтения. Операции и соответствующие им коды операций приведены в таблице.

Выборка ячеек памяти при чтении-записи

Коды операций

Операция

Линия чтения-записи, R/W

A1

А0

Ячейка выбрана

0

0

0

Запись в управляющий регистр

0

0

1

Запись в адресный регистр параметров

0

1

0

Запись в регистр входных данных при значении самого младшего разряда 0

0

1

1

Запись в регистр входных данных при значении СМР=1

1

0

0

Считывание регистра состояний

1

0

1

Не используется

1

1

0

Считывание регистра выходных данных

1

1

1

Считывание регистра выходных данных и инициация вызова следующего параметра

Чтобы отличать информацию управления и состояний от параметрической информации, последняя хранится в двух больших регистрах, период рециркуляции которых идентичен периоду выборки. Доступ к требуемому параметру разрешается только один раз в каждом периоде рециркуляции в режиме поразрядной последовательной передачи. Поэтому процессор осуществляет доступ к этой информации косвенно через специальный интерфейс в ИС SP1000.

Конфигурация системы

Для целей распознавания интерфейс системы строится из трех секций. Первая связывает ИС с управляющим процессором, вторая обеспечивает связь пользователя с ИС через микрофон, и последняя генерирует сигналы синхронизации для устройства. Звуковой сигнал с микрофона ограничивается по полосе в диапазоне 250—3200 Гц и подается к усилителю с АРУ, коэффициент усиления которого регулируется тремя линиями управления усиления ИС SP1000. Поскольку этот усилитель с переключаемым коэффициентом усиления вносит в систему некоторые высокочастотные составляющие, его выходной сигнал пропускается через шумоподавляющий фильтр с частотой среза около 3200 Гц. Затем при помощи 8-разрядного аналого-цифрового преобразователя указанный сигнал преобразуется в цифровую форму с частотой выборки 6,25 кГц.

Цифровые выборки речевого сигнала поступают в ИС SP1000, которая в реальном времени вычисляет ЛПК-коэффициенты отражения и мгновенную амплитуду. Каждые 20 мс микропроцессор считывает указанную информацию. По отношению к звуковому сигналу ИС SP1000 действует как устройство выделения параметров и сжатия данных. В моменты готовности данных она генерирует для процессора сигнал прерывания.

Когда диктор обучает систему распознавать свой голос, функции ИС SP1000 почти не меняются, но что касается процессора, то он после окончания обучения работает совершенно по-иному. В ходе обучения процессор создает эталоны в виде набора параметров, которые записывает в память. Для каждого слова из словаря он запоминает 108 байт информации — 12 векторов на одно слово, где каждый вектор содержит восемь коэффициентов отражения и один параметр для амплитуды.

При решении типовой задачи распознавания процессор сравнивает эталоны с входными сигналами. Слово в памяти, имеющее наименьшее расстояние распознавания от входного слова, считается подобранным к входному сигналу. Точность распознавания зависит от таких факторов, как количество слов в словаре, лингвистическое подобие слов, уровень окружающих шумов, качество микрофона, число разрядов аналого-цифрового преобразователя, частота выборки.

В случае синтеза процессор считывает значения параметров из своей памяти и направляет их в ИС SP1000. Параметры синтеза рассчитываются на мини-ЭВМ и записываются в память микропроцессора. ИС SP1000 устанавливает конт фигурацию мостового фильтра с одними полюсами и синтезирует цифровые выборки речевого сигнала, выбирая один из нескольких программно управляемых источников возбуждения. Эти цифровые выборки преобразуются в аналоговую форму находящимся в ИС цифро-аналоговым преобразователем. Результирующий синтезированный ШИМ-сигнал проходит через внешний фильтр нижних частот и через усилитель звуковых частот поступает к громкоговорителю.

Генерирование ЛПК-параметров из аналогового сигнала включает преобразование в цифровую форму, автоматическое или ручное деление на временные сегменты, ЛПК-анализ, расчет высоты тона и энергии, кодирование полученных в результате анализа параметров. После выборки аналогового сигнала с частотой от 8 до 10 кГц преобразованное в цифровую форму напряжение разделяется на звонкие, глухие и немые сегменты и кадры, которые затем анализируются с целью расчета ЛПК-коэффициентов, высоты тона и энергетических параметров. Вычисленные параметры квантуются на число разрядов, отведенное для каждого параметра, и затем кодируются.

Возможные применения ИС

Зависимая от диктора система распознавания изолированных слов, состоящая из ИС SP1000 и микропроцессора PIC7041 фирмы General Instrument, обеспечивает 98%-ную точность распознавания одного из 20 слов словаря. Аналогичную систему можно создать на базе других 8-разрядных микропроцессоров. Такая система использует обнаружение границ распознаваемого слова, измерение чебышевского расстояния между кадрами и алгоритм динамического временного искажения, который предназначен для выравнивания слов и их точного распознавания. Последний обеспечивает работу системы в тех случаях, когда один и тот же диктор произносит слово по-разному в разные времена. Система может найти применение в домашних и промышленных охранных устройствах, при проверке качества изделий, речевом вводе данных в компьютер, операциях сортировки и обработки материалов, а также в играх и игрушках.

ИС SP1000 может найти применение и в системах распознавания, которые по телефону обеспечивают пользователю доступ к банковской и биржевой информации. И наконец, ее можно даже использовать в машинах взаимных пари для игроков, которые делают свои ставки в самый последний момент.

Выходные данные:

Журнал "Электроника" том 57, No.02 (683), 1984г - пер. с англ. М.: Мир, 1984, стр.48

Electronics Vol.57 No.02 January 26, 1984 A McGraw-Hill Publication

N. Rao Vemula. Single IС can perform speech recognition and synthesis, pp.120—122.

Раздел: МЕТОДЫ, СХЕМЫ, АППАРАТУРА

Тема:     Компоненты





Дата последнего изменения:
Thursday, 21-Aug-2014 09:10:44 MSK


Постоянный адрес статьи:
http://az-design.ru/Support/HardWare/GEC/D19840126Elc028.shtml