Базовая технология

Не следует путать термины «понимание» и распознавание» речи. В то время как второй непосредственно относится к техноло­гии преобразования акустических речевых сигналов в последова­тельность символов машинной кодировки, например ASCII. первый подразумевает анализ более высоких уровней (прагматический, семантический и т. д.) и формирование на его основе представле­ния о смысловом содержании высказывания. Дальнейшее разграничение задан укрепилось благодаря коммерческому успеху узкоспециализированных систем, ни в малейшей степени не нуждающихся, напри­мер, в модуле анализа контекста высказывания.

Традиционно процесс распознавания речи подразделяется на несколько этапов. На первом - производится дискретизация непрерывного речевого сигнала. преобразованного в электрическую форму Обычно частота дискретизации составляет 10-11 кГц. разрядность- 8 бит, что считается оптимальным для работы со словарями небольшого объема (10-1000 слов) и соответствует качеству передачи речи телефонного канала (ЗГц- 3.4кГц). понятно что увеличение объема активного словаря должно со­провождаться повышением частоты оцифровки н в некоторых случаях - поднятием разрядности.

На втором этапе дискретный речевой сигнал подвергается очистке от шумов и преобразуется в более компактную форму. Сжатие производится посредством вычисления через каждые 10 мс некоторого набора числовых параметров (обычно не более 16) с минимальными потерями информации, описывающей данный речевой сигнал. Состав набора зависит от особенностей реализации системы. Начиная с 70-х годов наиболее популярным методом (практически стандартом) построения сжатого параметрического описания стало линейно-предиктивное кодирование (ЛПК), в основе которого лежит достаточно совершенная линейная модель голосового тракта. На втором месте по популярности находится, вероятно, спектральное описание, полученное с помощью дискретного преобразования Фурье.

Очень хорошие результаты, однако, могут быть достигнуты и при использовании других методов, часто менее требовательных к вычислительным ресурсам, например клипирования. В этом случае регистрируется количество изменений знака амплитуды речевого сигнала и временные интервалы между ними. Получаемая в резуль­тате последовательность значений, представляющих собой оценку длительностей периодов сохранения знака амплитудой, несмотря на кажущуюся примитивность метода, достаточно полно представляет различия между произносимыми звуками. На таком методе предоб­работки основана, в частности, система распознавания речи, разра­ботанная в конце 80-х в НИИ счетного машиностроения (Москва).

Временной (10 мс) интервал вычисления был определен и обос­нован экспериментально еще на заре развития технологии авто­матического распознавания речи. На этом интервале дискретный случайный процесс, представляющий оцифрованный речевой сиг­нал считается стационарным, то есть на таком временном интер­вале параметры голосового тракта значительно не изменяются.

Следующий этап- распознавание. Хранимые в памяти компь­ютера эталоны произношения по очереди сравниваются с текущим участком последовательности десяти миллисекундных векторов, описывающих входной речевой сигнал. В зависимости от степени совпадения выбирается лучший вариант и формируется гипотеза о содержании высказывания. Здесь мы сталкиваемся с очень суще­ственной проблемой - необходимостью нормализации сигнала по времени. Темп речи, длительность произношения отдельных слов и звуков даже для одного диктора варьируется в очень широких пределах. Таким образом, возможны значительные расхождения между отдельными участками хранимого эталона и теоретически совпадающим с ним входным сигналом за счет их временного рассогласования. Достаточно эффективно решать данную пробле­му позволяет разработанный в 70-х годах алгоритм динамического программирования и его разновидности (алгоритм Витерби). Осо­бенностью таких алгоритмов является возможность динамического сжатия и растяжения сигнала по временной оси непосредственно в процессе сравнения с эталоном. С начала 80-х все более широкое применение находят марковские модели, позволяющие на основе многоуровневого вероятностного подхода к описанию сигнала производить временную нормализацию и прогнозирование продолжений , что ускоряет процесс перебора эталонов и повышает надежность распознавания.

 
Оригинал текста доступен для загрузки на странице содержания
< Пред   СОДЕРЖАНИЕ   Загрузить   След >