Ввод текста

Обработки языка текста ошибок

Подготовка текста входного текста

к озвучиванию

Нормализация текста

Лингвистический анализ

Формирование Фонемный транскриптор

Просодических Приведение фонем

характеристик к единицам синтеза

Озвучивание Формирование управляющей информации

Получение звукового сигнала

Звук

Она не описывает ни одну из суще­ствующих реально систем, но со­держит компоненты, которые мож­но обнаружить во многих системах.

Модуль лингвистической обработки

Прежде всего, текст, подлежащий прочтению, поступает в модуль лингвистической обработки. В нем производится определение языка , а также отфильтровываются не подлежащие произнесению символы. В некоторых случаях ис­пользуются спелчекеры (модули исправления орфографических и пунктуационных ошибок). Затем происходит нормализация текста, то есть осуществляется разделе­ние введенного текста на слова и остальные последовательности символов.Все знаки пунктуации очень информатив­ны.

Для озвучивания цифр разра­батываются специальные подблоки. Преобразование цифр в по­следовательности слов является относительно легкой задачей, но цифры имеющие разное значение и функцию, про­износятся по-разному.

Лингвистический анализ

После процедуры нормализации каждому слову текста необходимо приписать сведения о его произношении, то есть превратить в цепочку фонем или, иначе говоря, создать его фо­немную транскрипцию. Во многих языках, в том числе и в русском, существуют достаточно регулярные правила чтения - правила со­ответствия между буквами и фоне­мами (звуками), которые, однако могут требовать предварительной расстановки словесных ударений. В английском языке правила чте­ния очень нерегулярны, и задача данного блока для английского синтеза тем самым усложняется. В любом случае при определении произношения имен собственных, заимствований, новых слов сокращений и аббревиатур возника­ют серьезные проблемы. Просто хранить транскрипцию для всех слов языка не представляется воз­можным из-за большого объема словаря и контекстных изменении произношения одного и того же слова во фразе.

Кроме того, следует корректно рассматривать случаи графиче­ской омонимии: одна и та же последовательность буквенных сим­волов в различных контекстах по­рой представляет два различных слова/словоформы и читается по- разному (ср. выше приведенный

пример слова «замок»). Часто удается решить проблему неод­нозначности такого рода путем грамматического анализа, однако иногда помогает только исполь­зование более широкой семанти­ческой информации.

Для языков с достаточно регу­лярными правилами чтения од­ним из продуктивных подходов к переводу слов в фонемы является система контекстных правил, пе­реводящих каждую букву/буква - сочетание в ту или иную фонему, то есть автоматический фонем­ный транскриптор. Однако чем больше в языке исключений из правил чтения, тем хуже работает этот метод. Стандартный способ улучшения произношения систе­мы состоит в занесении нескольких тысяч наиболее употребительных исключений в словарь. Аль­тернативное подходу «слово - буква-фонема» решение предпо­лагает морфемный анализ слова и перевод в фонемы морфов (то есть значимых частей слова: при­ставок, корней, суффиксов и окон­чаний). Однако в связи с разными пограничными явлениями на сты­ках морфов разложение на эти элементы представляет собой зна­чительные трудности. В то же вре­мя для языков с богатой морфо­логией, например, для русского. словарь морфов был бы компакт­нее. Морфемный анализ удобен еще и потому, что с его помощью можно определять принадлежность слов к частям речи, что очень важно для грамматического ана­лиза текста и задания его просодических характеристик. В английских системах синтеза морфем­ный анализ был реализован в сис­теме MiTalk, для которой процент ошибок транскриптора составляет 5%.

Особую проблему для данного этапа обработки текста образуют имена собственные.

Формирование просодических характеристик

К просодическим характеристи­кам высказывания относятся его тональные, акцентные и ритмиче­ские характеристики. Их физиче­скими аналогами являются часто­та основного тона, энергия и дли­тельность. Таким обра­зом, от системы синтеза следует ожидать примерно того же, то есть, что она сможет понимать имею­щийся у нее на входе текст, ис­пользуя методы искусственного интеллекта. Однако этот уровень развития компьютерной техноло­гии еще не достигнут, и большин­ство современных систем автома­тического синтеза стараются корректно синтезировать речь с эмоционально нейтральной интона­цией. Между тем, даже эта задача на сегодняшний день представля­ется очень сложной .

 
Оригинал текста доступен для загрузки на странице содержания
< Пред   СОДЕРЖАНИЕ   Загрузить   След >