Фонемный цифровой синтез

V.I.P. Сообщений : 184 Репутация : 7

Фонемный цифровой синтез

Широкое распространение в настоящее время получил фонемный цифровой синтез, основанный на генерации фонем и дальнейшей компиляции из них слов и фраз. Этот подход сочетает компактность цифровых методов обработки с гибкостью управления основными параметрами речи, что свойственно формантным моделям. Процесс кодирования необходимого словаря здесь заменен компиляцией произвольных сообщений из набора заранее закодированных элементов речи.

Фонемный цифровой синтезатор (рис. 8.13) содержит три уровня обработки [22]. На первом уровне происходит перекодировка последовательности орфографических символов, представленных в закодированном виде в последовательность кодов фонем; на втором рассчитывается набор акустических параметров, который служит для управления третьим уровнем - формированием выходного речевого сигнала. Текст преобразуется в фонемную форму двумя способами: 1) если входное слово имеется в словаре системы, то оно однозначно переводится в последовательность фонем; 2) если же слово отсутствует в словаре, то производится преобразование по правилам. Поскольку все правила имеют исключения, а исключения по существу, требуют собственных словарей, то преобразования по правилам могут дать ошибку в произношении. Поэтому в словарь вносятся сокращения и ходовые иностранные слова.

На втором уровне обработки вычисляется набор управляющих параметров. Этими параметрами являются формантные частоты (F1,F2,F3)и полосы (deltaF1,deltaF2,deltaF3), частота основного тона и амплитуда вокализации. Набор параметров обновляется каждые 6,4 мс. Такой интервал позволяет хорошо отслеживать самые быстрые переходы между фонемами.

Скорость передачи информации от второго уровня к третьему составляет 45 тыс.бит/с.

Синтез речи осуществляется на третьей стадии. Сигналы возбуждения (гармонический и шумовой) фильтруются формантными резонансными фильтрами голосового тракта.

Частота выборок сигнала равна 10 кГц, что позволяет передавать частотные составляющие до 5 кГц. Структура данного синтезатора реализована на цифровом процессоре сигналов TMS 32010 фирмы «Техас инструментс».

Рис. 8.13 - Структурная схема цифрового фонемного синтезатора