Интеллектуализация человеко-машинного интерфейса предполагает использование системы автоматического синтеза речевых сообщений. В настоящее время разработан целый ряд методов синтеза речи. Выбор того или иного метода определяется различными факторами. Существуют четыре основных вида факторов, от которых зависит выбор метода синтеза[2].
Область применения. Если необходимо произносить ограниченное число фраз, а их произнесение линейно не меняется, то необходимый речевой материал просто записывается на цифровой носитель. С другой стороны, если задача состоит в стимулировании познавательного процесса при чтении вслух, используется совершенно другой ряд методик.
Голосовой аппарат человека. Все системы синтеза речи должны производить на выходе определённую речевую волну, но это не произвольный сигнал. Чтобы получить речевую волну заданного качества, сигнал должен пройти путь от источника в речевом тракте, возбуждающего действие артикуляторных органов, которые функционируют как изменяющиеся во времени фильтры. Артикуляторные органы также накладывают ограничения на скорость изменения сигнала. Они также имеют функцию сглаживания: гладкого сцепления отдельных базовых фонетических единиц в сложный речевой поток.
Структура языка. Ряд возможных звуковых сочетаний определяется природой той или иной языковой структуры. Было обнаружено, что единицы и структуры, используемые лингвистами для описания и объяснения языка, могут также использоваться для характеристики и построения речевой волны. Таким образом, при построении выходной речевой волны используются основные фонологические законы, правила ударения, морфологические и синтаксические структуры.
Технология. Возможности успешно моделировать и создавать устройства для синтеза речи существенно зависят от состояния научно-технических разработок в этой области. Из обзора современных публикаций следует, что речевая наука сделала большой шаг вперед благодаря появлению различных технологий, в том числе: рентгенографии, теории фильтров, спектрального и вейвлет-анализа, а также теории цифровой обработки сигналов. С приходом интегральных сетевых технологий с постоянно возрастающими возможностями стало возможно построение мощных, компактных, недорогих устройств, действующих в реальном времени. Этот факт, вместе с расширением фронта исследований в области синтеза речи, стимулировал дальнейшее развитие систем синтеза речи и их широкое практическое использование.
Основываясь на рассмотренных факторах, можно выделить три основных подхода к синтезу речи:
- параметрический синтез;
- конкатенативный, или компиляционный (компилятивный) синтез;
- синтез по правилам.
Параметрический синтез речи является конечной операцией в вокодерных системах, где речевой сигнал представляется набором небольшого числа непрерывно изменяющихся параметров. Параметрический синтез целесообразно применять в тех случаях, когда набор сообщений ограничен и изменяется не слишком часто. Достоинством такого способа является возможность записать речь для любого языка и любого диктора.
Качество параметрического синтеза может быть очень высоким (в зависимости от степени сжатия информации в параметрическом представлении). Однако параметрический синтез не может применяться для произвольных, заранее не заданных сообщений[5].
Компиляционный синтез сводится к составлению сообщения из предварительно записанного словаря исходных элементов синтеза. Размер элементов синтеза не меньше слова. Очевидно, что содержание синтезируемых сообщений фиксируется объёмом словаря. Как правило, число единиц словаря не превышает нескольких сотен слов. Основная проблема в компилятивном синтезе - объёмы памяти для хранения словаря. В этой связи используются разнообразные методы сжатия/кодирования речевого сигнала.
Компилятивный синтез имеет широкое практическое применение. За рубежом разнообразные устройства (от военных самолётов до бытовых приборов) оснащаются системами речевого ответа. В нашей стране системы речевого ответа до недавнего времени использовались в основном в области военной техники, сейчас они находят всё большее применение в повседневной жизни, например, в справочных службах операторов сотовой связи при получении информации о состоянии счета абонента.
Полный синтез речи по правилам (или синтез по произвольному тексту) обеспечивает управление всеми параметрами речевого сигнала и, таким образом, может генерировать речь по заранее неизвестному тексту. В этом случае параметры, полученные при анализе речевого сигнала, сохраняются в памяти так же, как и правила соединения звуков в слова и фразы.
Синтез реализуется путем моделирования речевого тракта с применением аналоговой или цифровой техники. Причём в процессе синтеза значения параметров и правила соединения фонем вводят последовательно через определённый временной интервал, например 5-10 мс. Метод синтеза речи по произвольному тексту базируется на определении акустических и лингвистических правил и не использует непосредственно элементов человеческой речи. В системах, основанных на этом способе синтеза, выделяется два подхода[1].
Первый подход направлен на построение модели речепроизводящей системы человека и известен под названием артикуляторного синтеза. Второй подход - формантный синтез по правилам. Разборчивость и натуральность звучания таких синтезаторов может быть доведена до уровня, сравнимого с характеристиками естественной речи.
Синтез речи по правилам с использованием предварительно запомненных отрезков естественного языка - это разновидность синтеза речи по правилам, которая получила распространение в связи с появлением возможностей манипулирования речевым сигналом в оцифрованной форме. В зависимости от размера исходных элементов синтеза выделяются следующие его виды: микросегментный (микроволновый), аллофонический, дифонный, полуслоговый, слоговый, синтез из единиц произвольного размера[1].