Синтез естественной русской речи при помощи метода UNIT SELECTION

V.I.P. Сообщений : 184 Репутация : 7

Синтез естественной русской речи при помощи метода UNIT SELECTION
Е. A. Корольков, И. А. Главатских, А. О. Таланов, В. В. Киселев, И. В. Опарин
ООО «Центр речевых технологий» (Санкт-Петербург)

Синтез русской речи по тексту
Существует несколько подходов к организации автоматического синтеза речи по тексту. К основным можно отнести синтез по правилам (формантный синтез), артикуляторный синтез, компилятивный синтез, синтез на основании статистических моделей (HMM-синтез). До последнего времени наиболее распространенной технологией синтеза являлся компилятивный аллофонный (или дифонный) синтез. Однако на данный момент наилучшие результаты достигаются с использованием другой разновидности компилятивного синтеза – технологии Unit Selection. Данная технология позволяет достичь максимальной естественности синтезированной речи. Синтез на основании статистических моделей хоть и является наиболее молодым и весьма активно развивающимся подходом, по качеству значительно уступает Unit Selection, основанному на корректно отсегментированной на разных уровнях речевой базе данных большого объема.

Анализ публикаций и существующих систем синтеза речи для разных языков позволяет утверждать, что технология Unit Selection является наиболее перспективной в плане достижения максимальной естественности синтезированной речи. Стоит отметить, что на настоящий момент не существует разработанных в России полноценных реализаций данной технологии для синтеза русской речи. Как следствие, в рамках работы по созданию новой системы синтеза русской речи, осуществляемой ООО «Центр речевых технологий», в основу системы было решено положить технологию Unit Selection, совместив ее с аллофонным синтезом.

Метод Unit Selection.
Основы. Классический подход
Для создания естественно звучащей речи по полученной на ранних этапах работы синтезатора фонетико-просодической последовательности подбираются наиболее подходящие элементы из большой речевой базы. Для того чтобы определить, насколько тот или иной элемент базы подходит для синтеза данной единицы, вводятся понятия стоимости замены (англ. target cost) и стоимости связи (англ. concatenation cost). Стоимость замены для элемента из базы по отношению к искомому элементу вычисляется по формуле

Синтез естественной русской речи при помощи метода UNIT SELECTION 261-1

Другими словами, это есть взвешенная сумма различий в признаках между требуемым элементом и конкретным элементом речевой базы. В качестве признаков могут выступать любые уместные, с точки зрения разработчика, просодические и лингвистические характеристики элементов. Как правило, используется следующая информация: частота основного тона (ЧОТ), длительность, контекст, позиция элемента в слоге, слове, количество ударных слогов во фразе и другие.

Выбранные элементы должны не только мало отличаться от целевых, но и хорошо соединяться друг с другом. Функция стоимости связи двух элементов может быть определена как взвешенная сумма различий в признаках между двумя последовательно выбранными элементами

Синтез естественной русской речи при помощи метода UNIT SELECTION 261-2

Общая стоимость для целой последовательности из n элементов есть сумма введенных выше стоимостей

Синтез естественной русской речи при помощи метода UNIT SELECTION 261-3-1

Синтез естественной русской речи при помощи метода UNIT SELECTION 261-3-2

Задача US — выбрать такое множество U1,U2,...Un которое бы минимизировало общую стоимость согласно формуле (3).

Стоимость замены
Основное назначение функции стоимости замены — оценивать, в какой мере подходит данная единица речевой базы к требуемому элементу. В связи с этим, стоимость замены должна отражать, как сильно различия в характеристиках влияют на восприятие замены одного элемента другим. При построении этой функции, как правило, руководствуются одним из следующих принципов: независимых признаков и акустического пространства.

Принцип независимых признаков.
В этом случае расстояние для каждого признака считается независимо от других, взвешивается и затем общая стоимость считается как некоторая функция полученных расстояний. В качестве такой функции можно использовать простую сумму (1). Функции определяют расстояния для каждой отдельно взятой характеристики. Для категориальных это может быть простое бинарное решение, совпадают они или нет. Для непрерывных (например, ЧОТ) это может абсолютное расстояние или его логарифм. Различия в одних характеристиках оказывают больше влияния на восприятие замены, чем в других. Эта разница отражается в выборе весов для конкретного расстояния. Для установки весов существует несколько подходов: автоматический подбор на основе объективной меры, перцепционный, ручная настройка.

Автоматический подбор на основе объективной меры. Суть этого подхода заключается в попытке найти такой набор весов, который минимизировал бы акустическое расстояние между синтезированным и эталонным выражениями. Для оценки близости требуется метрика, поставляющая расстояния между синтезированными и эталонными высказываниями. Высказывания, воспринимаемые на слух как сходные, должны иметь маленькое расстояние между собой. Для нахождения оптимальных весов достаточно воспользоваться методом линейной регрессии. Задача определения такой метрики является отдельной проблемой. При таком подходе веса могут подбираться индивидуально для каждой единицы базового типа.

Перцепционный. Слабое место предыдущего подхода заключается в том, что разработчик во многом полагается на акустическую меру, которая лишь частично соответствует человеческому восприятию. В рамках данного подхода ставится эксперимент, в котором людей просят оценить синтезированные предложения, а затем тренируют модель согласно полученным оценкам. Очевидный недостаток — большие временные затраты и сложность в организации эксперимента.

Ручная настройка. Проектировщик системы полностью полагается на свой опыт. В ходе тестирования системы веса постепенно уточняются. Главное преимущество - полный контроль над процессом.
Очевидным плюсом принципа независимых признаков при построении функции стоимости замены является небольшое число подлежащих настройке весов (равное количеству используемых признаков). Однако предположение независимого влияния весов на общую стоимость является слишком сильным. Яркой демонстрацией слабости этого принципа является тот факт, что два различных набора характеристик будут неминуемо иметь ненулевое расстояние. Это противоречит нашим знаниям о речи, которые как раз говорят о том, что различные комбинации характеристик зачастую проецируются в одну акустическую реализацию.

Принцип акустического пространства.
Главная идея этого подхода заключается в кластеризации единиц базового типа по просодическому и фонетическому контекстам. Блэк и Тэйлор предложили следующую схему кластеризации.
Вводится объективная мера для измерения расстояний между единицами одного базового типа. Опять же, выбор подходящей акустической меры — отдельное поле для исследований. В своей работе авторы используют взвешенное расстояние Махаланобиса на коэффициентах MFCC (Mel Frequency Cepstral Coefficients) , ЧОТ, мощности и их дельтах (производных первого порядка). Акустическое расстояние между двумя единицами — это среднее по всем фреймам внутри единиц плюс среднее по X% фреймов единиц, предшествующих рассматриваемым (близкие единицы будут иметь сходный левый контекст):

Синтез естественной русской речи при помощи метода UNIT SELECTION 261-6

где U,V — элементы одного базового класса,
|U|<|V| — количество фреймов в U и V,
Синтез естественной русской речи при помощи метода UNIT SELECTION 261-7

- признак y фрейма x элемента U,
Синтез естественной русской речи при помощи метода UNIT SELECTION 261-8

- стандартное отклонение признака j,
Синтез естественной русской речи при помощи метода UNIT SELECTION 261-9

- вес для признака j ,
WD - взвешивает разницу в продолжительности элементов.

Введенная мера используется для вычисления «загрязненности» кластера C как среднего акустического расстояния между элементами кластера.

Затем с помощью стандартной техники деревьев решений кластер разбивается на две части наилучшим образом.

В качестве критерия разбиения используются бинарные вопросы, которые касаются характеристик, применяемых для вычисления стоимости замены (фонетический контекст, просодический контекст (ЧОТ и длительность для элемента и его соседей), ударение, позиция в слоге, позиция в слове, позиция в предложении). На каждом этапе выбирается вопрос, дающий лучшее разбиение. Разбиение обычно продолжается до тех пор, пока не будет достигнут какой-либо порог (например, минимальное количество элементов в листе).

V.I.P. Сообщений : 184 Репутация : 7

Стоимость связи
Основное назначение функции стоимости связи — оценивать, насколько хорошо два элемента соединяются друг с другом. Идеальной была бы функция, имеющая высокую корреляцию с восприятием речи слуховой системой человека. Обычно общая стоимость складывается из нескольких слагаемых, основанных на спектральных и просодических характеристиках фреймов речи с обеих сторон соединяемых элементов. Как правило, учитываются:

1. Разница в ЧОТ.
2. Разница в энергии.
3. Нестыковка различных спектральных параметров:
(a) MFCC (Mel Frequency Cepstral Coefficients);
(b) LPC (Linear Predictive Coding Coefficients);
(c) LSF (Line Spectral Frequencies);
(d) MCA (Multiple Centroid Analisys).

Так же, как и при кластеризации речевой базы, вводится акустическая мера на спектральных параметрах. За последние 10 лет было проведено большое количество исследований8 с целью выяснить, какая комбинация спектральное представление/метрика дает лучшую корреляцию с человеческим восприятием. К единому мнению по этой проблеме ученые так и не пришли. Можно лишь отметить, что расстояние Махаланобиса на коэффициентах MFCC в большинстве тестов показывает неплохие результаты.

Поиск Витерби
Согласно классическому алгоритму Ханта и Блэка общая стоимость последовательности элементов из базы U=(U1...Un) для данной спецификации t=(t1...tn) задается формулой (3).

Эта формула дает стоимость для любой фиксированной последовательности элементов базы U=(U1...Un). Цель состоит в том, чтобы найти такую последовательность, стоимость которой будет минимальна. Задача поиска оптимальной последовательности сводится к поиску пути наименьшей стоимости на графе.

Хотя алгоритм Витерби и превосходит в значительной степени поиск полным перебором (квадратичная оценка против экспоненциальной), в своей чистой реализации и он может не дать необходимой скорости вычислений. В этом случае следует воспользоваться одной из техник отсечения (англ. pruning), целью которых является уменьшение количества рассматриваемых последовательностей. При этом отсечение некоторого подмножества последовательностей приводит к риску исключить оптимальный путь, в то время как полный поиск по Витерби гарантированно найдет траекторию с наименьшей стоимостью. Последствия зависят от того, много ли найдется в базе путей, имеющих стоимость близкую к оптимальной.

Выделяются две основные техники отсечения: предварительный отбор (англ. pre-selection) и отсечение лучей (beam pruning). В первом случае для каждого элемента спецификации отбирается фиксированное количество лучших кандидатов. Во втором случае рассматривается только фиксированное количество локально оптимальных путей.

Метод Unit Selection. Речевая база и качество синтеза
По своей сути синтез методом Unit Selection критически зависит от речевой базы. Качественный синтез возможен только на основе полной, сбалансированной и корректно размеченной базы данных. С ростом объема базы возрастает темповая и интонационная вариативность речи диктора. Иными словами, чем больше база, тем больше вероятность того, что в ней найдется элемент в необходимом контексте с необходимой длительностью и контуром ЧОТ. Как следствие, меньше искажения от цифровой модификации сигнала и выше естественность синтезируемой речи.

В процессе подготовки речевой базы на предварительных этапах желательно проводить запись большого числа дикторов. Запись каждого диктора представляет собой чтение фонетически представительного текста. Запись желательно осуществлять в заглушенной камере с использованием высококачественных средств записи и оцифровки речевого сигнала.

Полученные предварительные записи большого числа дикторов необходимы для получения максимально качественного итогового набора дикторов, голоса которых будут использоваться в системе синтеза речи. Наличие относительно широкого круга дикторов на начальном этапе позволяет осуществить осознанный выбор и минимизировать риск того, что голос того или иного диктора окажется малопригодным для использования в системе синтеза речи.

Отобранные на предварительном этапе дикторы используются для записи больших звуковых баз данных, которые в дальнейшем сегментируются на различных уровнях анализа. В такой ситуации ошибка в выборе диктора на поздних этапах может вылиться в существенные материальные и временные затраты.

Для повышения качества синтеза база сегментируется на разных уровнях. В качестве меток используются реальная и каноническая транскрипции, орфографические слова с отметками логического и синтагматического ударения, типы интонационных контуров. Также размечаются речевые явления: смех, кашель, причмокивания и др.

В целом, при использовании корректно размеченной, сбалансированной базы, качество синтезируемой речи можно субъективно охарактеризовать как очень хорошее. Однако, оно не является постоянной величиной. В какой-то степени такое поведение заложено в самой технологии: когда на выходе образуются немодифицированные фрагменты непрерывной речи, качество будет соответствовать записям базы. С другой стороны, в базе просто может не быть хороших соответствий спецификации. И в этом случае синтез будет звучать менее естественно, с заметными искажениями.

V.I.P. Сообщений : 184 Репутация : 7

Основные сложности и ограничения применения метода Unit Selection
Как уже отмечалось выше, качество синтеза методом Unit Selection в большой степени зависит от качества используемой речевой базы. Одним из ключевых факторов является размер базы. Чем больше размер базы, тем больше имеется вариантов для синтеза, тем выше вероятность гладкой стыковки фрагментов. С другой стороны, с увеличением базы возрастают затраты на вычисление стоимостей связи и замены, поэтому для устройств с ограниченными вычислительными ресурсами приходится идти на компромисс между производительностью и качеством.

Основная причина высокой естественности синтезируемой методом Unit Selection речи — использование записанных фрагментов речи без последующей (или с очень небольшой) просодической модификации. Негативной стороной такого подхода является отсутствие полного контроля за просодией синтезируемого сигнала. Кроме того, производимая речь наследует индивидуальные особенности произношения диктора, что делает синтез методом Unit Selection непригодным в задачах, связанных с модификацией голоса.

Гибридный синтез
Разрабатываемая система синтеза предназначена для использования как на стационарных компьютерах, так и на мобильных устройствах (смартфоны, КПК и т.п.). В связи с ограничениями на доступные вычислительные ресурсы в мобильных устройствах, возникла необходимость разработки гибридного синтеза речи, совмещающего технологии Unit Selection и аллофонного синтеза.

Гибридный характер системы позволяет осуществлять масштабирование всей системы синтеза в зависимости от доступных ресурсов. Полноценный синтез Unit Selection, обеспечивающий наилучшее качество синтезированной речи, предполагается использовать на стационарных компьютерах; для мобильных решений возможен компромисс между качеством звучания и используемыми ресурсами памяти при помощи технологии аллофонного синтеза.

Заключение
Создание системы синтеза русской речи нового поколения будет завершено в 2009 году. Промежуточные результаты, полученные на данном этапе проекта, позволяют утверждать, что данная система будет значительно превосходить существующие аналоги для русского языка как в плане архитектуры и реализации программного обеспечения, так и в плане естественности синтезированной речи. Это в значительной степени облегчит коммерциализацию данной системы и приведет к активному внедрению синтеза речи в промышленности.

Литература

Black A.W., Hunt A.J. Unit Selection in a Concatenative Speech Synthesis Using a Large Speech Database // In Proceedings of ICASSP 96. Atlanta, Georgia, 1996. Vol. 1, pp. 373-376.
Conkie A. A robust unit selection system for speech synthesis // In Proceedings of Joint Meeting of ASA, EAA and DAGA. Berlin, Germany, 1999. Paper 1PSCB-10.
Vepa J. Join Cost for Unit Selection Speech Synthesis. University of Edinburgh, 2004.
Wouters J., Macon M.W. A perceptual evaluation of distance measures for concatenative speech // In Proceedings of the International Conference on Speech and Language Processing 1998. Sydney, Australia, 1998. Vol.6, pp. 2747-2750.
Vepa J., King S. Subjective evaluation of join cost functions used in unit selection speech synthesis // In Proceedings of the International Conference on Speech and Language Processing 2004. Jeju, Korea, 2004. Pp.1181-1184.
Black A.W., Taylor P. Automatically clustering similar units for unit selection in speech synthesis // In Proceedings of Eurospeech 97. Rhodes, Greece, 1997. Vol.2, pp. 601-604.
Syrdal A.K., Conkie A. Data-driven perceptually based join costs // In Proceedings of 5th ISCA Speech Synthesis Workshop. Pittsburgh, Pennsylvania, 2004. Pp. 49-54.