Инструментальная диагностика сигналов для систем преобразования текста в речь

Admin Сообщений : 616 Репутация : 208

Инструментальная диагностика сигналов для систем преобразования текста в речь
Т.Фальк, С. Моллер
перевод evmir1

В статье описываются первые шаги к развитию инструментальной оценки качества сигнала систем преобразования текста в речь (TTS). Скрытые марковские модели (Hidden Markov models - HMM), обучаемые на естественной речи, служат в качестве искусственных указующих моделей по отношению к оценивающемуся речевому сигналу. Нормированное значение логарифмического отношения подобия (LLR) рассчитывается между характеристиками восприятия синтезированной речи и зависит от рода эталонной HMM модели, и предлагается как надёжный параметр для многомерной диагностики качества TTS системы. Эксперименты с субъективным набором данных синтезированной речи показывают, что предлагаемая оценка соответствует ожидаемым показателям эффективности для качественных величин.

Введение

Синтез текста в речь (TTS), как видно из названия, основан на преобразовании произвольного текста в понятную и естественно звучащую речь. Раньше приложения TTS систем использовались в основном для нужд слабовидящих. Сегодня они также используются в электронной почте, для систем автоматизированной справки, обучения иностранному языку, а также для вспомогательных нужд. По мере появления новых приложений, увеличивается необходимость в предоставлении высококачественной синтезированной речи. Таким образом, актуальным становится и поиск методов оценки качества TTS систем.

Оценка синтезированной речи не такая простая задача, как определение различных, качественных величин, например, естественность, разборчивость. Как правило, согласно рекомендациям международного союза электросвязи ITU-T Rec.P.85 [1], при оценке используются многомерные, субъективные тесты качества прослушивания. Основными недостатками субъективной оценки, является высокая себестоимость и сложность, связанная с проведением тестов. Для регулировки TTS системы, при разработке, может потребоваться несколько тестов на протяжении всего процесса разработки; в таком случае, субъективная оценка становится невыполнимой и требуется инструментальный качественный прогноз.

На сегодняшний день не существует общепринятой, инструментальной оценки качества сигнала для синтезированной речи. Большинство оценок разработаны для корпусных конкатенативных TTS систем, в которых присутствует корпус естественной речи. В [2] для оценки естественности конкатенативных синтезаторов используется средняя конкатенативная функция. Оценка является производной от входного текста и корпуса естественной речи, и обратно пропорциональна общему качеству – чем больше количество соединений, тем ниже качество. Кроме того, оценки сигнала сосредоточены главным образом на вычислении спектральных расстояний между целевым сигналом синтезированной речи, и его настоящим, естественным прототипом [3,5]. Такие оценки полезны только если ухудшение восприятия связано с эффектами конкатенации, и доступен эталонный корпус естественной речи; такие требования не всегда соблюдаются на практике. Чтобы преодолеть эти ограничения, требуется безэталонная оценка.

Для естественной речи, были предложены безэталонные (непривязанные) алгоритмы оценки качества, такие как стандартные алгоритмы ITU-T Rec. P.563 и ANSI ANIQUE+ [6-7]. Насколько нам известно, безэталонной оценки качества сигнала синтезированной речи пока нет. В последнее время вышеупомянутые алгоритмы, разработанные для естественной речи, были протестированы на синтезированной речи, передаваемой по разным каналам телефонной связи [8]. В ходе измерений обнаружилось влияние эффектов передающего канала на качество исходной речи, в результате чего потребовалась более точная оценка качества синтезированной речи.

В данной статье описываются первые шаги к выработке общего замысла безэталонной оценки качества сигнала для TTS систем. В частности, используются скрытые марковские модели для разработки, тексто- и дикторо-независимых, искусственных эталонных моделей естественной речи.

Характеристики восприятия, извлечённые из синтезированной речи оцениваются затем по указующим моделям с помощью оценки нормированного логарифмического отношения подобия. Степень «согласованности» с указующими моделями предлагается в качестве оценки для многомерной диагностики качества.

Субъективная диагностика качества TTS системы

Качество речи является результатом субъективного восприятия процесса, в ходе которого слушатель сравнивает воспринимаемое событие (речевой сигнал), с тем, что ранее оценено как «хорошее качество». Результатом такого сравнения является, как правило, количественное использование одной или группы шкал. Самой используемой является пятибалльная шкала параметра абсолютной категории (ACR), где параметр 1 соответствует плохому качеству речи, а 5 - отличному качеству речи. С помощью шкалы ACR, средний балл слушателя является усреднённым баллом мнения (MOS). Для синтезированной речи были предложены многомерные тесты качества описанные в [1]. В тесте, слушателей просят оценить сигнал с помощью восьми качественных величин: общее впечатление (MOS), слуховое усилие (LSE), разборчивость (CMP), артикуляция (АРТ), естественность (NAT), просодическая похожесть с естественной речью (PRO), непрерывность/плавность (CFL) и восприятие (ACC).

Для первых семи величин используется пятибалльная шкала [1]. Для восприятия используется, двухбалльная шкала (да/нет), и результаты представляются в процентах.

Во время теста слушатели ознакомляются с каждым речевым файлом дважды. При первом ознакомлении, слушателей просили решить второстепенную задачу, например, ответить на конкретные вопросы по поводу информации, содержащейся в файле (дата/время прибытия автобуса). Затем субъектов просили оценить качество речевого сигнала на основе вышеупомянутых качественных величин. Целью второстепенной задачи, является привлечение внимание слушателей к содержанию речевого сигнала, а не к его форме, для улучшения суждения качественных величин, таких как разборчивость и слуховое усилие. Несмотря на наибольшую действенность данной методики оценки качества, субъективные тесты затратные по деньгам и времени, поэтому не пригодны для целей определения на протяжении всего цикла производства, где возможно необходима оценка нескольких системных обновлений. Для такого сценария, необходима инструментальная оценка качества.

Предлагаемые оценки качества, основанные на HMM

Шаги вычислений для обработки сигнала по предлагаемым оценкам качества, основанным на HMM, приведены на рис.1. Сначала обработка выполняется в соответствии с характеристиками сигналов, разработанных в указующих эталонных моделях. Затем, на этапе предварительной обработки речевого сигнала, выполняется обнаружение голосовой активности (VAD), для удаления интервалов тишины, которые больше эмпирически установленного значения. Модуль выделения характеристик служит для вычисления познавательных и просодических характеристик, последние используются для идентификации пола говорящего. Начальные эксперименты показали, что повышение эффективности достигается, если используются поло-зависимые эталонные модели. Напоследок, познавательные характеристики оцениваются по автономно-полученным, эталонным скрытым марковским моделям характеристик естественной речи, через оценку логарифмического подобия. Подробное описание шагов по обработке сигналов описано ниже.

Предварительная обработка, VAD, и выделение характеристик

Для соответствия характеристикам сигналов, используемых в указующих моделях, применяется предварительная обработка выходного сигнала TTS системы. Типичные шаги предварительной обработки могут включать в себя передискретизацию, фильтрацию и/или нормализацию уровня сигнала. В наших экспериментах, предварительная обработка состояла из полосовой фильтрации по [9], понижению до 8 кГц, и нормализации уровня, до -26 dBov с помощью индикатора уровня речи P.56 [10]. Более того, поскольку мы были заинтересованы в оценке качества выходного сигнала TTS системы, анализировались только активные сегменты речи.

Инструментальная диагностика сигналов для систем преобразования текста в речь 58301031

Рис. 1. Шаги вычислений для обработки сигнала по предлагаемым оценкам качества, основанным на HMM. Отдельные, скрытые, эталонные марковские модели с характеристиками естественной речи, были использованы для мужской и женской речи.

В наших экспериментах использовался простой порог мощности VAD алгоритма для удаления тишины больше 75 мс; такая продолжительность выбрана эмпирически, во избежание «искусственных» неоднородностей, могущих привести к ошибкам VAD.

Затем из активной речи вычислялись познавательные характеристики; характеристики включают в себя 12-ти порядковые мел-частотные*, кепстральные коэффициенты (MFCC)**.

Запись c_m={c_0,m,...,c_12,m} используется для представления MFCC вычисления речевого блока данных m. В наших экспериментах, MFCC рассчитывались с помощью 25-мс окон и 10-мс сдвигов. Нулевой, порядковый, кепстральный коэффициент c_0,m использовался в качестве оценки логарифмической мощности. Основным предположением, использованным в этом исследовании является то, что для естественной речи не происходит резких изменений мощности сигнала. Такие неоднородности, однако могут иметь место, в конкатенативных TTS системах. Для количественной оценки динамики мощности сигнала, вычисляется нулевой, дельта-кепстральный коэффициент ∆c_0,m, для обнаружения временных неоднородностей [11]. Характеристика ∆c_0,m добавляется к c_m в формуле x_m=∆c_0,m, c_m. На рис. 1, x представляет собой характеристику, вычисленную для M активных блоков в синтезированном сигнале речи, т.е. x={ x_m}^M_m=1.

Напоследок, с помощью алгоритма слежения высоты тона, вычисляется основная частота F0. Данный алгоритм описывается в [12]. F0 – усреднённое значение всех речевых блоков, и используется для идентификации пола диктора. В начальных экспериментах, было отмечено, что улучшение оценки качества достигается, если используются поло-зависимые эталонные модели. Согласно [6], F0=160 Гц используется в качестве порога различия мужского и женского голосов. Признак, указывающий на пол говорящего, представлен на рис. 1 как F_Пол, для обозначения модели HMM.

HMM эталонные модели и вычисление логарифмического подобия

Речевая, временная динамика даёт важную информацию для оценки качества и естественности синтезированной речи. Мы предлагаем использовать скрытые марковские модели, обучаемые на естественно звучащей речи. Спектрально-временная информация, захваченная HMM, может быть использована для количественных различий, например между естественными окончаниями слов, и аномальными прерываниями сигнала, которые могут произойти при синтезировании речи. Эталонные модели, получены с помощью познавательных характеристик, описанных выше, которые извлекались из естественной речи. Также были разработаны две базовые модели, одна для мужских речевых данных, другая – для женских.

Использовались скрытые марковские модели с восьмью состояниями, выходная классификация каждого состояния состоит из гауссовского распределения с 16 диагонально-ковариационными компонентами***.

Параметры моделей, такие как вероятности перехода состояния, исходные вероятности состояния и параметры выходного распределения, вычислялись с помощью алгоритма максимального правдоподобия. Данный алгоритм описывается в [13]. Познавательные характеристики, извлечённые из синтезированного, тестового сигнала, оценивались по отношению к эталонным моделям через оценку логарифмического подобия (LL). Значения LL вычислялись с помощью так называемой процедуры вперед-назад, описанной в [13]. Нормализация осуществлялась на основе числа активных речевых блоков M в тестовом сигнале; оценка логарифмического подобия на рис. 1 обозначена LL.

Эксперименты. Описание базы данных

Для обучения поло-зависимых HMM эталонных моделей использовалась естественная речь, а синтезированная - для качества определения предлагаемой оценки.

Естественная речь – Обучающие данные

Для разработки эталонных моделей естественной речи, использовался корпус немецкой речи “Kiel”. Данные из “Siemens” и “Erlangen” подмножеств предложений, представлены двумя мужскими и двумя женскими дикторами. Использовался визуальный осмотр спектрограмм и контуров тона для выбора диктора со спектрально-временными характеристиками, отличающимися от базы данных синтезированной речи. Сигнал был понижен до 8 кГц, а также была применена полосовая фильтрации по [9], нормализация уровня до -26 dBov, и VAD-обработка. Данные были соединены, чтобы получить примерно 1 час 15 минут активной речи, для обучения мужских и женских моделей HMM. Следует подчеркнуть, что предложения в наборе данных обучаемой речи отличны от текста используемого для создания синтезированного речевого материала.

Синтезированная речь – Данные теста

База данных синтезированной речи, используемая в наших экспериментах, содержала речевой материал из шести TTS систем. Три являются коммерческими системами (AT&T, MBROLA, и Cepstral), и три из немецких научных учреждений (Дрезденский технический университет, Берлинский технический университет и Боннский университет). Речевой материал составлялся из демонстрационной версии системы; таким образом, в случае корпусной TTS системы, доступ к корпусу естественной речи не осуществлялся. Были созданы в общей сложности, десять образцов речи, половина мужскими дикторами, и половина – женскими. Синтезированные образцы средней продолжительности в 11 с., состояли из двух фраз, разделённых интервалом тишины примерно в 2 с. К образцам речи была применена полосовая фильтрации по [9], нормализация уровня, до -26 dBov. Тест прослушивания строго соответствовал рекомендациям ITU-T Rec. P.85 [1], и проводился в звуконепроницаемой комнате Института фонетики и цифровой речи.

ТАБЛИЦА I
Рейтинговые шкалы, используемые в тесте прослушивания, не описанные в [1]. Исходные формулировки на немецком приведены в [14].

Рейтинг	NAT	PRO	CFL
5	Очень естественно	Очень похоже	Очень плавно
4	Естественно	Похоже	Плавно
3	Нейтрально	Как-то похоже	Нейтрально
2	Неестественно	Непохоже	Разрывы
1	Очень неестественно	Очень непохоже	Большие разрывы

ТАБЛИЦА II
Сравнение между LL и ITU-T Rec. P.563 по восьми качественным величинам синтезированной речи

Качественная величина	Предложенное LL			ITU-T P.563
	Муж.	Жен.	Итог	Муж.	Жен.	Итог
MOS	0,81	0,72	0,77	0,58	-0,05	0,24
LSE	0,72	0,64	0,65	0,5	0,02	0,2
CMP	0,7	0,45	0,54	0,42	-0,11	0,05
ART	0,74	0,47	0,55	0,53	-0,06	0,11
NAT	0,81	0,8	0,81	0,48	-0,06	0,24
PRO	0,54	0,72	0,61	0,28	-0,18	0,12
CFL	0,74	0,81	0,74	0,51	0,06	0,24
ACC	0,65	0,71	0,67	0,35	-0,1	0,15

Исследования проводились в Кильском университете им. Кристиана Альбрехта [14]. Семнадцать слушателей (десять женщин и семь мужчин) приняли участие в тесте; все они были немецкими студентами, в возрасте 20-26. Слушателям были даны параллельные задачи, и их попросили оценить сигналы синтезированной речи с помощью восьми шкал качества. Из восьми используемых шкал, только пять описаны в ITU-T REC. P.563.

Обозначения восьми шкал:

общее впечатление (MOS)
слуховое усилие (LSE)
разборчивость (CMP)
артикуляция (АРТ)
естественность (NAT)
просодическая похожесть с естественной речью (PRO)
непрерывность/плавность (CFL)
восприятие (ACC).

Таблица I показывает рейтинговые шкалы для величин NAT, PRO и CFL; шкалы для пяти остальных величин, описаны в [1].

Результаты эксперимента

Для тестирования эффективности предлагаемой оценки качества, были вычислены коэффициенты корреляции Пирсона между LL и различными качественными величинами. Таблица II показывает коэффициенты корреляции для восьми качественных величин для мужских и женских речевых данных. Для сравнения результатов, коэффициенты корреляции рассчитывались по алгоритму ITU-T Rec. P.563. Однако подчеркнём, что синтезированная речь не входит в рекомендованную сферу стандартного алгоритма P.563. К сожалению, не существует других безэталонных оценок сигнала доступных для сравнения.

Как видно из таблицы, предлагаемая HMM оценка логарифмического подобия корреляций, хороша с несколькими качественными величинами, в частности, с MOS, NAT, и CFL. Интересно, что LL для мужской речи, имеет значительно большее значения корреляции чем для женской, для качественных величин CMP и АРТ. В свою очередь, с женскими данными большее значение корреляции достигается для величины PRO. Относительно P.563 существенно большие значения корреляции достигаются с предложенной LL оценкой.

ТАБЛИЦА III
Сравнение между LL и ITU-T REC. P.563 после (поло-зависимой) полиномиальной регрессии третьего порядка

Качественная величина	Предложенное LL		ITU-T P.563
	Муж.	Жен.	Муж.	Жен.
MOS	0,83	0,74	0,65	0,05
LSE	0,74	0,7	0,59	0,07
CMP	0,72	0,56	0,48	0,02
ART	0,78	0,57	0,62	0,01
NAT	0,84	0,83	0,59	0,2
PRO	0,61	0,72	0,39	0,07
CFL	0,79	0,82	0,61	0,07
ACC	0,7	0,73	0,47	0,03

Отметим также, что величина корреляции P.563 для мужской, синтезированной речи незначительна; об этом также сообщалось, в [15] для синтезированной речи, передававшейся по зашумлённым телефонным каналам.

Кроме того, работа [16], наводит на мысль, о половых различиях в субъективном восприятии качества синтезированной речи. В попытке компенсировать для таких слушателей рейтинговые «отклонения», была применена поло-зависимая, функция монотонного полиномиального отображения между LL и субъективными, качественными балами. Монотонные отображения выполняют регулировку шкал, но не изменяют упорядочивание баллов. Таблица III показывает коэффициенты корреляции после полиномиальной регрессии третьего порядка. Как видно, есть некоторое улучшение; для P.563 прогнозирования, недостаточные корреляции остаются для женской речи.

В конечном счёте, целью инструментальной оценки, является разработка метода, где упорядочивание будет аналогично субъективным, качественным рейтингам. Для этого была вычислена корреляция упорядочивания Спирмена, которая и используется как дополнительный показатель качества. Корреляция Спирмена вычисляется подобно корреляции Пирсона, кроме исходных значений данных, которые заменяются упорядочиваниями этих значений. Из-за нехватки места, коэффициенты корреляции Спирмена ρ_s показаны только для MOS величины. По нашим данным, предлагаемая LL достигает ρ_s=0.76 и ρ_s=0.70 для мужских и женский данных, соответственно. Для P.563, ρ_s=0.57 и ρ_s=0.03 соответственно.

Обсуждение

Хотя предлагаемая оценка, хорошо коррелирует с несколькими качественными величинами, можно сделать вывод, что эффективная оценка возможна, если в сочетании с LL используются дополнительные характеристики. Типичные характеристики могут включать в себя, среднее кепстральное отклонение, предложенное в [11], в качестве меры спектральной неравномерности, полезной при оценке системы озвучивания диалога [17]. По нашим данным, среднее кепстральное отклонение достигает значений корреляции в -0,64, -0,62, и -0,61 в LSE, CMP, и NAT, соответственно (для женской речи). Более того, мера резкого снижения, подробно описанная в [6], достигает значений корреляции в -0,64 -0,62 и -0,61 в CMP, PRO, и CFL, соответственно (для мужской речи).

Сочетание характеристик, однако, требует наличие более сложной субъективной речевой базы данных, для оптимизации веса характеристик и, следовательно, оставим это для будущего изучения.

Заключение

Описанные первые шаги к развитию общей, инструментальной оценки качества сигнала для систем преобразования текста в речь показывают оценку достижения качественного прогноза по результатам многомерного теста для мужской и женской синтезированной речи на основе скрытых марковских моделей естественно-звучащей речи.

Литература

Method for Subjective Performance Assessment of the Quality of Speech Voice Output Devices, ITU-T Rec. P.85, 1994, Int. Telecom.Union.
M. Chu and H. Peng, “An objective measure for estimating MOS of synthesized speech,” in Proc. Eur. Conf. Speech Communications and Technology, 2001, pp. 2087–2090.
M. Cernak and M. Rusko, “An evaluation of synthetic speech using the PESQ measure,” in Proc. Eur. Congr. Acoustics, 2005, pp. 2725–2728.
J. Vepa, S. King, and P. Taylor, “Objective distance measures for spectral discontinuities in concatenative speech synthesis,” in Proc. Int. Conf. Spoken Language Processing, Sep. 2002, pp. 2605–2608.
Y. Stylianou and A. Syrdal, “Perceptual and objective detection of discontinuities in concatenative speech synthesis,” in Proc. Int. Conf. Acoustics, Speech, and Signal Processing, Jun. 2001, pp. 837–840.
Single Ended Method for Objective Speech Quality Assessment in Narrowband Telephony Applications, ITU-T Rec. P.563, 2004, Int. Telecom. Union.
Auditory Non-Intrusive Quality Estimation Plus (ANIQUE+): Perceptual Model for Non-Intrusive Estimation of Narrowband Speech Quality, ATIS-PP-0100005.2006, 2006, Amer. Nat. Standards Inst.
S. Möller, D.-S. Kim, and L. Malfait, “Estimating the quality of synthesized and natural speech transmitted through telephone networks using single-ended prediction models,” Acta Acustica United With Acustica, vol. 94, pp. 21–31, 2008.
Transmission Performance Characteristics of Pulse Code Modulation Channels, ITU-T Rec. G.712, 2001, Int. Telecom. Union.
Objective Measurement of Active Speech Level, ITU-T Rec. P.56, 1993, Int. Telecom. Union.
T. H. Falk and W.-Y. Chan, “Single-ended speech quality measurement using machine learning methods,” IEEE Trans. Audio, Speech, Lang. Process., vol. 14, no. 6, pp. 1935–1947, Nov. 2006.
“A Robust Algorithm for Pitch Tracking (RAPT),” in Speech Coding and Synthesis.,W. B. Kleijn and K. K. Paliwal, Eds. Amsterdam, The Netherlands: Elsevier Science, 1995, pp. 495–518.
L. Rabiner, “A tutorial on hidden Markov models and selected applications in speech recognition,” Proc. IEEE, vol. 77, no. 2, pp. 257–286, Feb. 1989.
K. Seget, “Untersuchungen Zur Auditiven Qualität von Sprachsyntheseverfahren (Study of perceptual quality of text-to-speech systems),” Bachelor thesis, Christian-Albrechts-Univ. Kiel, , Jul. 2007.
S. Möller and T. H. Falk, Single-Ended Quality Estimation of Synthesized Speech: Analysis of the Rec. P.563 Internal Signal Processing, 2008, ITU-T Contribution COM 12-180, Int. Telecom. Union.
J. Mullennix, S. Stern, S. Wilson, and C. Dyson, “Social perception of male and female computer synthesized speech,” Comput. Human Beh., vol. 19, pp. 407–424, 2003.
S. Möller, K.-P. Engelbrecht, M. Pucher, P. Frölich, L. Huo, U. Heute, and F. Oberle, “TIDE: A testbed for interactive spoken dialogue system evaluation,” in Proc. Int. Conf. Speech and Computers, Oct. 2007.

* Mel (мел) — единица измерения высоты звука, введённая для учёта нелинейной зависимости субъективно воспринимаемой человеком высоты тона от его физической частоты. Хотя зависимость имеет достаточно сложный характер, в наиболее существенном для обработки речи диапазоне (100-5000 Гц) она близка к логарифмической.

** Сepstral coefficient - мат. коэффициент косинусного преобразования Фурье.

*** Ковариация (корреляционный момент) в теории вероятностей и математической статистике мера линейной зависимости двух случайных величин.