Искусственный голос и синтез речи - 语音合成
Вы хотите отреагировать на этот пост ? Создайте аккаунт всего в несколько кликов или войдите на форум.


语音合成技术和文本语音转换 - Synthetic voice and Text to Speech technology - Синтетический голос и технологии преобразования текста в речь
 
TTS книги  Проверялка  ФорумФорум  Последние изображенияПоследние изображения  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  

Архитектура системы синтеза русской речи по тексту нового поколения

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеАрхитектура системы синтеза русской речи по тексту нового поколения
mia
V.I.P.
mia


Сообщений : 184
Репутация : 7

Архитектура системы синтеза русской речи по тексту нового поколения WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 mia :: Пт Фев 20 2009, 23:44
Архитектура системы синтеза русской речи по тексту нового поколения FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Пт Фев 20 2009, 23:44

Архитектура системы синтеза русской речи по тексту нового поколения
В. В. Киселёв, В. А. Чижденко, А. О. Таланов, И. В. Опарин
ООО «Центр Речевых Технологий» (Санкт-Петербург)[1]


В статье описывается архитектура новой системы синтеза русской речи по тексту. Данная система разрабатывается ООО «Центр речевых технологий» в сотрудничестве с кафедрой фонетики СПбГУ. Проект направлен на разработку гибридной системы синтеза, совмещающей аллофонный синтез и синтез типа Unit Selection и обеспечивающей высокую естественность синтезированной речи. Модульная структура системы, основанная на обмене информацией в XML-формате, значительно расширяет технологические возможности встраивания синтеза в другие приложения (web-приложения, мобильные устройства и т.д.).


Введение

Любая современная система синтеза речи основывается на модульном принципе. Разработчики и алгоритмисты таких систем стараются минимизировать зависимость каждого модуля, расширяя систему таким образом до мультимодальности и мультиязычности. Этот основополагающий фактор заложен в разработку системы синтеза русской речи, разрабатываемой в компании «Центр Речевых Технологий». Архитектура комплекса проектировалась с учётом современных требований к системам синтеза речи, работающих в клиент-серверных приложениях.
Одной из основных проблем при разработке архитектуры мультимодальных систем синтеза речи является способ представления, хранения и движения внутренних данных. С одной стороны, этот способ должен быть универсальным для каждого модуля, например, предобработки текста, фонетической или просодической обработки, с другой стороны – иметь удобный внутренний интерфейс для взаимодействия и экспертного анализа.

Разрабатываемая в компании «Центр Речевых Технологий» система синтеза речи построена на модульно-независимой архитектуре с XML-нотацией передачи внутренних данных. Целью разработки архитектуры являлись мультимодульность, мультидикторность, мультиязычность и мультиплатформенность. В основе формирования сигнала находиться современный метод Unit Selection, который основывается на компилятивном принципе. Всё это сводится к тому, что синтезаторы русской речи выходят на значительно новый уровень – системы синтеза русской речи нового поколения.

Вернуться к началу Перейти вниз
mia
V.I.P.
mia


Сообщений : 184
Репутация : 7

Архитектура системы синтеза русской речи по тексту нового поколения WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 mia :: Пт Фев 20 2009, 23:45
Архитектура системы синтеза русской речи по тексту нового поколения FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Пт Фев 20 2009, 23:45


1.Архитектура комплекса
При разработке архитектуры системы синтеза речи нового поколения реализовывались следующие задачи:

1) Реализация максимально возможной независимости модулей проекта. Реализация данной цели позволит в течение процесса разработки системы синтеза речи производить простую замену модулей, реализующих некоторую функциональность, новыми версиями модулей или другими алгоритмами и выбирать их в зависимости от внешних требований.

2) Реализация максимально возможной независимости от платформы. Реализация данной цели позволит разработать продукт, перенос которого на другие платформы (настольные версии Windows, версии Windows для мобильных решений) будет минимален по временным и ресурсным затратам.

3) Реализация максимального использования ресурсов современных компьютеров. Для реализации данной цели предполагается создать многопоточный продукт, в котором практически все модули смогут работать параллельно. Это позволить максимально загрузить современные многопроцессорные компьютеры и обеспечить минимальную задержку между поступающим текстовым потоком и сгенерированным речевым сигналом.

4) Реализация максимально возможной управляемости процессом разработки. Для реализации данной цели процесс разработки продукта предполагается вести в соответствии с технологией «Разработка через тестирование» (методика разработки описана ниже).

Разработанная система синтеза русской речи состоит из нескольких логически объединённых процессоров:
- предварительной обработки входных данных;
- лингвистической обработки текста;
- просодической обработки текста;
- акустической обработки речевого сигнала;

Процессоры разработаны так, чтобы они могли работать параллельно на последовательно поступающих данных. То есть каждый процессор принимает на вход блок данных, производит их обработку и передаёт результаты своей работы следующему процессору.


Архитектура системы синтеза русской речи по тексту нового поколения 97940422uf9
1. Обобщённая схема архитектуры

Архитектура системы синтеза русской речи по тексту нового поколения 15195029iw3
2. Составные части процессоров


Каждый процессор состоит из своих собственных модулей в виде отдельных библиотек. Предварительная обработка текста включает в себя чтения разных форматов данных, различных кодировок и т.п.


Архитектура системы синтеза русской речи по тексту нового поколения 73369610ba5
3. Предварительная обработка входных данных

Вернуться к началу Перейти вниз
mia
V.I.P.
mia


Сообщений : 184
Репутация : 7

Архитектура системы синтеза русской речи по тексту нового поколения WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 mia :: Пт Фев 20 2009, 23:46
Архитектура системы синтеза русской речи по тексту нового поколения FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Пт Фев 20 2009, 23:46

Важным элементом разработки архитектуры системы была унификация API всех модулей. Фактически каждый модуль системы может рассматриваться как «черный ящик», которому на вход поступает поток данных в некотором формате, на выходе мы имеем модифицированный поток данных в этом же формате. Отличный API имеет только последний элемент системы, который возвращает синтезированный сигнал. Данное решение позволило эффективно распараллелить работу всех модулей системы на любое количество процессов с целью максимально эффективного использования возможностей современных процессоров.
Поток данных отображен на рисунке 2 стрелками, при этом архитектура позволяет всем модулям выполняться параллельно по мере обработки потока данных.

2. Программная архитектура
2.1 Процессы разработки программного обеспечения
Известны два основных процесса разработки программного обеспечения: модель водопада3 и итерационная модель.

Если рассмотреть процесс разработки программного обеспечения, можно отметить несколько обязательных фаз, которые проходятся во время процесса разработки.

Бизнес-моделирование — деятельность по выявлению и описанию существующих бизнес-процессов (анализ бизнес-процессов), а также проектированию новых (проектирование бизнес-процессов).
Анализ требований — это процесс сбора требований к системе, их систематизации, документирования, анализа, выявления противоречий, неполноты, разрешения конфликтов.

Разработка архитектуры — это процесс разработки основных элементов системы их интерфейсов и взаимосвязей.

Кодирование — реализация одного или нескольких взаимосвязанных алгоритмов на некотором языке программирования.

Тестирование — процесс, позволяющий определить корректность, полноту и качество разработанного программного обеспечения (ПО).

Документирование — это документы, сопровождающие некоторое программное обеспечение (ПО) — программу или программный продукт.

Сопровождение — процесс улучшения, оптимизации и устранения дефектов программного обеспечения (ПО) после передачи в эксплуатацию.


Архитектура системы синтеза русской речи по тексту нового поколения 14914609dl2
4. Процессы разработки программного обеспечения


Как модель водопада, так и итерационная модель проходят все эти стадии, но между ними есть важное различие, оно хорошо отражено на рисунке 4. Как видно, итерационный процесс предполагает возможность внесения изменений на каждой стадии разработки ПО по итерациям.

Вернуться к началу Перейти вниз
mia
V.I.P.
mia


Сообщений : 184
Репутация : 7

Архитектура системы синтеза русской речи по тексту нового поколения WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 mia :: Пт Фев 20 2009, 23:47
Архитектура системы синтеза русской речи по тексту нового поколения FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Пт Фев 20 2009, 23:47


2.2 Процесс разработки системы синтеза речи
В настоящее время в мире применяются следующие три итеративных процесса разработки: RUP — Rational Unified Process, XP — Extreme Programming, Agile. Каждый из этих процессов обладает своими достоинствами и недостатками. Для разработки системы синтеза речи был разработан оригинальный процесс, включающий в себя элементы вышеуказанных процессов. Фиксированные итерации, состоящие из всех вышеописанных стадий, не применяются. Фактически происходит непрерывный процесс внесения изменений на каждой стадии.

Одним из важнейших элементов процесса разработки было применение подхода unit testing, так называемая разработка через тестирование (англ. test-driven development) — техника программирования, при которой модульные тесты для программы или ее фрагмента пишутся до самой программы (англ. test-first development) и, по существу, управляют ее разработкой. Данный подход позволил внедрить безболезненный процесс внесения изменений непрерывно на каждой стадии разработки. При этом сборка всего проекта, выполнение юнит-тестов происходит автоматически, ежедневно. Данное решение позволяет иметь рабочую систем синтеза речи в любой момент времени.

Основным программным языком разработки был выбран язык С++, как язык программирования, существующий практически на всех вычислительных платформах (от встраиваиваемых до майнфрэймов). Использование этого языка позволит минимизировать затраты на перенос системы синтеза на всевозможные платформы в будущем. Кроме того, этот язык разрабатывался как язык, обеспечивающий минимальные накладные расходы при выполнении программ, написанных на нем, что позволяет писать эффективные программы с точки зрения требований как к памяти, так и к быстродействию компьютеров.

3. Работа в будущем
Разработка системы синтеза речи в будущем будет ориентирована на усовершенствование научных методов и алгоритмов обработки текста. Архитектура разрабатываемого комплекса позволяет динамично изменять модули. Также в будущем планируется реализовать систему синтеза для встраиваемых платформ (Windows Modile, Embedded) и адаптировать ее под располагающиеся мобильные ресурсы.
  1. Работа выполнена в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы».
  2. T. Dutoit, An Introduction to Text-to-Speech Synthesis. Dordrecht: Kluwer Academic, 1997.
  3. A. Black, P. Taylor, and R. Caley, “Festival speech synthesis system, edition 1.4,” CSTR, University of Edinburgh, UK, Tech. Rep., 1999. http://www.cstr.ed.ac.uk/projects/festival


Вернуться к началу Перейти вниз

Архитектура системы синтеза русской речи по тексту нового поколения

Предыдущая тема Следующая тема Вернуться к началу
Архитектура системы синтеза русской речи по тексту нового поколения
Страница 1 из 1Страница 1 из 1
      Форма быстрого ответа        Форма быстрого ответа  
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении
Создать форум на Forum2x2 | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении | Cookies | Последние обсуждения