Microsoft Speech Platform - русский голос Elena

V.I.P. Сообщений : 1228 Репутация : 986

Microsoft Speech Platform - набор инструментов, позволяющих разработчикам строить решения с распознаванием голоса и перевода голоса в текст. Текущая версия 11.0 платформы предлагает голоса для 26 языков, включая русский.

Для работы синтезатора речи необходимо загрузить и установить следующие компоненты Microsoft Speech Platform:

Microsoft Speech Platform - Runtime – серверная часть платформы, предоставляющая API (набор функций) для программ (файл с именем "SpeechPlatformRuntime.msi" для 32-битных и 64-битных версий Windows).
Microsoft Speech Platform - Runtime Languages – набор языков для серверной части. Для каждого языка доступны для скачивания модули для распознавания речи (файлы, чьи имена начинаются с "MSSpeech_SR_") и компьютерные голоса (файлы, чьи имена начинаются с "MSSpeech_TTS_").

В списке голосов присутствует и русский голос Elena (файл с именем "MSSpeech_TTS_ru-RU_Elena.msi", размер 6 МБ). Качество звучания синтезатора речи - очень посредственное; голос делает много ошибок в ударениях. (Такая же ситуация, кстати, и с немецким голосом: носитель языка, который послушал этот голос, сообщил о большом количестве ошибок в произношении немецких слов.)

Хотя на сайте Microsoft сказано, что платформа поддерживает только Windows Vista, Windows Server 2008 и Windows 7, тем не менее голоса для европейских языков будут работать и на Windows XP. Голоса для азиатских языков (китайский, корейский, японский) будут работать на Windows Vista и выше.

Для голосов Microsoft Speech Platform можно использовать те же теги, что и для голосов SAPI 5. Однако, теги смены голоса ("Voice" и "Lang") позволяют переключаться лишь между голосами платформы. То есть, нельзя при чтении одного текста задействовать голоса SAPI 5 и голоса Microsoft Speech Platform одновременно.

В остальном голоса Microsoft Speech Platform также имеют много сходного с голосами SAPI 5. Возникает вопрос: зачем нужно было создавать Microsoft Speech Platform? Почему вместо, например, 6-ой версии SAPI мы получили лишь набор голосов с низким качеством звучания, да еще и не совместимых с SAPI 5? То есть, это не то что не "SAPI 6" - это даже не "SAPI пять-с-половиной".

Ответ будет таков: Microsoft Speech Platform создавалась с конкретной прикладной целью - объединить воедино распознавание и синтез речи. Главное здесь - это реализация поддержки языка VoiceXML; с помощью этого языка машина и человек смогут "общаться" друг с другом.

Информацию о VoiceXML можно найти здесь:

Статья о VoiceXML в Википедии
Описание VoceXML на сайте W3C
Руководство для разработчиков по VoiceXML

Предполагалось, что Microsoft Speech Platform будет использоваться в различного рода call-центрах: клиент набирает телефонный номер, ему отвечает компьютер, задает вопросы при помощи синтезатора речи, распознает ответы человека и, в зависимости от этих ответов, действует дальше согласно командам скрипта на языке VoceXML. Поэтому и компьютерные голоса предлагаются низкого качества - для ответов по телефону такого качества звучания достаточно; зато небольшой по размеру речевой движок имеет скромные системные требования, что позволяет сэкономить деньги на компьютерной технике для call-центра.

Посмотрим, что будет с Microsoft Speech Platform дальше. Поддержка голосов платформы есть в программе экранного доступа NVDA; в программе "Балаболка" поддержка голосов Microsoft Speech Platform присутствует, начиная с версии 2.03. На сервере Microsoft есть Microsoft Speech Platform SDK с необходимой для программистов информацией.

V.I.P. Сообщений : 1228 Репутация : 986

Примечание по установке Microsoft Speech Platform на 64-битные версии Windows.

Несмотря на то, что существует специальная 64-битная версия файла "SpeechPlatformRuntime.msi", но для работы 32-битных программ для чтения вслух (таких, как "Балаболка") надо установить также и 32-битную версию файла "SpeechPlatformRuntime.msi".