bot Гость
Сообщений : 317
Репутация : 12
| bot | :: Чт Ноя 13 2008, 23:10 | Чт Ноя 13 2008, 23:10 | |
| Русскоязычный синтез речи Наталья Сергеева
Обилие книг в электронном виде, доступных для скачивания в Интернете или распространяемых на CD-дисках серии "Библиотека в кармане", подводит пользователя к необходимости поиска новых способов восприятия подобной информации. Если читать эти книги с экрана, то рано или поздно можно посадить зрение и украсить нос "унитазами для глаз" (такое название дал очкам Норбеков). Печатать тексты на принтере для последующего прочтения - довольно затратное и хлопотное дело, увеличивающее горы макулатуры. Отличной альтернативой традиционным способам прочтения текстов является их озвучивание с помощью компьютерных чтецов - и зрение не портится, и руки во время прослушивания можно занять полезным делом. А если записать синтезированную речь в аудиофайл и "кинуть" на переносной MP3-плеер, появится возможность слушать книги вдали от дома, например в поездках. Чем же можно озвучивать книги?
Для озвучивания текстов в электронном виде служат программы для синтеза речи, включающие как сами синтезаторы (голосовые движки), так и программы-оболочки, организовывающие пользовательский интерфейс для работы с этими движками. В нашей статье речь пойдет о доступных движках для синтеза речи, которые можно каким-то образом достать - скачать бесплатно в Интернете или купить за умеренную цену.
Стандарт SAPI Чтобы компьютер мог синтезировать речь, прежде всего нужен сам синтезатор - движок для синтеза речи (Text-To-Speech (TTS) Engine). Движок - это набор программных средств, выполняющих строго определенную задачу (в нашем случае - задачу синтеза речи) и предоставляющих интерфейс для использования его возможностей. Для удобства взаимодействия различных прикладных программ с разработанными речевыми продуктами компания Microsoft предложила использовать стандарт SAPI (Speech Application Programming Interface). Большинство речевых движков поддерживают одну из версий этого стандартного программного интерфейса для платформы Windows: MS SAPI 4.x или MS SAPI 5.x. Исключение составляют крупные и преуспевающие компании (AT&T, Nuance, ScanSoft), которые стараются выдвинуть свои стандарты и не поддерживать MS SAPI.
В Windows XP SAPI 5.1 установлен по умолчанию. В Windows 2000 по умолчанию идет SAPI 4.0. Windows 98/ME не имеет установленного SAPI, поэтому его нужно устанавливать отдельно.
Русскоязычные голосовые движки Создание хорошего речевого движка - чрезвычайно сложная, трудоемкая и затратная задача. Поэтому не многие компании берутся за разработку подобных продуктов. Если англоязычными движками в настоящее время занимаются около десятка иностранных компаний, причем весьма успешно, то русскоязычных движков в буквальном смысле - раз, два и обчелся. Разработки в области синтеза русской речи ведутся как в России, так и в странах ближнего зарубежья, но они или являются предметом научных исследований (как в минской лаборатории "Распознавания и синтеза речи"), или находят коммерческое применение - встраиваются в системы управления бытовой техникой, автоматизированные телефонные справочные службы, сотовые телефоны, системы доступа и тому подобное (петербургский Центр речевых технологий). Областью применения некоторых других речевых технологий стала разработка голосового управления различными приложениями, работающими в среде Windows (компания "ИстраСофт"). Однако услышать голос этих движков все же можно - некоторые компании могут по вашему тексту сгенерировать речь и переслать ее вам в виде аудиофайла. Такие же файлы, демонстрирующие голоса движков, можно найти на сайтах некоторых разработчиков, например AT&T, а речь движков компании ScanSoft можно даже сгенерировать в интерактивном режиме по небольшому фрагменту произвольного текста.
Синтез речи в России, по словам его разработчиков, нужен в основном крупным организациям, предоставляющим информационные услуги. Всю мотивацию (кто, как, где это использует) оставим за кадром. Один пример: компания Elan Informatique распространяет систему синтеза речи, созданную на кафедре фонетики Санкт-Петербургского Государственного Университета. Система является упрощенной моделью синтеза, созданной на кафедре для компании France Telecom, и ориентирована на частного пользователя. А вот профессиональную версию (под UNIX) вы нигде не найдете и, более того, не купите - она в принципе не продается, а передается для использования под довольно серьезное royalty, которое рассчитывается в каждом конкретном случае. |
|
|