|
| MILAN - редактор словарей для Nuance Милены | |
| |
Автор | Сообщение | MILAN - редактор словарей для Nuance Милены |
---|
Dmitry Постоялец
Сообщений : 85
Репутация : 39
| Dmitry | :: Пт Апр 12 2013, 14:15 | Пт Апр 12 2013, 14:15 | |
| Пользователь SZ-Vtk с форума ресурса http://4pda.ru написал редактор.
MILAN - редактор словарей для Nuance Милены
Три способа задания текста замены: - текст без ударений - текст с обязательным ударением (автоматически переводится в фонетическую транскрипцию) - фонетическая транскрипция
Для генерации бинарного словаря .dat необходимы установленные Vocon и Python
Словарь для Милены - это двоичный (ненаглядный) файл с расширением .DAT (обычно userdct_rur.dat), находящийся на Андроиде в папке sdcard\Nuance\...\languages\rur\speech\components. Мы пока не умеем прямо на Андроиде создавать и редактировать этот файл, более того, мы не умеем этого делать и в Windows. Что мы умеем. Мы умеем создавать и редактировать (в Windows) текстовый файл словаря, преобразовывать его в двоичный файл, а затем, закинув его в Андроид, наслаждаться речью Милены: "Рамзес Второй - величайший из фараонов - правил 76 лет. У него был 51 сын и 50 дочерей..." ПрАвил, а не правИл, как сказала бы Милена без словаря. Итак, как создать словарь Милены с помощью программы Milan.
1) Скачиваем установку Vocon и запускаем её. Установлено. 2) Скачиваем установку Python и запускаем её. Установлено. Python и Vocon используются программой Milan для конвертации словаря в .DAT. 3) Распаковываем и запускаем Milan. Перед нами появляются кнопки и пустые окошки. Нажимаем Загрузить и загружаем словарь userdct_rur. Это простой пробный иллюстрационный словарь. Его можно исправлять, удалять пары слов и добавлять пары слов. Из таких пар словарь и состоит. Первая часть пары - шаблон - то, что мы будем заменять. Это слово или аббревиатура. Вторая часть пары - это то, чем мы будем заменять. Три способа задания замены (способ отмечается точкой): - Код:
-
(1) текст. Шаблон: правил Замена: праавил
(2) текст с ударением - автоматически переведётся в фонетическую транскрипцию Шаблон: правил Замена: пра'вил В поле транскрипции появится pr'a.v%jIl
(3) ручная фонетическая транскрипция Шаблон: правил Замена: pr'a.v%jIl (пишем в поле транскрипции) Звучание Обеих частей можно прослушать. После того, как словарь готов, нажимаем кнопку Выдать .DAT и .DCT. В поддиректории DICT кроме исправленного тестового словаря .VOC (мы с ним работали) появляется текстовый словарь .DCT и двоичный словарь .DAT. (Последний нам и нужен, чтобы закинуть его в устройство).
если к автору возникнут вопросы, тема где автор редактора обитает http://4pda.ru/forum/index.php?showtopic=200728
Milan VoCon 3200 Embedded Development System v3.3 зеркало Python |
|
| | | Лёва V.I.P.
Сообщений : 134
Репутация : 173
| Лёва | :: Вт Сен 10 2013, 17:20 | Вт Сен 10 2013, 17:20 | |
| Все движки, которые не понимают ударений в тексте, а работающие со своими словарями, в первую очередь заточенными для исправления "фифектов" речи, должны лихо справляться с омографами. Таковых пока в природе не наблюдается. За исключением наверное пары - с большой натяжкой. Из этого следует, что пытаться что то сделать полезное и стоящее, с такими движками, как Милена, не удастся.
|
|
| | | basist Гость
| basist | :: Пт Фев 14 2014, 18:46 | Пт Фев 14 2014, 18:46 | |
| Комсомолец2 пишет: - Цитата :
- Сделал все как вы сказали (все файлы лежат в C, в самом корне), но файл dat все равно не получаю.
Точно такая же картина была и у меня. Я её исправил, переименовав папку в соответствии с названием в лог-документе. Словарь удалось получить. |
|
| | | basist Гость
| basist | :: Пт Фев 14 2014, 19:16 | Пт Фев 14 2014, 19:16 | |
| Помещаю ссылку на словари замен слов-омографов фонемами для голосов Катя, Милена и Юрий, доступных для загрузки в параллельной ветке форума. https://drive.google.com/folderview?id=0B7fIANHkqAlYZm8zeFhwS0UtSU0&usp=sharing Для правильного отображения всех символов необходима кодировка UTF-8. Применяется для исправления произношения ударений голосом Юрий в тексте, размеченном выделением заглавной буквой ударной гласной. Для удобства исправления "нюканья" Юрия пришлось словарь омографов Алёны разделить на два: с "У" и без "У". При составлении словаря для простановки ударений использовалась программа "Милан", для разделения слов по слогам - "Слогоделитель" (Syllab3). Ниже привожу некоторые заметки, созданные в результате работы со словарём. Может, пригодятся автору "Милана" или другим пользователям, желающим улучшить качество произношения. Здесь транскрипции некоторых безударных окончаний. 100% гарантии, что они всегда сработают, нет. Стрелка, стоящая перед косой чертой в интернет-обозревателе у меня не отображается, скопируйте фрагмент и вставьте в текстовый редактор с поддержкой UTF-8 кодировки.
- Спойлер:
е в конце слова должно заканчиваться в фонемах точкой ня в конце слова заканчивается n%j.a?. Вопросительный знак с точкой в конце фонем нужен для правильного произношения последующего слова, начинающегося с гласного звука. щая = S%j.io-./+ щее = S%j.jEE/+ щей = S%j.i_ij/+ щие = S%j.ji?./+ щий = S%j.i_ij/+ щих = S%j.jx/+ щую = S%jo-ju.?/+ щимися = S%ji.m%jis%jo-/+ щийся = S%j.i_ijs%jo-/+ щиеся = S%jjess%jo-/+ щеюся = S%jo-juss%jo-/+ щемуся = S%jImus%jo-/+ щемся = S%jImss%jo-/+ щейся = S%j.i_ijs%jo-/+ щееся = S%jejs.s%jo-/+ щегося = S%jI.vo-.s%jo-/+ нущий = no-S%jij/+ нУщий = n_'uS%j.i_ij/+ Ирующая = 'i_rluj_S%j.io-./+ ирУющая = _i'rl.ujS%j.io-./+ Ирующее = 'i_rluj_S%jI.jI/+ ирУющее = _i'rl.ujS%jI.jI/+ Ирующей, Ирующий = 'i_rluj_S%j.i_ij/+ ирУющей, ирУющий = _i'rl.ujS%ji_ij/+ Ирующих = 'i_rluj_S%j.x/+ ирУющих = _i'rl.ujS%j.x/+ ирУющею, ирУющую = _i'rluj_S%jI.ju.?/+ Ирующею, Ирующую = _'irl.uj_S%jI.ju.?/+ ующую, ующею = uj_S%juj_ju?/+ Ующую, Ующею = 'u.ju.S%jIju?/+ Ируя = ijruj.a?/+ знак ударения - ' перед предшествующей согласной ирУя = j'rulj.jo-^?/+
|
|
| | | Leony Наблюдатель
Сообщений : 4
Репутация : 0
| Leony | :: Пт Ноя 21 2014, 21:36 | Пт Ноя 21 2014, 21:36 | |
| Собственно, куда помещать файл под Windows. C dat-файлами вижу папки: ... tts\milena\speech\components\data\ ... \tts\milena\speech\components\conv\ сгенерированный userdct_rur.dat бросал в них, интерфейс к глосу (TextAloud) перегружал – как читала слово, так и читает. Хотя в Милане читает уже правильно.
|
|
| | | Leony Наблюдатель
Сообщений : 4
Репутация : 0
| Leony | :: Сб Ноя 22 2014, 01:45 | Сб Ноя 22 2014, 01:45 | |
| если установить Nuance Vocalizer и скопировать userdct_rur.dat ему в c:\Program Files\Nuance\Vocalizer for Automotive v5\languages\rur\speech\components\ – vautodemo.exe подхватит его. Но читалка TextAloudMP3 будет продолжать читать по-прежнему. |
|
| | | Leony Наблюдатель
Сообщений : 4
Репутация : 0
| Leony | :: Сб Ноя 22 2014, 14:47 | Сб Ноя 22 2014, 14:47 | |
| Чтобы я ни делал – никто, кроме vautodemo не подхватывает словарь userdct_rur.dat Пробовал и набор Nuance\Vocalizer for Automotive v5 и набор ScanSoft Milena_Full_22kHz в оболочке Dolphin Guide – этот вообще словари не подхватывает. |
|
| | | DemonHuntress Интересующийся
Сообщений : 8
Репутация : 1
| DemonHuntress | :: Вт Мар 29 2016, 08:25 | Вт Мар 29 2016, 08:25 | |
| Подскажите, а ведь по идее, пользовательский словарь userdct_rur.dat должен подхватываться любым приложением, поскольку это установлено в HDR файле. То есть, вне зависимости от программы, сам голос должен подхватывать словарь? |
|
| | | apokrif V.I.P.
Сообщений : 304
Репутация : 85
| apokrif | :: Вт Мар 29 2016, 16:29 | Вт Мар 29 2016, 16:29 | |
| - DemonHuntress пишет:
- Подскажите, а ведь по идее, пользовательский словарь userdct_rur.dat должен подхватываться любым приложением, поскольку это установлено в HDR файле.
То есть, вне зависимости от программы, сам голос должен подхватывать словарь? Да, именно так. |
|
| | | balaam Интересующийся
Сообщений : 7
Репутация : 3
| balaam | :: Вт Янв 03 2017, 00:20 | Вт Янв 03 2017, 00:20 | |
| - Комсомолец2 пишет:
- Проблема с редактором словаря.
Сделал все как вы сказали (все файлы лежат в C, в самом корне), но файл dat все равно не получаю.
Лог следующий: http://s8.uploads.ru/t/IHxWQ.jpg На системах x64 vocon3200 ставится в C:\Program Files (x86) а в скрипте путь такой: C:\Python25\Python "C:\Program Files\Nuance\vocon3200\EDS_v3_3\tools\dictcpl.pyc"
Помогает создание ссылки в командной строке (с правами администратора) mklink /j "C:\Program Files\Nuance" "C:\Program Files (x86)\Nuance"
P.S. на x64 Pyton не собрался dat-файл, на x86 собирается нормально. |
|
| | | | MILAN - редактор словарей для Nuance Милены | |
| MILAN - редактор словарей для Nuance Милены |
---|
| |