|
|
Автор | Сообщение | Словари для Android |
---|
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Вс Окт 21 2012, 14:01 | Вс Окт 21 2012, 14:01 | |
| Словари: | Словарь замен для программы Moon+ Reader. | | Словарь для преобразования лексиконов из десктопной версии в мобильную с помощью "Балаболки". |
Описание формата словаря для TTS Acapela для Андроида Формат словаря Acapela для Андроид: - Код:
-
зАмок 13 z A1 m @ k - Цитата :
Грамматический атрибут | Код | NOUN | 13 | VERB | 11 | ADJECTIV | 14 | DETERMINER | 15 | ADVERB | 23 | PREPOSITION | 24 | NUMBER | 41 | PRONOUN | 42 | CONJONCTION | 43 |
Утилита для конвертирования текстового словаря Acapela экспортируемого из Lexicon Manager в словарь для Android Установка и подключение лексиконов: скопировать в /SDCard/acapelavoices/alyona22k_hq/NLP/ подключить в файле rur_hd_alyona_22k_lf.bvcu.ini : - Код:
-
LDI "NLP/lexicon_1.dic" user lexicon LDI "NLP/lexicon_2.dic" user lexicon - szasz пишет:
- Чем выше лексикон в списке тем выше приоритет.
Между столбцами используются символы табуляции, а не пробелы. С учетом последних обновлений лексиконов правильный порядок подключения (рекомендуемый) сейчас такой: - Лексикон омографов (omograph_lex_mytts_.dic)
- Частотный лексикон (omograph_auto.dic)
- Лексикон трудночитаемых слов (Alyona22k_mytts_.dic)
- «Ё»-лексикон (1_YO_lex.dic и 2_YO_lex.dic)
- Лексикон географических названий (Geografic.dic)
- Лексикон имён и фамилий (propernoun.dic)
- Лексикон запрета чтения разделительных знаков (_punctuation.dic)
Что такое лексикон?
Лексикон - это список слов и их фонетическая транскрипция с помощью которой голосовой движок «понимает» как ему нужно читать то или другое слово. Он подключается и работает не зависимо от используемой для чтения программы. Ударение для всех голосов Acapela-Group (в т.ч. Алёна) задаются только через лексикон, причем учитывается также регистр букв слова. Символ пробел игнорируется, допустимы только слова и словосочетания через дефис.Как построить фонетическую транскрипцию для большого количества разных слов (любых)Для этого можно воспользоваться этой программой (ACATTS). Выбрав необходимый список слов или текст, для которых нужна транскрипция, программа дает возможность быстро получить фонетическую транскрипцию слов готовую для импорта в лексикон. Как проверить текст на трудночитаемые слова с учетом моего лексикона?Для этого можно воспользоваться этой программой (ATTS). Выбрав необходимый список слов или текст, для которых нужна транскрипция, программа дает возможность быстро получить фонетическую транскрипцию слов с учетом подключенных к голосу лексиконов готовую для импорта в лексикон. Для быстрого создания фонетической транскрипции слова с учетом ударения в нужном месте существует транскриптор - программа, объединяющая в себе все функции вышеперечисленных программ. Программой поддерживается классический формат ударения для Аленки - заглавная буква. Также можно использовать пользовательские словари для создания собственных фонетический правил и\или коррекции уже готовых транскрипций. Следует обратить внимание что программа работает с голосовым профилем установленным по умолчанию (Alyona22k). Если используется другой голосовой профиль необходимо изменить название профиля в настройках программы на нужный. Справка по работе с лексиконами для голоса Alyona: - Цитата :
- Документ описывает некоторые важные аспекты лингвистической обработки русской тексто-речевой системы. Описываются различные типы символов и форматов, допустимых в тексте. Описание основано на символах со стандартным кодом ANSI 1251 для алфавитов кириллицы.
Русский Английский Полезные ссылки:- Acapela TTS Voices, Программа синтеза речи на Андроид
- SVOX Classic Text To Speech Engine, Библиотека чтения текста голосом для других приложений
- TTS для iGO primo, text-to-speech и самостоятельная модификация
| Если вы нашли ошибки или неоднозначности в наших словарях дайте нам знать. | |
Вы можете принять участие и дополнить словари. Отправьте нам свои новые слова или найденные слова, которые на Ваш взгляд содержат ошибки. Мы будем благодарны Вам за участие и помощь в наполнении словарей. |
|
|
| |
szasz Посетитель
Сообщений : 34
Репутация : 28
| szasz | :: Вс Дек 22 2013, 17:51 | Вс Дек 22 2013, 17:51 | |
| В связи с появлением в android читалке "Moon+ reader" поддержки пользовательских словарей на основе регулярных выражений был переделан словарь для замены начала новых книг, глав, разделов.
Текст вида: - Цитата :
*** Начало строки (Глава; Книга; Раздел) (1; №1; один; первая; двадцать первая; двадцать один; I; XXI)
Начало строки (Эпилог; Пролог)
Заменяется без учета регистра на: - Цитата :
<Тэг паузы>
<Тэг паузы> (Глава; ....) (1; ....) <Тэг паузы>
<Тэг паузы> (Эпилог; Пролог) <Тэг паузы>
По умолчанию используются тэги для движка loquendo " \pause=xxxx ", где xxxx время в мс. Для перехода на тэги от движка acapela необходимо удалить последнюю строку в файле tts_filter. - Цитата :
\\Pau=(\d+)\\#-># \\pause=$1
Ссылка на лексикон для мобильной Alyona - https://dl.dropboxusercontent.com/u/39077576/tts/user.zip Ссылка на словарь для Moon+ Reader - https://dl.dropboxusercontent.com/u/39077576/tts/tts_filter.zip
Файл tts_filter класть сюда: - Цитата :
\ data \ data \ com.flyersoft.moonreaderp \ shared_prefs \ tts_filter
|
|
|
| |
apokrif V.I.P.
Сообщений : 304
Репутация : 85
| apokrif | :: Вс Дек 22 2013, 18:56 | Вс Дек 22 2013, 18:56 | |
| - szasz пишет:
- \\Pau=(\d+)\\#-># \\pause=$1
А у меня подстановки типа $1 чота не работали... |
|
|
| |
szasz Посетитель
Сообщений : 34
Репутация : 28
| szasz | :: Вс Дек 22 2013, 19:30 | Вс Дек 22 2013, 19:30 | |
| - apokrif пишет:
- А у меня подстановки типа $1 чота не работали... @
А можно пример для пробы? |
|
|
| |
szasz Посетитель
Сообщений : 34
Репутация : 28
| szasz | :: Вс Дек 22 2013, 20:39 | Вс Дек 22 2013, 20:39 | |
| Перезалил файл tts_filter. Теперь должен работать без пробелов в последнем правиле. |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Пн Дек 23 2013, 23:10 | Пн Дек 23 2013, 23:10 | |
| szasz, ммм а кто составитель лексикона для мобильной Alyona? - Код:
-
большая весельная воды времен головы грозы ... |
|
|
| |
evmir_troll-hunter Admin
Сообщений : 616
Репутация : 208
| evmir_troll-hunter | :: Вт Дек 24 2013, 00:49 | Вт Дек 24 2013, 00:49 | |
| В данном лексиконе 1032(!) омографа. |
|
|
| |
szasz Посетитель
Сообщений : 34
Репутация : 28
| szasz | :: Чт Дек 26 2013, 20:46 | Чт Дек 26 2013, 20:46 | |
| evilone_, Лексикон был скачан с 4pda ещё в прошлом году.
Составил простой словарь для преобразования лексиконов из десктопной версии в мобильную с помощью "Балаболки":
- Спойлер:
(\b.+\t)#(.+)(\t)(\w+\b)(\r\n)=$1$4$3$2$5 \bNOUN\b=13 \bVERB\b=11 \bADJECTIVE\b=14 \bDETERMINER\b=15 \bADVERB\b=23 \bPREPOSITION\b=24 \bNUMBER\b=41 \bPRONOUN\b=42 \bCONJONCTION\b=43 \bINTERJECTION\b=13 \bCONJUNCTION\b=13 \bPROPERNOUN\b=13 \bCARDINAL\b=13 \bORDINAL\b=13 \bABBREVIATION\b=13 \bCONTRACTION\b=13
https://dl.dropboxusercontent.com/u/39077576/tts/lex.zip
Примеры конвертированных лексиконов: https://dl.dropboxusercontent.com/u/39077576/tts/Alyona22k_mytts_.zip https://dl.dropboxusercontent.com/u/39077576/tts/omograph_lex_mytts_.zip https://dl.dropboxusercontent.com/u/39077576/tts/omograph_auto.zip
Подключение нескольких лексиконов в файле rur_hd_alyona_22k_lf.bvcu.ini : - Код:
-
LDI "NLP/lexicon_1.dic" user lexicon LDI "NLP/lexicon_2.dic" user lexicon
Чем выше лексикон в списке тем выше приоритет. Между столбцами используются символы табуляции, а не пробелы. |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Пт Дек 27 2013, 00:06 | Пт Дек 27 2013, 00:06 | |
| а rex словари для Moon+ Reader подойдут? |
|
|
| |
apokrif V.I.P.
Сообщений : 304
Репутация : 85
| apokrif | :: Пт Дек 27 2013, 02:10 | Пт Дек 27 2013, 02:10 | |
| - evilone_ пишет:
- а rex словари для Moon+ Reader подойдут?
Даже если подойдут, то все равно не стоит. Он просто "подавится" от большого количества... |
|
|
| |
szasz Посетитель
Сообщений : 34
Репутация : 28
| szasz | :: Вт Янв 07 2014, 03:16 | Вт Янв 07 2014, 03:16 | |
| Лексикон омографов уменьшенного размера (были оставлены только омографы, которые есть в словаре замены ударений формата DIC).
https://dl.dropboxusercontent.com/u/39077576/tts/java/omo_small.zip
Прошу провести тестирование утилиты по замене ударений в тексте с помощью DIC словаря. Программа написана на JAVA.
Пример использования: - Код:
-
/java -jar run.jar файл_словаря файл новый_файл /java -jar run.jar file.dic input.txt output.txt
Можно все скинуть в одну папку и создать bat файл.
https://dl.dropboxusercontent.com/u/39077576/tts/java/run.jar
Работоспособность проверена на windows 7x64 и linux. (В том числе и на android, в chroot окружении при помощи Linux Deploy c play.google маркета.)
В первую очередь действуют правила с большей длинной правой части шаблона. При одинаковой длине в порядке следования. Для учета регистра используется символ $ в начале строки. Шаблоны с маской * не работают.
Поддерживаются UTF8 и CP1251 кодировки словаря и текстового файла. Выходной файл сохраняется в UTF8.
Правила применяются по строкам. По окончании выводится статистика в консоль. Отдельно сохраняется список использованных правил "LIST.txt" с кол-ом применений. FB2 пока не поддерживается, хотя его можно пробовать прогонять как простой txt. |
|
|
| |
szasz Посетитель
Сообщений : 34
Репутация : 28
| szasz | :: Вт Янв 07 2014, 19:38 | Вт Янв 07 2014, 19:38 | |
| Скорость работы утилиты со средой openjdk-jre на ARM процессоре в несколько раз меньше чем при использовании среды "Java SE Embedded" от Oracle. 4.5 мин против 42 сек на одном и том же файле.
Ссылка на загрузку:
http://www.oracle.com/technetwork/java/embedded/downloads/javase/index.html
Использовалась инструкция по установке:
http://www.savagehomeautomation.com/projects/raspberry-pi-installing-oracle-java-runtime-environment-jre.html
Необходимо учитывать версию ОС и Java (armhf или armel). |
|
|
| |
szasz Посетитель
Сообщений : 34
Репутация : 28
| szasz | :: Пн Янв 13 2014, 22:52 | Пн Янв 13 2014, 22:52 | |
| Добавлена поддержка FB2. Правила применяются к тексту в параграфах (<p>...</p>) и строках вида (<v>...</v>). Тэги (например начертание шрифта "курсив") внутри параграфов и строк игнорируются и в конечный файл не включаются. Ссылки вида <a>[1]</a> удаляются. Все остальные элементы копируются в конечный файл без изменений.
Файл книги должен иметь расширение fb2. Файлы в архивах не поддерживаются. |
|
|
| |
szasz Посетитель
Сообщений : 34
Репутация : 28
| szasz | :: Пн Фев 10 2014, 10:51 | Пн Фев 10 2014, 10:51 | |
| Версия для android на основе "Qt" фреймворка. Для работы необходим "Ministro II" и "ministro configuration tool 2" из плэй стора. Перед установкой apk необходимо выбрать репозиторий "testing" с помощью "ministro configuration tool2".
Ссылка на apk: https://www.dropbox.com/s/ue7c3zarr0cedr0/QtApp-release.apk
Приложение тестировалось на устройстве с android 4.1.2 1280x720 и 1Гб озу. |
|
|
| |
szasz Посетитель
Сообщений : 34
Репутация : 28
| szasz | :: Сб Мар 08 2014, 12:13 | Сб Мар 08 2014, 12:13 | |
| Новая версия программы с поддержкой: rex словарей; правил вида "*ный *вый мир=ный вый мир" в dic словарях; списков словарей формата ini.
Ссылка на дистрибутивы для Android(ARMv7 и x86) и Windows: https://www.dropbox.com/l/vlXwcCqFm39cIY0Y5Gzd6f
Пакеты full не требуют Ministro II, но весят больше из-за библиотек Qt. Формат правил в словарях rex следующий: - Код:
-
#комментарий
([abc])d#->#\1d ab(\w+)#i->#ba\1
#i-># означает игнорирование регистра левой части выражения. Выражения применяются к строкам в кодировке UTF16, поэтому можно использовать свойства юникода: "\p{..}"; "\P{..}"; "\X".
Более подробно в разделах "PCRESYNTAX(3)" и "PCREPATTERN(3)" по ссылке: http://www.pcre.org/pcre.txt
Для предотвращения автоматической сортировки словаря нужно добавить комментарий "#sorted" в dic файл. Символ "*" должен стоять в начале слова, а кол-во слов в левой и правой частях выражения должно быть равно.
Список ini должен содержать имена файлов словарей формата rex и dic и находиться в одной с ними или вышестоящей директории. Словари применяются последовательно. Пример файла ini: - Код:
-
1.dic 2.dic 3.rex new_folder/4.dic new_folder/123/5.rex
|
|
|
| |
szasz Посетитель
Сообщений : 34
Репутация : 28
| szasz | :: Вс Мар 30 2014, 22:14 | Вс Мар 30 2014, 22:14 | |
| В Google Play доступна релизная версия приложения QDic. |
|
|
| |
Feel2703 Наблюдатель
Сообщений : 1
Репутация : 0
| Feel2703 | :: Вт Июн 03 2014, 15:11 | Вт Июн 03 2014, 15:11 | |
| Здравствуйте.
А можно сссылки на уже конвертированные словари? В теме нашел только 3 из них:
Примеры конвертированных лексиконов: https://dl.dropboxusercontent.com/u/39077576/tts/Alyona22k_mytts_.zip https://dl.dropboxusercontent.com/u/39077576/tts/omograph_lex_mytts_.zip https://dl.dropboxusercontent.com/u/39077576/tts/omograph_auto.zip
Хотелось бы и остальные =)
Сам конвертировать не мог, я в этом деле профан, хотя долго пытался, ничего не вышло =)
|
|
|
| |
ALGORYTM Наблюдатель
Сообщений : 1
Репутация : 0
| ALGORYTM | :: Чт Июл 17 2014, 16:17 | Чт Июл 17 2014, 16:17 | |
| Приветствую Всех! Спасибо за данный сайт! Юзаю на РС "Алёнку" + "Балаболку" со списком словарей опубликованных на этом чудесном сайте и примного доволен! С появлением ANDROID девайса (с рутом) в котором есть "Синтезатор речи Google" и русский язык + "FBreader" + "FBreader TTS+ Plugin" я озадачился поиском словарей которые смогут выровнять произношение. Вот и возникли вопросы: Что можно подкорректировать для более качественного произношения ? Где, что скачать и куда и как воткнуть? |
|
|
| |
fabe Новичок
Сообщений : 11
Репутация : 0
| fabe | :: Чт Окт 16 2014, 15:26 | Чт Окт 16 2014, 15:26 | |
| добрый день ужасно извиняюсь..не понял куда и как интегрировать словарь в анродид с установленной аленой самсунг без рута |
|
|
| |
apokrif V.I.P.
Сообщений : 304
Репутация : 85
| apokrif | :: Чт Окт 16 2014, 21:05 | Чт Окт 16 2014, 21:05 | |
| - fabe пишет:
- не понял куда и как интегрировать словарь в анродид с установленной аленой
Попробуйте так
|
|
|
| |
fabe Новичок
Сообщений : 11
Репутация : 0
| fabe | :: Чт Окт 16 2014, 21:21 | Чт Окт 16 2014, 21:21 | |
| спасибо.... только его или все словари так
-подключить в файле rur_hd_alyona_22k_lf.bvcu.ini-
а это что озночает ? |
|
|
| |
apokrif V.I.P.
Сообщений : 304
Репутация : 85
| apokrif | :: Пт Окт 17 2014, 05:49 | Пт Окт 17 2014, 05:49 | |
| - fabe пишет:
- подключить в файле rur_hd_alyona_22k_lf.bvcu.ini - а это что озночает
Ну что же вы Иглесиас? Прочтите самый первый пост в этой теме! |
|
|
| |
szasz Посетитель
Сообщений : 34
Репутация : 28
| szasz | :: Пн Ноя 03 2014, 08:30 | Пн Ноя 03 2014, 08:30 | |
| В последних версиях добавили редактор словарей. Пользовательский словарь теперь лежит в папке "/sdcard/acapelavoices/userdicos/rus-rus.userdico". Теперь первая строка в словаре указывает кодировку windows-1251.
- Цитата :
- Cp1251:rus-RUS
P#DIC#IGNORE 13 #_- P#DIC#PUNCT 13 #?./+=:;,~\$()[]{}!*@&' абажурную 14 V b V Z u1 r n I Y аббатиссой 13 V b V t' i1 ss @ j аббревиатурную 14 V b r' $ v' $ V t u1 r n I Y ......... При смене кодировки на юникод словарь не работает. |
|
|
| |
apokrif V.I.P.
Сообщений : 304
Репутация : 85
| apokrif | :: Вт Ноя 04 2014, 03:25 | Вт Ноя 04 2014, 03:25 | |
| - szasz пишет:
- При смене кодировки на юникод словарь не работает.
На какой юникод конкретно? |
|
|
| |
szasz Посетитель
Сообщений : 34
Репутация : 28
| szasz | :: Вт Ноя 04 2014, 14:50 | Вт Ноя 04 2014, 14:50 | |
| - apokrif пишет:
- На какой юникод конкретно?
UTF-8 и UTF-16(BE, LE). |
|
|
| |
apokrif V.I.P.
Сообщений : 304
Репутация : 85
| apokrif | :: Вт Ноя 04 2014, 18:49 | Вт Ноя 04 2014, 18:49 | |
| - szasz пишет:
- UTF-8 и UTF-16(BE, LE).
Странно конечно, я бы ожидал, что словарь будет именно в UTF8, а не в CP1251... |
|
|
| |
maxtraf Наблюдатель
Сообщений : 1
Репутация : 0
| maxtraf | :: Вс Окт 11 2015, 11:59 | Вс Окт 11 2015, 11:59 | |
| Установил Алену на телефон и она читает номера в виде: триста восемьдесят миллиардов и так далее... подскажите пожалуйста, как сделать, чтобы она читала номера по одной цифре. буду очень благодарен за пошаговую инструкцию (совсем чайник). |
|
|
| |
|
Словари для Android |
---|