TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  



Словари для Android

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеСловари для Android
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вс Окт 21 2012, 14:01
Вс Окт 21 2012, 14:01

Словари:
Словарь замен для программы Moon+ Reader.
Словарь для преобразования лексиконов из десктопной версии в мобильную с помощью "Балаболки".


Описание формата словаря для TTS Acapela для Андроида

Формат словаря Acapela для Андроид:
Код:
зАмок   13   z A1 m @ k
Цитата :
Грамматический атрибутКод
NOUN13
VERB11
ADJECTIV14
DETERMINER15
ADVERB23
PREPOSITION24
NUMBER41
PRONOUN42
CONJONCTION43
31 Утилита для конвертирования текстового словаря Acapela экспортируемого из Lexicon Manager в словарь для Android

Установка и подключение лексиконов:
скопировать в /SDCard/acapelavoices/alyona22k_hq/NLP/
подключить в файле rur_hd_alyona_22k_lf.bvcu.ini :
Код:
LDI      "NLP/lexicon_1.dic"      user lexicon
LDI      "NLP/lexicon_2.dic"      user lexicon
szasz пишет:
Чем выше лексикон в списке тем выше приоритет.
Между столбцами используются символы табуляции, а не пробелы.

С учетом последних обновлений лексиконов правильный порядок подключения (рекомендуемый) сейчас такой:
  1. Лексикон омографов (omograph_lex_mytts_.dic)
  2. Частотный лексикон (omograph_auto.dic)
  3. Лексикон трудночитаемых слов (Alyona22k_mytts_.dic)
  4. «Ё»-лексикон (1_YO_lex.dic и 2_YO_lex.dic)
  5. Лексикон географических названий (Geografic.dic)
  6. Лексикон имён и фамилий (propernoun.dic)
  7. Лексикон запрета чтения разделительных знаков (_punctuation.dic)


Что такое лексикон?
Лексикон - это список слов и их фонетическая транскрипция с помощью которой голосовой движок «понимает» как ему нужно читать то или другое слово. Он подключается и работает не зависимо от используемой для чтения программы. Ударение для всех голосов Acapela-Group (в т.ч. Алёна) задаются только через лексикон, причем учитывается также регистр букв слова. Символ пробел игнорируется, допустимы только слова и словосочетания через дефис.

Как построить фонетическую транскрипцию для большого количества разных слов (любых)
Для этого можно воспользоваться этой программой (ACATTS). Выбрав необходимый список слов или текст, для которых нужна транскрипция, программа дает возможность быстро получить фонетическую транскрипцию слов готовую для импорта в лексикон.

Как проверить текст на трудночитаемые слова с учетом моего лексикона?
Для этого можно воспользоваться этой программой (ATTS). Выбрав необходимый список слов или текст, для которых нужна транскрипция, программа дает возможность быстро получить фонетическую транскрипцию слов с учетом подключенных к голосу лексиконов готовую для импорта в лексикон.

Для быстрого создания фонетической транскрипции слова с учетом ударения в нужном месте существует транскриптор - программа, объединяющая в себе все функции вышеперечисленных программ. Программой поддерживается классический формат ударения для Аленки - заглавная буква. Также можно использовать пользовательские словари для создания собственных фонетический правил и\или коррекции уже готовых транскрипций.

Следует обратить внимание что программа работает с голосовым профилем установленным по умолчанию (Alyona22k). Если используется другой голосовой профиль необходимо изменить название профиля в настройках программы на нужный.



Справка по работе с лексиконами для голоса Alyona:
Цитата :
Документ описывает некоторые важные аспекты лингвистической обработки русской тексто-речевой системы. Описываются различные типы символов и форматов, допустимых в тексте. Описание основано на символах со стандартным кодом ANSI 1251 для алфавитов кириллицы.
Русский
Английский

Полезные ссылки:

Если вы нашли ошибки или неоднозначности в наших словарях дайте нам знать.

Вы можете принять участие и дополнить словари.
Отправьте нам свои новые слова или найденные слова, которые на Ваш взгляд содержат ошибки. Мы будем благодарны Вам за участие и помощь в наполнении словарей.

Вернуться к началу Перейти вниз
szasz
Посетитель
avatar


Сообщений : 34
Репутация : 28

 szasz :: Вс Дек 22 2013, 17:51
Вс Дек 22 2013, 17:51

В связи с появлением в android читалке "Moon+ reader" поддержки пользовательских словарей на основе регулярных выражений был переделан словарь для замены начала новых книг, глав, разделов.

Текст вида:
Цитата :

***
Начало строки (Глава; Книга; Раздел) (1; №1; один; первая; двадцать первая; двадцать один; I; XXI)

Начало строки (Эпилог; Пролог)

Заменяется без учета регистра на:
Цитата :

<Тэг паузы>

<Тэг паузы> (Глава; ....) (1; ....) <Тэг паузы>

<Тэг паузы> (Эпилог; Пролог) <Тэг паузы>

По умолчанию используются тэги для движка loquendo " \pause=xxxx ", где xxxx время в мс. Для перехода на тэги от движка acapela необходимо удалить последнюю строку в файле tts_filter.
Цитата :

\\Pau=(\d+)\\#-># \\pause=$1

Ссылка на лексикон для мобильной Alyona - https://dl.dropboxusercontent.com/u/39077576/tts/user.zip
Ссылка на словарь для Moon+ Reader -
https://dl.dropboxusercontent.com/u/39077576/tts/tts_filter.zip

Файл tts_filter класть сюда:
Цитата :

\ data \ data \ com.flyersoft.moonreaderp \ shared_prefs \ tts_filter

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 331
Репутация : 85

 apokrif :: Вс Дек 22 2013, 18:56
Вс Дек 22 2013, 18:56

szasz пишет:
\\Pau=(\d+)\\#-># \\pause=$1
А у меня подстановки типа $1 чота не работали... @

Вернуться к началу Перейти вниз
szasz
Посетитель
avatar


Сообщений : 34
Репутация : 28

 szasz :: Вс Дек 22 2013, 19:30
Вс Дек 22 2013, 19:30

apokrif пишет:
А у меня подстановки типа $1 чота не работали... @
А можно пример для пробы?

Вернуться к началу Перейти вниз
szasz
Посетитель
avatar


Сообщений : 34
Репутация : 28

 szasz :: Вс Дек 22 2013, 20:39
Вс Дек 22 2013, 20:39

Перезалил файл tts_filter.
Теперь должен работать без пробелов в последнем правиле.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пн Дек 23 2013, 23:10
Пн Дек 23 2013, 23:10

szasz, ммм а кто составитель лексикона для мобильной Alyona? :patsak:
Код:
большая
весельная
воды
времен
головы
грозы
...

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Вт Дек 24 2013, 00:49
Вт Дек 24 2013, 00:49

В данном лексиконе 1032(!) омографа.

Вернуться к началу Перейти вниз
szasz
Посетитель
avatar


Сообщений : 34
Репутация : 28

 szasz :: Чт Дек 26 2013, 20:46
Чт Дек 26 2013, 20:46

evilone_, Лексикон был скачан с 4pda ещё в прошлом году.

Составил простой словарь для преобразования лексиконов из десктопной версии в мобильную с помощью "Балаболки":
Спойлер:
 

https://dl.dropboxusercontent.com/u/39077576/tts/lex.zip

Примеры конвертированных лексиконов:
https://dl.dropboxusercontent.com/u/39077576/tts/Alyona22k_mytts_.zip
https://dl.dropboxusercontent.com/u/39077576/tts/omograph_lex_mytts_.zip
https://dl.dropboxusercontent.com/u/39077576/tts/omograph_auto.zip

Подключение нескольких лексиконов в файле rur_hd_alyona_22k_lf.bvcu.ini :
Код:

LDI      "NLP/lexicon_1.dic"      user lexicon
LDI      "NLP/lexicon_2.dic"      user lexicon

Чем выше лексикон в списке тем выше приоритет.
Между столбцами используются символы табуляции, а не пробелы.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пт Дек 27 2013, 00:06
Пт Дек 27 2013, 00:06

а rex словари для Moon+ Reader подойдут?

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 331
Репутация : 85

 apokrif :: Пт Дек 27 2013, 02:10
Пт Дек 27 2013, 02:10

evilone_ пишет:
а rex словари для Moon+ Reader подойдут?
Даже если подойдут, то все равно не стоит. Он просто "подавится" от большого количества...

Вернуться к началу Перейти вниз
szasz
Посетитель
avatar


Сообщений : 34
Репутация : 28

 szasz :: Вт Янв 07 2014, 03:16
Вт Янв 07 2014, 03:16

Лексикон омографов уменьшенного размера (были оставлены только омографы, которые есть в словаре замены ударений формата DIC).

https://dl.dropboxusercontent.com/u/39077576/tts/java/omo_small.zip

Прошу провести тестирование утилиты по замене ударений в тексте с помощью DIC словаря. Программа написана на JAVA.

Пример использования:
Код:

/java  -jar  run.jar  файл_словаря  файл  новый_файл
/java  -jar  run.jar  file.dic  input.txt  output.txt
Можно все скинуть в одну папку и создать bat файл.

https://dl.dropboxusercontent.com/u/39077576/tts/java/run.jar

Работоспособность проверена на windows 7x64 и linux.
(В том числе и на android, в chroot окружении при помощи Linux Deploy c play.google маркета.)

В первую очередь действуют правила с большей длинной правой части шаблона.
При одинаковой длине в порядке следования.
Для учета регистра используется символ $ в начале строки.
Шаблоны с маской * не работают.

Поддерживаются UTF8 и CP1251 кодировки словаря и текстового файла.
Выходной файл сохраняется в UTF8.

Правила применяются по строкам. По окончании выводится статистика в консоль.
Отдельно сохраняется список использованных правил "LIST.txt" с кол-ом применений.
FB2 пока не поддерживается, хотя его можно пробовать прогонять как простой txt.

Вернуться к началу Перейти вниз
szasz
Посетитель
avatar


Сообщений : 34
Репутация : 28

 szasz :: Вт Янв 07 2014, 19:38
Вт Янв 07 2014, 19:38

Скорость работы утилиты со средой openjdk-jre на ARM процессоре в несколько раз меньше чем при использовании среды "Java SE Embedded" от Oracle.
4.5 мин против 42 сек на одном и том же файле.

Ссылка на загрузку:

http://www.oracle.com/technetwork/java/embedded/downloads/javase/index.html

Использовалась инструкция по установке:

http://www.savagehomeautomation.com/projects/raspberry-pi-installing-oracle-java-runtime-environment-jre.html

Необходимо учитывать версию ОС и Java (armhf или armel).

Вернуться к началу Перейти вниз
szasz
Посетитель
avatar


Сообщений : 34
Репутация : 28

 szasz :: Пн Янв 13 2014, 22:52
Пн Янв 13 2014, 22:52

Добавлена поддержка FB2. Правила применяются к тексту в параграфах (<p>...</p>) и строках вида (<v>...</v>). Тэги (например начертание шрифта "курсив") внутри параграфов и строк игнорируются и в конечный файл не включаются. Ссылки вида <a>[1]</a> удаляются. Все остальные элементы копируются в конечный файл без изменений.

Файл книги должен иметь расширение fb2. Файлы в архивах не поддерживаются.

Вернуться к началу Перейти вниз
szasz
Посетитель
avatar


Сообщений : 34
Репутация : 28

 szasz :: Пн Фев 10 2014, 10:51
Пн Фев 10 2014, 10:51

Версия для android на основе "Qt" фреймворка.
Для работы необходим "Ministro II" и "ministro configuration tool 2" из плэй стора.
Перед установкой apk необходимо выбрать репозиторий "testing" с помощью "ministro configuration tool2".

Ссылка на apk:
https://www.dropbox.com/s/ue7c3zarr0cedr0/QtApp-release.apk

Приложение тестировалось на устройстве с android 4.1.2 1280x720 и 1Гб озу.

Вернуться к началу Перейти вниз
szasz
Посетитель
avatar


Сообщений : 34
Репутация : 28

 szasz :: Сб Мар 08 2014, 12:13
Сб Мар 08 2014, 12:13

Новая версия программы с поддержкой: rex словарей;
правил вида "*ный *вый мир=ный вый мир" в dic словарях;
списков словарей формата ini.

Ссылка на дистрибутивы для Android(ARMv7 и x86) и Windows:
https://www.dropbox.com/l/vlXwcCqFm39cIY0Y5Gzd6f

Пакеты full не требуют Ministro II, но весят больше из-за библиотек Qt.
Формат правил в словарях rex следующий:
Код:

#комментарий

([abc])d#->#\1d
ab(\w+)#i->#ba\1

#i-># означает игнорирование регистра левой части выражения.
Выражения применяются к строкам в кодировке UTF16, поэтому
можно использовать свойства юникода: "\p{..}"; "\P{..}"; "\X".

Более подробно в разделах "PCRESYNTAX(3)" и "PCREPATTERN(3)" по ссылке:
http://www.pcre.org/pcre.txt

Для предотвращения автоматической сортировки словаря нужно добавить
комментарий "#sorted" в dic файл.
Символ "*" должен стоять в начале слова, а кол-во слов в левой и правой частях выражения должно быть равно.

Список ini должен содержать имена файлов словарей формата rex и dic
и находиться в одной с ними или вышестоящей директории.
Словари применяются последовательно.
Пример файла ini:
Код:

1.dic
2.dic
3.rex
new_folder/4.dic
new_folder/123/5.rex

Вернуться к началу Перейти вниз
szasz
Посетитель
avatar


Сообщений : 34
Репутация : 28

 szasz :: Вс Мар 30 2014, 22:14
Вс Мар 30 2014, 22:14

В Google Play доступна релизная версия приложения QDic.

Вернуться к началу Перейти вниз
Feel2703
Наблюдатель


Сообщений : 1
Репутация : 0

 Feel2703 :: Вт Июн 03 2014, 15:11
Вт Июн 03 2014, 15:11

Здравствуйте.

А можно сссылки на уже конвертированные словари? В теме нашел только 3 из них:

Примеры конвертированных лексиконов:
https://dl.dropboxusercontent.com/u/39077576/tts/Alyona22k_mytts_.zip
https://dl.dropboxusercontent.com/u/39077576/tts/omograph_lex_mytts_.zip
https://dl.dropboxusercontent.com/u/39077576/tts/omograph_auto.zip

Хотелось бы и остальные =)

Сам конвертировать не мог, я в этом деле профан, хотя долго пытался, ничего не вышло =)

Вернуться к началу Перейти вниз
ALGORYTM
Наблюдатель


Сообщений : 1
Репутация : 0

 ALGORYTM :: Чт Июл 17 2014, 16:17
Чт Июл 17 2014, 16:17

Приветствую Всех! Спасибо за данный сайт! Юзаю на РС "Алёнку" + "Балаболку" со списком словарей опубликованных на этом чудесном сайте и примного доволен!
С появлением ANDROID девайса (с рутом) в котором есть "Синтезатор речи Google" и русский язык + "FBreader" + "FBreader TTS+ Plugin" я озадачился поиском словарей которые смогут выровнять произношение.
Вот и возникли вопросы: Что можно подкорректировать для более качественного произношения ? Где, что скачать и куда и как воткнуть?

Вернуться к началу Перейти вниз
fabe
Новичок


Сообщений : 11
Репутация : 0

 fabe :: Чт Окт 16 2014, 15:26
Чт Окт 16 2014, 15:26

добрый день
ужасно извиняюсь..не понял куда и как интегрировать словарь в анродид с установленной аленой
самсунг без рута

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 331
Репутация : 85

 apokrif :: Чт Окт 16 2014, 21:05
Чт Окт 16 2014, 21:05

fabe пишет:
не понял куда и как интегрировать словарь в анродид с установленной аленой
Попробуйте так

Вернуться к началу Перейти вниз
fabe
Новичок


Сообщений : 11
Репутация : 0

 fabe :: Чт Окт 16 2014, 21:21
Чт Окт 16 2014, 21:21


спасибо.... только его или все словари так

-подключить в файле rur_hd_alyona_22k_lf.bvcu.ini-

а это что озночает ?

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 331
Репутация : 85

 apokrif :: Пт Окт 17 2014, 05:49
Пт Окт 17 2014, 05:49

fabe пишет:
подключить в файле rur_hd_alyona_22k_lf.bvcu.ini - а это что озночает
Ну что же вы Иглесиас? Прочтите самый первый пост в этой теме!

Вернуться к началу Перейти вниз
szasz
Посетитель
avatar


Сообщений : 34
Репутация : 28

 szasz :: Пн Ноя 03 2014, 08:30
Пн Ноя 03 2014, 08:30

В последних версиях добавили редактор словарей. Пользовательский словарь теперь лежит в папке "/sdcard/acapelavoices/userdicos/rus-rus.userdico".
Теперь первая строка в словаре указывает кодировку windows-1251.

Цитата :
Cp1251:rus-RUS
P#DIC#IGNORE 13 #_-
P#DIC#PUNCT 13 #?./+=:;,~\$()[]{}!*@&'
абажурную 14 V b V Z u1 r n I Y
аббатиссой 13 V b V t' i1 ss @ j
аббревиатурную 14 V b r' $ v' $ V t u1 r n I Y
.........

При смене кодировки на юникод словарь не работает.

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 331
Репутация : 85

 apokrif :: Вт Ноя 04 2014, 03:25
Вт Ноя 04 2014, 03:25

szasz пишет:
При смене кодировки на юникод словарь не работает.
На какой юникод конкретно?

Вернуться к началу Перейти вниз
szasz
Посетитель
avatar


Сообщений : 34
Репутация : 28

 szasz :: Вт Ноя 04 2014, 14:50
Вт Ноя 04 2014, 14:50

apokrif пишет:
На какой юникод конкретно?
UTF-8 и UTF-16(BE, LE).

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 331
Репутация : 85

 apokrif :: Вт Ноя 04 2014, 18:49
Вт Ноя 04 2014, 18:49

szasz пишет:
UTF-8 и UTF-16(BE, LE).
Странно конечно, я бы ожидал, что словарь будет именно в UTF8, а не в CP1251...

Вернуться к началу Перейти вниз
maxtraf
Наблюдатель


Сообщений : 1
Репутация : 0

 maxtraf :: Вс Окт 11 2015, 11:59
Вс Окт 11 2015, 11:59

Установил Алену на телефон и она читает номера в виде: триста восемьдесят миллиардов и так далее... подскажите пожалуйста, как сделать, чтобы она читала номера по одной цифре. буду очень благодарен за пошаговую инструкцию (совсем чайник).

Вернуться к началу Перейти вниз
Спонсируемый контент




 Спонсируемый контент ::


Вернуться к началу Перейти вниз

Словари для Android

Предыдущая тема Следующая тема Вернуться к началу
Словари для Android
Страница 1 из 1Страница 1 из 1
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении