Словари для голосовых движков IVONA Tatyana (Татьяна) & Maxim (Максим)
| Основные словари: |
| Лексикон труднопроизносимых слов. Обсуждение и описание лексикона тут. |
| Лексикон омографов (для словаря замен). |
| Частотный лексикон (для словаря замен). Обсуждение и описание лексикона тут. |
| «Ё»-лексикон. Обсуждение и описание лексикона тут. |
| Лексикон имён, фамилий и географических названий. |
| Лексикон иностранных слов. |
| Словарь склонения числительных. Обсуждение и описание словаря тут. |
| Словарь коррекции текста (дополнительный словарь замен корректирующий текст для лучшей расстановки ударений). Обсуждение и описание словаря тут. |
| Словарь замен для разрешения ё-омографов все/всё - альтернативная версия словаря для программ без поддержки расширенного формата *.dic словарей но поддерживающих словари построенные на регулярных выражениях. Обсуждение и описание словаря тут. |
| Словарь замены ударений (рекомендуется использовать совместно с лексиконом омографов и словарем коррекции текста). |
| Большой словарь замен. Обсуждение и описание словаря тут. |
| Дополнительные словари: |
| Словарь замен для разрешения ё-омографов все/всё - словарь только для программы Demagog версии 241 и выше. Обсуждение и описание словаря тут. |
| Словарь замены для Ё-фикации текста. Обсуждение и описание словаря тут. |
| Словарь для "ручного" поиска омографов к программе "балаболка" (скопировать в папку мои документы\balabolka). |
| Словарь сокращений. Обсуждение и описание словаря тут. |
| Словарь замен для клитик (determiners). Обсуждение и описание словаря тут |
| Словарь замены текста написанного транслитом |
| Словарь замен преобразующий текст написанный кириллицей в "транслит" (текст написанный латиницей) и наоборот. |
| Словарь замен преобразующий текст написанный в виде "12.30" к виду "12:30". |
| Словарь коррекции для чтения аббревиатур. Обсуждение и описание словаря тут. |
| Словарь коррекции для чтения дополнительных символов юникод. Обсуждение и описание словаря тут. |
| Установка и подключение лексиконов: |
Существуют много различных способов подключить пользовательский лексикон
к голосовому профилю. Остановимся на трех из них по уровню сложности в порядке убывания:
- Подключение напрямую через реестр.
Параметр GlobalPLS в разделе реестра HKEY_LOCAL_MACHINE\SOFTWARE\IVONA\.......\maxim22 для голоса Максим или HKEY_LOCAL_MACHINE\SOFTWARE\IVONA\.......\tatyana22 для голоса Татьяна соответственно. Вместо {......} могут быть различные пути в зависимости от версии установщика голоса: к примеру сборка от NextUp имеет название IVONA OEM NextUp OpenSAPI, от Harpo - IVONA OEM Harpo S2G и т.п. Значение ключа GlobalPLS содержит в себе перечень лексиконов (полный путь к файлу лексикона) - каждый файл в новой строке в нужном порядке (самый верхний подключается самым первым а самый нижний - самым последним соответственно).
- Подключение через раздел "свойства речи" (sapi.cpl) панели управления.
Откройте раздел "свойства речи" (sapi.cpl) панели управления (панель управления - речь или распознавание речи - преобразование текста в речь - IVONA Tatyana / Maxim параметры). На вкладке "PLS" раздела "Lexicon" в строке указать полный путь к сохраненному на диске лексикону и нажать кнопку "Add".
Порядок подключения так же важен как и в предыдущем варианте - самый верхний подключается самым первым а самый нижний - самым последним соответственно.
- Подключение с помощью программы IVONA Pronunciation Lexicon Helper (PLSHelper)
Запустите программу PLSHelper (программа не требует установки). В окне программы перейти на вкладку "Лексиконы" и добавить сохраненный на диске файл нажав кнопку "Добавить".
Порядок подключения так же важен как и в предыдущих двух вариантах.
Порядок подключения лексиконов:
| При подключении больших лексиконов наблюдается определенная задержка перед началом чтения текста. |
| Существует альтернатива большому Ё-лексикону - словарь замены для Ё-фикации текста который подключается и работает в программах-читалках как обычный словарь замен . Среди главных его преимуществ - значительная скорость работы по сравнению с подключенным лексиконом . Главный недостаток - словарь расставляет букву "ё" в словах текста и все, лексикон же содержит правильную фонетическую транскрипцию слова, т.е. если голос допустит ошибку в произношении слова с проставленной буквой "ё" то лексикон прочтет его по заданной в нем транскрипции без ошибки. Какой вариант лучший именно для вас выбирайте сами. |
| Перед установкой: |
Все вышеприведенные словари проверены и могут быть использованы в программах "Балаболка" и "Демагог". Поддержка словарей другими программами не проверялась, но скорее всего, возможна.
словари - файлы со списками замен, каждая строка которых содержит шаблон и текст, которым будет заменен данный шаблон в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - замена. В первую очередь рассматриваются шаблоны с максимальным количеством букв, т.е. чем длиннее у правила левая часть тем раньше оно сработает в тексте. По умолчанию программа не учитывает различий между прописными и строчными буквами при рассмотрении шаблонов. Если регистр букв имеет значение, в правило добавляется символ "$" в начало строки. Например:
- Цитата :
- $МАГ=Международная ассоциация геодезии
По умолчанию шаблон представляет из себя отдельное слово (или несколько слов), ограниченное пробелами или знаками препинания. Если шаблон является частью слова, то для обозначения того, что перед текстом или после него могут быть любые символы, используется символ "*" (звездочка). Например:
- Цитата :
- авто*=авта
Данное правило будет применено к словам "автомобиль", "автокатастрофа" и т. д. Чтобы использовать в тексте специальные символы ("#", "*", "$", "="), их записывают дважды в соответствующем месте, например:
- Цитата :
- **=звёздочка
В этом случае отдельный символ "*" в тексте будет читаться как "звёздочка".
Словари
самые распространенные среди различных программ для синтеза речи. Если программа поддерживает пользовательские словари то в первую очередь имеется в виду эти форматы словарей.
Следует заметить что в последнее время, в связи с появлением других алгоритмов словарных замен форматы написания правил в словаре замен могут отличаться друг от друга. Более подробно про все это безобразие написано тут.
| Что такое словарь и несколько слов про омографы |
Омографы - слова, одинаковые по написанию, но различающиеся произношением. Иногда их также называют графическими омонимами. Одной из основных причин возникновения омографов в русском языке является различное ударение: зáмок – замóк. Омографы также возникают за счет того, что в текстах обычно не проставляют точки над ё, например: небо (нéбо и нёбо), берет (берéт и берёт).
словари - файлы со списками замен, каждая строка которых содержит перечень словоформ искомого омографа и его искомую форму в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - варианты его замены, перечисленные через запятую.
Например:
- Цитата :
- замок=зАмок,замОк
По умолчанию различие между прописными и строчными буквами при рассмотрении шаблонов не делается. Если регистр букв имеет значение, добавляют символ "$" в начало строки также как и в словарях
:
- Цитата :
- $Толстой=тОлстой,толстОй
Данный формат словарей поддерживается программами "балаболка" (в ней он и был придуман) и "демагог". Для каждого омографа программа позволяет добавлять список фраз, замена которых будет осуществляться автоматически (закладка "Фразы с омографом" в редакторе омографов). Например:
- Цитата :
- замок=замОк
взломали замок=взломали замОк
При выполнении ручного поиска омографов в тексте программа "балаболка" (пункт главного меню "Текст|Искать омографы") эти выражения автоматически заменяются на новые а для слов, фразы с которыми нет в словаре, программа предлагает выбрать нужный вариант самостоятельно.
В отличии от словарей
,
словари используются только для ручной разметки текста. И хотя это очень долго и у многих не хватает терпения возиться со всем этим, особенно если текст весьма объемный, использование данного способа разметки позволяет практически полностью снять омонимию в тексте выставив нужную форму с проставленным ударением.
| Что такое лексикон? |
Лексикон
это список слов (grapheme) и их фонетическая транскрипция (phoneme) с помощью которой голосовой движок «понимает» как ему нужно читать то или другое слово. Он подключается и работает не зависимо от используемой для чтения программы. Ударение для всех голосов IVONA Максим и Татьяна задаются
только через лексикон, причем учитывается также регистр букв слова. Подробное описание структуры и формата записей
лексикона описана тут.
| Как редактировать лексикон? |
Для редактирования лексикона можно использовать программу
IVONA Pronunciation Lexicon Helper (PLSHelper). Программа позволяет редактировать как файлы
фонетические словари (лексиконы) так и встроенный словарь замен
.
| Как импортировать слова в лексикон? |
Откройте PLSHelper и на вкладке "просмотр транскрипций" откройте лексикон в который вы хотите импортировать слова из другого лексикона. Новые слова будут добавлены в конец общего списка слов с отметкой "новый" в поле "примечание". Если импортируемое слово уже присутствует в исходном лексиконе то будет указана отметка "повтор".
| Как создать свой персональный лексикон? |
Откройте PLSHelper и на вкладке "просмотр транскрипций" нажмите "сохранить как" выберите название и расположение вашего нового лексикона. Далее перейдите на вкладку "Лексиконы" и добавьте созданный файл к общему списку лексиконов. Порядок подключения имеет значение. Если вы хотите чтобы слова из вашего лексикона имели более высокий приоритет над остальными поставьте его сразу после "служебного", а если наоборот - то последним в списке.
| Как экспортировать мой лексикон? |
Для экспорта списка слов из лексикона можно воспользоваться редактором PLSHelper. Программа позволяет экспортировать лексиконы как в формат
так и в обычный текстовый список. Выбор осуществляется на этапе указания имени экспортируемого списка. Если в названии указать расширение *.txt то экспорт будет осуществлен в обычный текстовый формат, если же *.pls то экспорт будет в формате
. Если в лексиконе находятся слова с заполненными полями "Лексикон" то при экспорте в формат
файлов будет несколько в зависимости от количества разных значений в этом поле. Например если в полях "Лексикон" присутствуют три названия "слова" "имена" и "сленг", то при экспорте в формат
экспортируемый файл будет разбит на три лексикона в каждом из которых будут транскрипции только из одного списка (отдельно слова из списка "слова", отдельно слова из списка "имена" и отдельно слова из списка "сленг").
| Как добавить слово вручную если оно произносится неправильно? |
Для этого необходимо:
- открыть подключенный к голосу лексикон (в PLShelper перейдите на вкладку "Лексиконы" и два раза кликните по нужному лексикону из списка);
- на вкладке "просмотр транскрипций" введите слово в поле «текст» указав при этом заглавной буквой правильную ударную гласную в слове и нажмите "Enter" - в полях "Фонема" и "Транскрипция (авто)" будут автоматически построены фонетическая транскрипция слова и ее разбивка на фонемы;
- перейдите на поле "Транскрипция (авто)" и снова нажмите "Enter" - транскрипция слова из поля "Транскрипция (авто)" будет автоматически скопирована в поле "Транскрипция";
- перейдя на поле "Транскрипция" нажмите "F2" чтобы услышать произношение слова по построенной транскрипции и(или) "F1" для прослушивания исходного произношения слова. Если построенный вариант транскрипции не подходит по звучанию, измените транскрипцию в поле "Транскрипция" используя варианты из словаря "Подсказка" (двойной клик по нужному символу из словаря автоматически подставляет его в позицию курсора в поле "Транскрипция") и снова нажмите "F2" чтобы услышать произношение слова по построенной транскрипции;
- после того как будет подобрана подходящая по звучанию транскрипция слова, если это необходимо, можно указать варианты написания данного слова в поле "Дополнительно" и поле "Примечание" а также выбрать цвет строки для данного слова в списке и снова нажмите "Enter" после чего слово будет добавлено в общий список лексикона;
- сохраните измененный файл нажав кнопку "сохранить как".
| Если вы хотите чтобы слово добавилось в список лексикона без указания ударения то перед добавлением отметьте в настройках "Убирать ударение". В большинстве случаев исходная форма слова в тексте указана без ударения и добавляя слово в лексикон без его указания поможет правильно учесть необходимую для произношения транскрипцию. |
| Как мне сказать где за́мок а где замо́к? |
Существует большое количество способов разметки текста и снятие омонимии. Остановимся на трех самых доступных для применения. Какой из них лучше и каким пользоваться решайте сами.
- Ручной - с помощью словаря омографов в той же «балаболке» или «демагоге».
- Плюсы: максимальное к-во распознанных омографов в тексте.
- Минусы: очень долго.
- Автоматический - с помощью словаря замены в котором часть часто употребляемых омографов уже прописана.
- Плюсы: довольно просто и быстро.
- Минусы: не все омографы находятся.
| Условные обозначения: |
- словарь замен dic работающий в большинстве программ;
- словарь замен dic работающий только в программе "демагог";
- словарь замен использующий регулярные выражения работающий только по стандарту VBScript;
- словарь замен использующий регулярные выражения работающий только по стандарту PCRE;
- словарь замен использующий регулярные выражения работающий одинаково по стандарту VBScript и PCRE;
- словарь замен использующий регулярные выражения работающий только по стандарту PCRE;
- словарь для ручного поиска омографов;
- словарь омографов, только для программы "Cognitive Dwarf Shell";
- словарь замен, только для программы "Cognitive Dwarf Shell";
- лексикон (фонетический словарь), только для голосов IVONA.
- лексикон (фонетический словарь), только для голосов IVONA -
тестовая версия (присутствуют ошибки и неточности - рекомендуется
только для ознакомительных целей!).
- встроенный словарь замен лексикон, (только для голосов IVONA) более подробное описание
тут.
Все словари замен предназначены только для использования в программах-читалках. Они не содержат фонетической транскрипции слов и служат только для примитивной разметки текста (коррекции ударений, исправления неточностей набранного текста и т.п.).
В последних версиях программ «балаболка» и «демагог» форматы
заменены на формат
. Данная замена происходит автоматически. Словари формата
это те же словари
использующие регулярные выражения работающие только по стандарту PCRE.
Словари формата
поддерживаются только более ранними версиями программ где есть переключение старого формата словарей. Если вам нужна поддержка старого формата словарей скачайте и замените исполняющий файл в корне установленной ранее программы для «балаболка» или «демагог» (mytts.forum2x2.ru).
hmg2dic - Утилита для выделения правил из словарей
добавленных при ручном поиске омографов в формате для словаря замен
→
DIC/HMG конвертер - Утилита для объединения, разделения и выделения правил из словарей
добавленных при ручном поиске омографов в формате для лексиконов ударений аленки.
txt2hmg - Утилита для преобразования списка омографов в список правил
для "
ручной" замены в тексте.
| Если вы нашли ошибки или неоднозначности в наших словарях дайте нам знать. Если при прослушивании появляются ошибки читайте этот топик | |