TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  



Словари

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеСловари
bot
Гость


Сообщений : 317
Репутация : 12

 bot :: Пт Дек 12 2008, 18:55
Пт Дек 12 2008, 18:55

Словари для голосового движка Nuance (Катерина)

Основные словари:

Словарь замены ударений для имен
Словарь замены ударений для числительных
Общий словарь замены ударений

Дополнительные словари:

Дополнительный словарь замены ударений (textaloud)
Дополнительный словарь замены ударений (balabolka)
Словарь замены для Ё-фикации текста. Обсуждение и описание словаря тут.
Словарь коррекции текста (дополнительный словарь для основного словаря замен корректирующий текст для лучшей расстановки ударений). Обсуждение и описание словаря тут.
Словарь замены числительных и физических величин. Обсуждение и описание словаря тут.
Словарь склонения числительных. Обсуждение и описание словаря тут.
Словарь замены текста написанного транслитом
Словарь замен преобразующий текст написанный кириллицей в "транслит" (текст написанный латиницей) и наоборот.
Словарь замен преобразующий текст написанный в виде "12.30" к виду "12:30".
Словарь коррекции для чтения аббревиатур. Обсуждение и описание словаря тут.
Словарь коррекции для чтения дополнительных символов юникод. Обсуждение и описание словаря тут.

Перед установкой:

Все вышеприведенные словари проверены и могут быть использованы в программах "Балаболка" и "Демагог". Поддержка словарей другими программами не проверялась, но скорее всего, возможна.
словари - файлы со списками замен, каждая строка которых содержит шаблон и текст, которым будет заменен данный шаблон в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - замена. В первую очередь рассматриваются шаблоны с максимальным количеством букв, т.е. чем длиннее у правила левая часть тем раньше оно сработает в тексте. По умолчанию программа не учитывает различий между прописными и строчными буквами при рассмотрении шаблонов. Если регистр букв имеет значение, в правило добавляется символ "$" в начало строки. Например:
Цитата :
$МАГ=Международная ассоциация геодезии
По умолчанию шаблон представляет из себя отдельное слово (или несколько слов), ограниченное пробелами или знаками препинания. Если шаблон является частью слова, то для обозначения того, что перед текстом или после него могут быть любые символы, используется символ "*" (звездочка). Например:
Цитата :
авто*=авта
Данное правило будет применено к словам "автомобиль", "автокатастрофа" и т. д. Чтобы использовать в тексте специальные символы ("#", "*", "$", "="), их записывают дважды в соответствующем месте, например:
Цитата :
**=звёздочка
В этом случае отдельный символ "*" в тексте будет читаться как "звёздочка".

Словари самые распространенные среди различных программ для синтеза речи. Если программа поддерживает пользовательские словари то в первую очередь имеется в виду эти форматы словарей.

Следует заметить что в последнее время, в связи с появлением других алгоритмов словарных замен форматы написания правил в словаре замен могут отличаться друг от друга. Более подробно про все это безобразие написано тут.
Что такое словарь и несколько слов про омографы

Омографы - слова, одинаковые по написанию, но различающиеся произношением. Иногда их также называют графическими омонимами. Одной из основных причин возникновения омографов в русском языке является различное ударение: зáмок – замóк. Омографы также возникают за счет того, что в текстах обычно не проставляют точки над ё, например: небо (нéбо и нёбо), берет (берéт и берёт).

словари - файлы со списками замен, каждая строка которых содержит перечень словоформ искомого омографа и его искомую форму в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - варианты его замены, перечисленные через запятую.
Например:
Цитата :
замок=зАмок,замОк
По умолчанию различие между прописными и строчными буквами при рассмотрении шаблонов не делается. Если регистр букв имеет значение, добавляют символ "$" в начало строки также как и в словарях :
Цитата :
$Толстой=тОлстой,толстОй
Данный формат словарей поддерживается программами "балаболка" (в ней он и был придуман) и "демагог". Для каждого омографа программа позволяет добавлять список фраз, замена которых будет осуществляться автоматически (закладка "Фразы с омографом" в редакторе омографов). Например:
Цитата :
замок=замОк
взломали замок=взломали замОк
При выполнении ручного поиска омографов в тексте программа "балаболка" (пункт главного меню "Текст|Искать омографы") эти выражения автоматически заменяются на новые а для слов, фразы с которыми нет в словаре, программа предлагает выбрать нужный вариант самостоятельно.

В отличии от словарей , словари используются только для ручной разметки текста. И хотя это очень долго и у многих не хватает терпения возиться со всем этим, особенно если текст весьма объемный, использование данного способа разметки позволяет практически полностью снять омонимию в тексте выставив нужную форму с проставленным ударением.

В последних версиях программ «балаболка» и «демагог» форматы заменены на формат . Данная замена происходит автоматически. Словари формата это те же словари использующие регулярные выражения работающие только по стандарту PCRE.
Словари формата поддерживаются только более ранними версиями программ где есть переключение старого формата словарей. Если вам нужна поддержка старого формата словарей скачайте и замените исполняющий файл в корне установленной ранее программы для «балаболка» или «демагог» (mytts.forum2x2.ru).
31 hmg2dic - Утилита для выделения правил из словарей добавленных при ручном поиске омографов в формате для словаря замен
31 DIC/HMG конвертер - Утилита для объединения, разделения и выделения правил из словарей добавленных при ручном поиске омографов в формате для лексиконов ударений аленки.
↔️
31 txt2hmg - Утилита для преобразования списка омографов в список правил для "ручной" замены в тексте.
Дополнительные настройки:

Для того чтобы заставить Катю говорить быстрее нужно внести в реестр:
Код:
[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Speech\Voices\Tokens\ScanSoftKaterina_Full_22kHz]
"PP Type"="email"

Установка и подключение словарей для программы "Балаболка":

  • Устанавливаем «балаболка», загружаем словарь склонения числительных - копируем в папку «мои документы/balabolka».
  • Запускаем "балаболка" подключаем словари, из папки мои документы/balabolka. Программа готова к чтению.

    Для предварительной обработки текста словарём предусмотрена опция "Показать измененный текст" - копируем, вставляем и читаем(записываем).

Важно: для лучшей расстановки замен ini-словарями в программе "балаболка" в настройках нужно выбрать опцию "Применять правила к большим по размеру частям текста"


Установка и подключение словарей для программы "Демагог":

  • Устанавливаем программу. Программа портативная, не требующая установки.
  • Загружаем словарь склонения числительных - копируем в папку dic, которая находится в папке с программой.
  • Запускаем "Демагог". На пользовательской панели нажмите кнопку Словари или F10. Слева появится панель словарей.
  • Подключите скопированные в папку dic словари, отметив их в списке. Программа готова к чтению.
  • Для предварительной обработки текста словарём, нужно его отметить на панели словарей, и нажать Сервис → Статистика → Измененный текст. Все результаты будут отображаться в последней вкладке 0-Статистика, причем каждый последующий результат удалит предыдущий.

Читать замененный словарями текст можно в любой программе для чтения.
Настоятельно рекомендуется использовать функцию "форматировать текст" перед и после применения словарей замен для записи в аудио, или перед чтением со словарями замен "на лету", это также частично улучшит расстановку ударений словарями замен.
Как мне сказать где за́мок а где замо́к?

Существует большое количество способов разметки текста и снятие омонимии. Остановимся на трех самых доступных для применения. Какой из них лучше и каким пользоваться решайте сами.
  • Ручной - с помощью словаря омографов в той же «балаболке» или «демагоге».
    • Плюсы: максимальное к-во распознанных омографов в тексте.
    • Минусы: очень долго.
  • Автоматический - с помощью словаря замены в котором часть часто употребляемых омографов уже прописана.
    • Плюсы: довольно просто и быстро.
    • Минусы: не все омографы находятся.
  • Автоматический - воспользоваться «книгоделом» или «Cognitive Dwarf Shell».
    • Плюсы: очень быстро и просто.
    • Минусы: встречаются ошибки не много, но есть.

Для слежения за обновлениями словарей, пользуйтесь программой myTTS проверялка.

Условные обозначения:


- словарь замен dic работающий в большинстве программ;
- словарь замен dic работающий только в программе "демагог";
- словарь замен использующий регулярные выражения работающий только по стандарту VBScript;
- словарь замен использующий регулярные выражения работающий только по стандарту PCRE;
- словарь замен использующий регулярные выражения работающий одинаково по стандарту VBScript и PCRE;
- словарь замен использующий регулярные выражения работающий только по стандарту PCRE;
- словарь для ручного поиска омографов;
- словарь омографов, только для программы "Cognitive Dwarf Shell";
- словарь замен, только для программы "Cognitive Dwarf Shell";
- словарь замены ударений только для программы Textaloud.
Если вы нашли ошибки или неоднозначности в наших словарях дайте нам знать. Если при прослушивании появляются ошибки читайте этот топик


Вернуться к началу Перейти вниз

Словари

Предыдущая тема Следующая тема Вернуться к началу
Словари
Страница 1 из 1Страница 1 из 1
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении