Искусственный голос и синтез речи - 语音合成
Вы хотите отреагировать на этот пост ? Создайте аккаунт всего в несколько кликов или войдите на форум.


语音合成技术和文本语音转换 - Synthetic voice and Text to Speech technology - Синтетический голос и технологии преобразования текста в речь
 
TTS книги  Проверялка  ФорумФорум  Последние изображенияПоследние изображения  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  

Словари

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеСловари
bot
Гость


Сообщений : 317
Репутация : 12

Словари WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 bot :: Пт Дек 12 2008, 18:50
Словари FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Пт Дек 12 2008, 18:50

Лексиконы/Словари замен для голосового движка Acapela-Group (Алёна)

Словари 2675288024Основные лексиконы (подключаются к движку непосредственно):

Словари 1373370392‎Лексикон омографов (для словаря замен). (Зеркало) Обсуждение и описание лексикона тут.
Словари 1373370392‎Частотный лексикон (для словаря замен). (Зеркало) Обсуждение и описание лексикона тут.
Словари 1373370392Лексикон трудночитаемых слов. (Зеркало) Обсуждение и описание словаря тут.
Словари 1373370392«Ё»-лексикон. (Зеркало) Обсуждение и описание лексикона тут.
Словари 1373370392Лексикон географических названий. (Зеркало) Обсуждение и описание лексикона тут.
Словари 1373370392 Лексикон имён и фамилий. (Зеркало) Обсуждение и описание словаря тут.
Словари 1373370392Лексикон запрета чтения разделительных знаков. (Зеркало)

С учетом концептуальных обновлений лексиконов правильный порядок подключения (рекомендуемый) сейчас такой:
  1. Лексикон омографов (omograph_lex_mytts_.dic)
  2. Частотный лексикон (omograph_auto.dic)
  3. Лексикон труднопроизносимых слов (Alyona22k_mytts_.dic)
  4. «Ё»-лексикон (1_YO_lex.dic и 2_YO_lex.dic)
  5. Лексикон географических названий (Geografic.dic)
  6. Лексикон имён и фамилий (propernoun.dic)
  7. Лексикон запрета чтения разделительных знаков (_punctuation.dic)
Словари NrIi91J
Словари 2675288024Основные словари замен (подключаются к TTS-программам):

Словари 234844473Словарь замены ударений (рекомендуется использовать совместно с лексиконом омографов и словарем коррекции текста). (Зеркало)
Словари 1195538408Словарь склонения числительных. Обсуждение и описание словаря тут.
Словари 1195538408Словарь коррекции текста (дополнительный словарь для основного словаря замен корректирующий текст для лучшей расстановки ударений). Обсуждение и описание словаря тут.

Словари 2675288024Дополнительные словари замен (подключаются к TTS-программам):

Словари 1839274682 Словарь замен для разрешения ё-омографов все/всё - словарь только для программы Demagog версии 241 и выше. Обсуждение и описание словаря тут.
Словари 1195538408 Словарь замен для разрешения ё-омографов все/всё - альтернативная версия словаря для программ без поддержки расширенного формата *.dic словарей но поддерживающих словари построенные на регулярных выражениях. Обсуждение и описание словаря тут.
Словари 234844473Большой словарь замен. (Зеркало) Обсуждение и описание словаря тут.
Словари 3542510717Словарь для "ручного" поиска омографов к программе "балаболка" - Alenka.hmg (скопировать в папку мои документы\balabolka). (Зеркало)
Словари 234844473Словарь сокращений. (Зеркало) Обсуждение и описание словаря тут.
Словари 234844473Словарь замен для клитик (determiners). (Зеркало) Обсуждение и описание словаря тут
Словари 234844473Словарь замены текста написанного транслитом
Словари 234844473Словарь замены для Ё-фикации текста. Обсуждение и описание словаря тут.
Словари 234844473Словарь замен преобразующий текст написанный кириллицей в "транслит" (текст написанный латиницей) и наоборот.

Словари 3828486923Перед установкой:

Все вышеприведенные словари проверены и могут быть использованы в программах "Балаболка" и "Демагог". Поддержка словарей другими программами не проверялась, но скорее всего, возможна.
Словари 234844473Словари 1839274682 словари - файлы со списками замен, каждая строка которых содержит шаблон и текст, которым будет заменен данный шаблон в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - замена. В первую очередь рассматриваются шаблоны с максимальным количеством букв, т.е. чем длиннее у правила левая часть тем раньше оно сработает в тексте. По умолчанию программа не учитывает различий между прописными и строчными буквами при рассмотрении шаблонов. Если регистр букв имеет значение, в правило добавляется символ "$" в начало строки. Например:
Цитата :
$МАГ=Международная ассоциация геодезии
По умолчанию шаблон представляет из себя отдельное слово (или несколько слов), ограниченное пробелами или знаками препинания. Если шаблон является частью слова, то для обозначения того, что перед текстом или после него могут быть любые символы, используется символ "*" (звездочка). Например:
Цитата :
авто*=авта
Данное правило будет применено к словам "автомобиль", "автокатастрофа" и т. д. Чтобы использовать в тексте специальные символы ("#", "*", "$", "="), их записывают дважды в соответствующем месте, например:
Цитата :
**=звёздочка
В этом случае отдельный символ "*" в тексте будет читаться как "звёздочка".

Словари Словари 234844473Словари 1195538408 самые распространенные среди различных программ для синтеза речи. Если программа поддерживает пользовательские словари то в первую очередь имеется в виду эти форматы словарей.

Следует заметить что в последнее время, в связи с появлением других алгоритмов словарных замен форматы написания правил в словаре замен могут отличаться друг от друга. Более подробно про все это безобразие написано тут.
Словари 3828486923Что такое Словари 3542510717 словарь и несколько слов про омографы

Омографы - слова, одинаковые по написанию, но различающиеся произношением. Иногда их также называют графическими омонимами. Одной из основных причин возникновения омографов в русском языке является различное ударение: зáмок – замóк. Омографы также возникают за счет того, что в текстах обычно не проставляют точки над ё, например: небо (нéбо и нёбо), берет (берéт и берёт).

Словари 3542510717 словари - файлы со списками замен, каждая строка которых содержит перечень словоформ искомого омографа и его искомую форму в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - варианты его замены, перечисленные через запятую.
Например:
Цитата :
замок=зАмок,замОк
По умолчанию различие между прописными и строчными буквами при рассмотрении шаблонов не делается. Если регистр букв имеет значение, добавляют символ "$" в начало строки также как и в словарях Словари 234844473Словари 1839274682:
Цитата :
$Толстой=тОлстой,толстОй
Данный формат словарей поддерживается программами "балаболка" (в ней он и был придуман) и "демагог". Для каждого омографа программа позволяет добавлять список фраз, замена которых будет осуществляться автоматически (закладка "Фразы с омографом" в редакторе омографов). Например:
Цитата :
замок=замОк
взломали замок=взломали замОк
При выполнении ручного поиска омографов в тексте программа "балаболка" (пункт главного меню "Текст|Искать омографы") эти выражения автоматически заменяются на новые а для слов, фразы с которыми нет в словаре, программа предлагает выбрать нужный вариант самостоятельно.
Словари V0q2lle

В отличии от словарей Словари 234844473Словари 1839274682, Словари 3542510717 словари используются только для ручной разметки текста. И хотя это очень долго и у многих не хватает терпения возиться со всем этим, особенно если текст весьма объемный, использование данного способа разметки позволяет практически полностью снять омонимию в тексте выставив нужную форму с проставленным ударением.

В последних версиях программ «балаболка» и «демагог» форматы Словари 2600076159Словари 1180426935Словари 1141917519 заменены на формат Словари 1195538408. Данная замена происходит автоматически. Словари формата Словари 1195538408 это те же словари Словари 2600076159Словари 1180426935Словари 1141917519 использующие регулярные выражения работающие только по стандарту PCRE.
Словари формата Словари 2600076159 поддерживаются только более ранними версиями программ где есть переключение старого формата словарей. Если вам нужна поддержка старого формата словарей скачайте и замените исполняющий файл в корне установленной ранее программы для «балаболка» или «демагог» (mytts.forum2x2.ru).
31 hmg2dic - Утилита для выделения правил из словарей Словари 3542510717 добавленных при ручном поиске омографов в формате для словаря замен Словари 234844473
Словари 3542510717Словари 234844473
31 DIC/HMG конвертер - Утилита для объединения, разделения и выделения правил из словарей Словари 3542510717Словари 234844473 добавленных при ручном поиске омографов в формате для лексиконов ударений аленки.
Словари 3542510717 ↔️ Словари 234844473
31 txt2hmg - Утилита для преобразования списка омографов в список правил Словари 3542510717 для "ручной" замены в тексте.
Словари 1038847852Установка и подключение лексиконов:

  • Загружаем лексикон труднопроизносимых слов и копируем его в:
    для Windows XP (C:/Documents and Settings/%username%/Application Data/Acapela GroupHW2L/UserLexicons)
    для Windows Vista/Seven (C:/Users/%username%/AppData/Roaming/Acapela GroupHW2L/UserLexicons)
    • %username% это название вашей "учетной записи" или "профиля пользователя" компьютера, если вы не знаете имя вашего профиля или их несколько и вы точно не уверены посмотреть его можно в окне "завершения работы" - завершение сеанса "%username%". Такое же название и в пути к папке куда копировать лексикон.
    • Если папка невидна в проводнике то нужно включить отображение скрытых и системных папок в настройках операционной системы. Для этого откройте пуск-панель управления-свойства(параметры) папки и на вкладке вид в секции "Скрытые файлы и папки" установите "Показывать скрытые файлы, папки и диски" и повторите поиск папки снова.

  • Загружаем лексикон омографов (для словаря замен) и лексикон запрета чтения разделительных знаков и подключаем их (не импортируем) так чтобы лексикон омографов (для словаря замен) стоял первым, потом лексикон труднопроизносимых слов и лексикон запрета чтения разделительных знаков (тот что верхний тот приоритетнее). Основной лексикон находится по адресу:
    для Windows XP (C:/Documents and Settings/%username%/Application Data/Acapela GroupHW2L/UserLexicons/Alyona22k_mytts_.dic)
    для Windows Vista/Seven (C:/Users/%username%/AppData/Roaming/Acapela GroupHW2L/UserLexicons/Alyona22k_mytts_.dic)
    его нужно подключить вторым после лексикона омографов (для словаря замен).

Словари 1038847852Установка и подключение словарей для программы "Балаболка":

  • Устанавливаем «балаболка», загружаем словарь замен, словарь коррекции текста и словарь склонения числительных - копируем их в папку «мои документы/balabolka».
  • Запускаем "балаболка" подключаем словари те, что мы скопировали в папку мои документы/balabolka (omograph_rules_mytts_.dic+corector_alyona.rex+chisla.rex), если нужно и остальные словари. Программа готова к чтению.

    Для предварительной обработки текста словарём предусмотрена опция "Показать измененный текст" - копируем, вставляем и читаем(записываем).
Словари GkKoRIS

Словари 1832708890Важно: для лучшей расстановки замен ini-словарями в программе "балаболка" в настройках нужно выбрать опцию "Применять правила к большим по размеру частям текста"

Словари UbHILtc

Словари 1038847852Установка и подключение словарей для программы "Демагог":

  • Устанавливаем программу. Программа портативная, не требующая установки.
  • Загружаем словарь замен, словарь коррекции текста и словарь склонения числительных - копируем их в папку dic, которая находится в папке с программой.
  • Запускаем "Демагог". На пользовательской панели нажмите кнопку Словари или F10. Слева появится панель словарей.
  • Подключите ранее скопированные в папку dic словари, отметив их в списке. Программа готова к чтению.
  • Для предварительной обработки текста словарём, нужно его отметить на панели словарей, и нажать Сервис → Статистика → Измененный текст. Все результаты будут отображаться в последней вкладке 0-Статистика, причем каждый последующий результат удалит предыдущий.

Читать замененный словарями текст можно в любой программе для чтения.
Настоятельно рекомендуется использовать функцию "форматировать текст" перед и после применения словарей замен для записи в аудио, или перед чтением со словарями замен "на лету", это также частично улучшит расстановку ударений словарями замен.
Словари 3828486923Как редактировать лексикон?

Для редактирования лексикона необходимо запустить программу-редактор словаря. По умолчанию она находится тут "C:/Program Files/Acapela Group/Infovox Desktop 2.2/LexiconMgr.exe" или ищите LexiconMgr.exe если установка была на другой диск(папку).
Словари 3828486923Как подключить новый лексикон не импортируя его в общий?

Откройте лексикон-менеджер и нажмите Ctrl+t затем нажмите добавить лексикон (Add lexicon) выберите нужный Словари 1373370392 лексикон.
Словари 3828486923Как добавить слово вручную если оно произносится неправильно?

Для этого необходимо открыть лексикон и ввести слово в окне «Word» ниже появится его фонетическая транскрипция которую можно править. Нажимаем «Copy to pronunciation» и в окне «pronunciation» правим. Для того чтобы посмотреть какие звуки какой вид в транскрипции имеют есть подсказка «Show phonetic table». Ударение в слове можно отобразить цифрами 1 и 2 причем ударение с 1 читается более длиннее а с 2 более отрывистее например:
Код:
за́мок: # z A1 m @ k
за́мок: # z A2 m @ k
замо́к: # z @ m o1 k
замо́к: # z V m o2 k
Затем жмем «Add word to lexicon» и «Save lexicon» Ctrl+S.

Словари 3828486923Как построить фонетическую транскрипцию для большого количества разных слов (любых)

Для этого можно воспользоваться этой программой раздел (ACATTS). Выбрав необходимый список слов или текст, для которых нужна транскрипция, программа дает возможность быстро получить фонетическую транскрипцию слов готовую для импорта в лексикон.

Программа также позволяет проверить текст на трудночитаемые слова с учетом подключенных лексиконов. Для этого можно воспользоваться разделом программы (ATTS). Выбрав необходимый список слов или текст, для которых нужна транскрипция, программа дает возможность быстро получить фонетическую транскрипцию слов с учетом подключенных к голосу лексиконов готовую для импорта в лексикон.

Для быстрого создания фонетической транскрипции слова с учетом ударения в нужном месте существует транскриптор - программа, объединяющая в себе все функции вышеперечисленных программ. Программой поддерживается классический формат ударения для Аленки - заглавная буква. Также можно использовать пользовательские словари для создания собственных фонетический правил и\или коррекции уже готовых транскрипций.

Следует обратить внимание что программа работает с голосовым профилем установленным по умолчанию (Alyona22k). Если используется другой голосовой профиль необходимо изменить название профиля в настройках программы на нужный.
Словари 3828486923Как мне сказать где за́мок а где замо́к?

Существует большое количество способов разметки текста и снятие омонимии. Остановимся на трех самых доступных для применения. Какой из них лучше и каким пользоваться решайте сами.
  • Ручной - с помощью словаря омографов в той же «балаболке» или «демагоге».
    • Плюсы: максимальное к-во распознанных омографов в тексте.
    • Минусы: очень долго.
  • Автоматический - с помощью словаря замены в котором часть часто употребляемых омографов уже прописана.
    • Плюсы: довольно просто и быстро.
    • Минусы: не все омографы находятся.
  • Автоматический - воспользоваться «книгоделом» или «Cognitive Dwarf Shell».
    • Плюсы: очень быстро и просто.
    • Минусы: встречаются ошибки не много, но есть.

Словари 3828486923Один голос но разные голоса

С помощью Voice Manager в программе предусмотрена возможность как настраивать параметры голоса (скорость, громкость, паузы между знаками препинания) так и создавать различные "голосовые профили" основанные на одном конкретном голосе. Как правило такие профили нужны для быстрого переключения между различными настройками одного голоса, например быстрого чтения простого и понятного текста не несущего большой смысловой нагрузки и медленного чтения более информативно насыщенного текста.

Нужно обратить внимание, что для каждого голосового профиля программа создает свой отдельный лексикон. В случае использования одного универсального лексикона необходимо повторить процедуру подключения его (лексикона) в редакторе лексиконов (лексикон менеджере) "C:/Program Files/Acapela Group/Infovox Desktop 2.2/LexiconMgr.exe" предварительно выбрав необходимый голосовой профиль Voice - Select new voice (Ctrl+Shift+V).
Словари 3828486923Как улучшить чтение слов написанных латиницей

Создаем новый голосовой профиль, называем его например eng вот с такими настройками:
Словари RkDj17Z
и для разметки текста используем словарь билингва для нового профиля заменив название голоса на свой:
Код:
<@>=<voice required="Name=eng">
</@>=</voice>

Словари 1038847852Справка по работе с лексиконами для голоса Alyona:

Документ описывает некоторые важные аспекты лингвистической обработки русской тексто-речевой системы. Описываются различные типы символов и форматов, допустимых в тексте. Описание основано на символах со стандартным кодом ANSI 1251 для алфавитов кириллицы.
Словари 2069166540Русский
Словари 3372515441Английский
Словари 3763456268Для слежения за обновлениями словарей, пользуйтесь программой myTTS проверялка.

Словари 3828486923Условные обозначения:


Словари 234844473 - словарь замен dic работающий в большинстве программ;
Словари 1839274682 - словарь замен dic работающий только в программе "демагог";
Словари 2600076159 - словарь замен использующий регулярные выражения работающий только по стандарту VBScript;
Словари 1180426935 - словарь замен использующий регулярные выражения работающий только по стандарту PCRE;
Словари 1141917519 - словарь замен использующий регулярные выражения работающий одинаково по стандарту VBScript и PCRE;
Словари 1195538408 - словарь замен использующий регулярные выражения работающий только по стандарту PCRE;
Словари 3542510717 - словарь для ручного поиска омографов;
Словари 2230594491 - словарь омографов, только для программы "Cognitive Dwarf Shell";
Словари 3790273260 - словарь замен, только для программы "Cognitive Dwarf Shell";
Словари 1373370392 - лексикон (фонетический словарь), только для голосов Acapela-Group.

Словари WarningЕсли вы нашли ошибки или неоднозначности в наших словарях дайте нам знать. Если при прослушивании появляются ошибки читайте этот топикСловари Warning


Вернуться к началу Перейти вниз

Словари

Предыдущая тема Следующая тема Вернуться к началу
Словари
Страница 1 из 1Страница 1 из 1
      Форма быстрого ответа        Форма быстрого ответа  
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении
Форум phpBB | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении | Cookies | Последние обсуждения