TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  



Лексикон омографов (для словаря замен)

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеЛексикон омографов (для словаря замен)
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Сб Ноя 02 2013, 00:39
Сб Ноя 02 2013, 00:39

Лексикон омографов (для словаря замен)
Редакция: evilone, evmir

Завершена работа по исправлению и дополнению лексикона омографов. Спасибо evilone за помощь, и Илье Морозову за создание txt2hmg - утилиты, преобразующей список омографов в список правил alenka.hmg для "ручного" поиска омографов в тексте.

Что сделано:
  • Определены грамматические атрибуты
  • Исправлена орфография
  • Удалены НЕ омографы
  • Добавлены омографы + падежные формы к уже существующим
  • Добавлены клитики - ударные словосочетания:
    зАруку
    нАногу
    пОполу

    и т.д. (граммат. атрибут для таких слов – DETERMINER)
  • Прослушано в Балаболке, Демагоге, Mp3book2005 и TextAloud, исправлены транскрипции.
  • Рекомендуется подключать 1-м по приоритету

Методика:
Список транскрипций импортирован в новый лекс, который был затем подключён единственным к новообразованному голосу на основе Alyona Acapela.
Список омографов вставлен в TTS программу для вычитывания.
После каждого слова в списке проставлена точка с запятой ;
Анализ:
Вычитывание омографов показала основной недостаток правки слов лишь в Lexicon Manager; в Manager’е словоформа может звучать абсолютно правильно, а в TTS программах нет. Таких форм ок. 3 тысяч. Если добавить 3000 удалённых форм, то понятно, что десятая часть лексикона не работала(!)

Прослушивать нужно в контексте. Если в TTS программу вставить список, и после каждого слова проставить точку с запятой (для необходимой паузы), то возникает эффект "почти" контекста.
Вывод:
Важен контекст.
Вычитывание только в обычных TTS-п. (они для этого и предназначены).Wink
Разница в звучании на разных программах ничтожна - достаточно немного подправить транскрипцию для одной, чтоб слово произносилось верно в других.
Есть уверенность, что довольно много омо в своём изначальном, текстовом варианте (без капслоков) могут произноситься неправильно. Напр. "души", "стою" (звучит "стая"), а перед запятой становятся проблемными слова: "цели" (звучит целя), "стороны" (ударение на "ро"),
Нужно просто выбрать более частый вариант и всё нормализуется.

Как бы не редактировались/разделялись/пополнялись правила в словаре(рях) замен, никогда НЕ удастся охватить даже несколько процентов всех возможных словосочетаний! И в огромном количестве предложений будут присутствовать неизменённые омографы с непредсказуемым звучанием в зависимости от контекста, знака пунктуации или ещё чего.
Поэтому рекомендуется использовать Частотный лексикон - он основательно дополнен. Подключается 2-м по приоритету.

Вернуться к началу Перейти вниз

Лексикон омографов (для словаря замен)

Предыдущая тема Следующая тема Вернуться к началу
Лексикон омографов (для словаря замен)
Страница 1 из 1Страница 1 из 1
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении