evmir_troll-hunter Admin
Сообщений : 616
Репутация : 208
| evmir_troll-hunter | :: Сб Ноя 02 2013, 00:39 | Сб Ноя 02 2013, 00:39 | |
| | Лексикон омографов (для словаря замен) | Редакция: evilone, evmir
Завершена работа по исправлению и дополнению лексикона омографов. Спасибо evilone за помощь, и Илье Морозову за создание txt2hmg - утилиты, преобразующей список омографов в список правил alenka.hmg для " ручного" поиска омографов в тексте. Что сделано:
- Определены грамматические атрибуты
- Исправлена орфография
- Удалены НЕ омографы
- Добавлены омографы + падежные формы к уже существующим
- Добавлены клитики - ударные словосочетания:
зАруку нАногу пОполу и т.д. (граммат. атрибут для таких слов – DETERMINER)
- Прослушано в Балаболке, Демагоге, Mp3book2005 и TextAloud, исправлены транскрипции.
- Рекомендуется подключать 1-м по приоритету
Методика: Список транскрипций импортирован в новый лекс, который был затем подключён единственным к новообразованному голосу на основе Alyona Acapela. Список омографов вставлен в TTS программу для вычитывания. После каждого слова в списке проставлена точка с запятой ; Анализ: Вычитывание омографов показала основной недостаток правки слов лишь в Lexicon Manager; в Manager’е словоформа может звучать абсолютно правильно, а в TTS программах нет. Таких форм ок. 3 тысяч. Если добавить 3000 удалённых форм, то понятно, что десятая часть лексикона не работала(!)
Прослушивать нужно в контексте. Если в TTS программу вставить список, и после каждого слова проставить точку с запятой (для необходимой паузы), то возникает эффект "почти" контекста. Вывод: Важен контекст. Вычитывание только в обычных TTS-п. (они для этого и предназначены). Разница в звучании на разных программах ничтожна - достаточно немного подправить транскрипцию для одной, чтоб слово произносилось верно в других. Есть уверенность, что довольно много омо в своём изначальном, текстовом варианте (без капслоков) могут произноситься неправильно. Напр. "души", "стою" (звучит "стая"), а перед запятой становятся проблемными слова: "цели" (звучит целя), "стороны" (ударение на "ро"), Нужно просто выбрать более частый вариант и всё нормализуется.
Как бы не редактировались/разделялись/пополнялись правила в словаре(рях) замен, никогда НЕ удастся охватить даже несколько процентов всех возможных словосочетаний! И в огромном количестве предложений будут присутствовать неизменённые омографы с непредсказуемым звучанием в зависимости от контекста, знака пунктуации или ещё чего. Поэтому рекомендуется использовать Частотный лексикон - он основательно дополнен. Подключается 2-м по приоритету. |
|
|