evmir_troll-hunter Admin
Сообщений : 616
Репутация : 208
| evmir_troll-hunter | :: Чт Янв 30 2014, 23:35 | Чт Янв 30 2014, 23:35 | |
| Составители: retigor, evmir
Словарь замен для подготовки текста к чтению и записи в TTS-программах. Состоит из нескольких частей по 50000 правил в каждой. Правила формировались по принципу шаблонных фраз. Точность фраз от 70 до 90%. Принцип построения правил подразумевает активное использование Частотного лексикона; в Словарь внесены только редкие варианты омографов. Пример: Анализ показал, что слово зАмок встречается 411 раз, а замОк - 189; значит в Частотный лекс добавим транскрипцию замок #z A1 m @ k NOUN, а в Словарь пишем правила лишь с "замОк" + падежи и т.д. Спецсортировка для удобства редактирования - она не влияет на быстродействие, точность и пр. В каждой программе TTS-синтеза реализован свой алгоритм замен. Это тестовые файлы. В дальнейшем Словарь будет состоять из 30-50 (может больше) блоков наиболее популярных омографов по 5-10 тысяч правил\блок, 10 блоков\часть. Отредактировано 05.03.14-22:03 - 1-я часть в архиве дополнена 10-ю тыс. правил с около 400 разными омографами. |
|
|
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| |
Лёва V.I.P.
Сообщений : 134
Репутация : 173
| Лёва | :: Вс Фев 02 2014, 09:25 | Вс Фев 02 2014, 09:25 | |
| - Цитата :
- или все дело в скорости обработки текста словарем?
Да. Раз в десять или даже сто быстрее. Потому что в *.dic можно применить Хеш-таблицы при обработке. + Словари представленные в этом виде, как они есть, можно портировать в любой вид и для любого голоса. P.S. По такому принципу сделан словарь 0omograph1.vcb для Ольги. Можно будет чего то позаимствовать и для Ольги, если evmir_troll-hunter будет не против. |
|
|
evmir_troll-hunter Admin
Сообщений : 616
Репутация : 208
| evmir_troll-hunter | :: Чт Фев 06 2014, 01:22 | Чт Фев 06 2014, 01:22 | |
| - Лёва пишет:
- Можно будет чего то позаимствовать и для Ольги, если evmir_troll-hunter будет не против.
Заимствуйте. Словарь тестовый и будет основательно переделан. Позже... Список с подсчётом частоты встречаемости наиболее "популярных" омографов: Список не столь "популярных", но не менее важных омографов:
Все эти варианты омографов без капслоков добавлены в Частотный лексикон. Желающие могут отредактировать собственные словари замен в соответствии с вышеприведённым подсчётом. Т.е. удалить правила с частым вариантом того или иного омо, и оставить правила с более редким. Это позволит оптимизировать словари и системные ресурсы комп. при подготовке больших текстов. Примечание - 2-й список будет пополняться.
|
|
|