TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  



Большой словарь замен

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеБольшой словарь замен
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Чт Янв 30 2014, 23:35
Чт Янв 30 2014, 23:35

Большой словарь замен

Составители: retigor, evmir

Словарь замен для подготовки текста к чтению и записи в TTS-программах. Состоит из нескольких частей по 50000 правил в каждой.
Правила формировались по принципу шаблонных фраз. Точность фраз от 70 до 90%.
Принцип построения правил подразумевает активное использование Частотного лексикона; в Словарь внесены только редкие варианты омографов.
Пример:
Анализ показал, что слово зАмок встречается 411 раз, а замОк - 189; значит в Частотный лекс добавим транскрипцию замок #z A1 m @ k NOUN, а в Словарь пишем правила лишь с "замОк" + падежи и т.д.
Спецсортировка для удобства редактирования - она не влияет на быстродействие, точность и пр. В каждой программе TTS-синтеза реализован свой алгоритм замен.
Это тестовые файлы. В дальнейшем Словарь будет состоять из 30-50 (может больше) блоков наиболее популярных омографов по 5-10 тысяч правил\блок, 10 блоков\часть.
Отредактировано 05.03.14-22:03 - 1-я часть в архиве дополнена 10-ю тыс. правил с около 400 разными омографами.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вс Фев 02 2014, 03:50
Вс Фев 02 2014, 03:50

:89: ... но почему не в *.rex? объем словаря был бы раз в десять или даже сто меньше... нет? или все дело в скорости обработки текста словарем? Suspect

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Вс Фев 02 2014, 09:25
Вс Фев 02 2014, 09:25

Цитата :
или все дело в скорости обработки текста словарем?
Да.
Раз в десять или даже сто быстрее.
Потому что в *.dic можно применить Хеш-таблицы при обработке.
+ Словари представленные в этом виде, как они есть, можно портировать в любой вид и для любого голоса.
P.S.
По такому принципу сделан словарь 0omograph1.vcb для Ольги.
Можно будет чего то позаимствовать и для Ольги, если evmir_troll-hunter будет не против. Rolling Eyes

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Чт Фев 06 2014, 01:22
Чт Фев 06 2014, 01:22

Лёва пишет:
Можно будет чего то позаимствовать и для Ольги, если evmir_troll-hunter будет не против.
Заимствуйте. Словарь тестовый и будет основательно переделан. Позже...
Список с подсчётом частоты встречаемости наиболее "популярных" омографов:
Список не столь "популярных", но не менее важных омографов:

Все эти варианты омографов без капслоков добавлены в Частотный лексикон. Желающие могут отредактировать собственные словари замен в соответствии с вышеприведённым подсчётом. Т.е. удалить правила с частым вариантом того или иного омо, и оставить правила с более редким.
Это позволит оптимизировать словари и системные ресурсы комп. при подготовке больших текстов.
Примечание - 2-й список будет пополняться.


Вернуться к началу Перейти вниз
Спонсируемый контент




 Спонсируемый контент ::


Вернуться к началу Перейти вниз

Большой словарь замен

Предыдущая тема Следующая тема Вернуться к началу
Большой словарь замен
Страница 1 из 1Страница 1 из 1
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении