TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  



DIC/HMG конвертер

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеDIC/HMG конвертер
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вт Мар 27 2012, 17:22
Вт Мар 27 2012, 17:22


автор: muk79

В продолжение темы расширенный словарь для ручного поиска омографов.

Утилита для объединения, разделения и выделения правил из словарей *.hmg и *.dic добавленных при ручном поиске омографов в формате для лексиконов ударений аленки.

С помощью программы можно быстро создать словарь, объединяющий в себе "словарь замен" и обычный "словарь ручного поиска омографов" для упрощения ручного поиска омографов в тексте, а также быстро почистить словари омографов *.dic от "мусора". Структура полученного в результате объединения словаря соответствует текущему формату программы "балаболка" для словарей hmg. Словарь замен добавляется в виде готовых "фраз" что значительно упрощает поиск и разметку омографов в тексте.
В комплекте присутствуют два *.hmg словаря для выделения правил:
- alenka.hmg словарь со всеми словоформами;
- omograph.hmg словарь только с неправильно произносимыми;
Справочка:

Что такое словарь *.dic
*.dic словари - файлы со списками замен, каждая строка которых содержит шаблон и текст, которым будет заменен данный шаблон в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - замена. В первую очередь рассматриваются шаблоны с максимальным количеством букв, т.е. чем длиннее у правила левая часть тем раньше оно сработает в тексте. По умолчанию программа не учитывает различий между прописными и строчными буквами при рассмотрении шаблонов. Если регистр букв имеет значение, в правило добавляется символ "$" в начало строки. Например:
Цитата :
$МАГ=Международная ассоциация геодезии
По умолчанию шаблон представляет из себя отдельное слово (или несколько слов), ограниченное пробелами или знаками препинания. Если шаблон является частью слова, то для обозначения того, что перед текстом или после него могут быть любые символы, используется символ "*" (звездочка). Например:
Цитата :
авто*=авта
Данное правило будет применено к словам "автомобиль", "автокатастрофа" и т. д. Чтобы использовать в тексте специальные символы ("#", "*", "$", "="), их записывают дважды в соответствующем месте, например:
Цитата :
**=звёздочка
В этом случае отдельный символ "*" в тексте будет читаться как "звёздочка".

Словари *.dic самые распространенные среди различных программ для синтеза речи. Если программа поддерживает пользовательские словари то в первую очередь имеется в виду *.dic словари. Такие словари используются для быстрой замены текста и как правило, если есть другие форматы пользовательских словарей, они срабатывают самыми последними.

Следует заметить что в последнее время, в связи с появлением нового алгоритма словарных замен ( в простонародье быстрый Smile ) форматы словарей могут отличаться друг от друга. Более подробно про все это безобразие написано тут.
Что такое словарь *.hmg
Омографы - слова, одинаковые по написанию, но различающиеся произношением. Иногда их также называют графическими омонимами. Одной из основных причин возникновения омографов в русском языке является различное ударение: зáмок – замóк. Омографы также возникают за счет того, что в текстах обычно не проставляют точки над ё, например: небо (нéбо и нёбо), берет (берéт и берёт).

*.hmg словари - файлы со списками замен, каждая строка которых содержит перечень словоформ искомого омографа и его искомую форму в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - варианты его замены, перечисленные через запятую.
Например:
Цитата :
замок=зАмок,замОк
По умолчанию различие между прописными и строчными буквами при рассмотрении шаблонов не делается. Если регистр букв имеет значение, добавляют символ "$" в начало строки также как и в словарях *.dic:
Цитата :
$Толстой=тОлстой,толстОй
Данный формат словарей поддерживается, возможно только пока, только программой "балаболка" потому что в ней он и был придуман Smile Для каждого омографа программа "балаболка" позволяет добавлять список фраз, замена которых будет осуществляться автоматически (закладка "Фразы с омографом" в редакторе омографов). Например:
Цитата :
замок=замОк
взломали замок=взломали замОк
При выполнении ручного поиска омографов в тексте (пункт главного меню "Текст|Искать омографы") эти выражения автоматически заменяются на новые а для слов, фразы с которыми нет в словаре, программа предлагает выбрать нужный вариант самостоятельно.
В отличии от словарей *.dic, эти словари используются только для ручной разметки текста. И хотя это очень долго и у многих не хватает терпения возиться со всем этим, особенно если текст весьма объемный, использование данного способа разметки позволяет практически полностью снять омонимию в тексте выставив нужную форму с проставленным ударением.
Что здесь происходит?
Данная программа позволяет автоматически соединить словари *.hmg и *.dic в один *.hmg но уже с готовыми фразами для замен из словаря *.dic. Это удобно, это быстро. С каждым новым размеченным текстом, предварительно выделив фразы с уже размеченными словами в словарь *.dic, можно наполнять словарь *.hmg, в дальнейшем ускоряя процесс поиска для другого текста.
31 DIC/HMG конвертер
Все найденные ошибки или неточности пишите сюда.

Вернуться к началу Перейти вниз

DIC/HMG конвертер

Предыдущая тема Следующая тема Вернуться к началу
DIC/HMG конвертер
Страница 1 из 1Страница 1 из 1
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении