|
| Альтернативный редактор лексикона LoqLexer | |
| |
Автор | Сообщение | Альтернативный редактор лексикона LoqLexer |
---|
Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Ср Ноя 19 2008, 09:55 | Ср Ноя 19 2008, 09:55 | |
| Stroodder Попробовал LoqLexer 1.0 перегнать колин словарь 400kb. Закушал всю виртуальную память и остановился , выдав ошибку -закончилась память. Жалко конечно. Еще есть мелкие ошибки при ручном вводе. Часто лепит правил в одну строку, без возврата каретки. Комментарии к правилам родной редактор не держит. Хорошо бы добавить опцию их отключения. И хотелось бы записывать в словарь не только фонемные правила, а и текстовые. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Ср Ноя 19 2008, 19:13 | Ср Ноя 19 2008, 19:13 | |
| Только что перегнал словарь с http://abook-club.ru/, размером 6 с лишним Мб. Ни одна строчка не съехала. Ошибку с памятью обнаружил Желательно привести пример статьи, которая добавляется без возврата каретки. Комментарии, отключаются соответствующей галочкой, об этом написано в ридми, отключение комментариев при перегонке словаря, как и удаление существующих функция действительно нужная. Строки съезжают и у словарей, созданных родным редактором. Необязательно править фонемы, в поле для фонем введите слово или словосочетание, какое необходимо и добавьте в словарь. |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Ср Ноя 19 2008, 22:07 | Ср Ноя 19 2008, 22:07 | |
| Навряд ли сейчас смогу вспомнить последовательность действий приведшей к записи в файл словари нескольких правил в одну строку.
Однако родной редактор словаря при каждом его сохранении сдвигает комментарий на последующее правило. Поэтому от комментариев полностью отказался. Да и их наличие - излишняя роскошь.
Ждем вашу откорректированную, без утечки памяти утилиту. Как я понял через нее можно перегнать любые словари в виде словаря Николая. |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Пт Ноя 21 2008, 16:15 | Пт Ноя 21 2008, 16:15 | |
| Stroodder А если здесь написать пожелания по коррекции LogLexer, есть ли вероятность, что они будут учтены и программа будет выложена в открытый доступ? |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Сб Ноя 22 2008, 20:42 | Сб Ноя 22 2008, 20:42 | |
| Ну, если это будет востребованно, то почему бы и нет LoqLexer v.1.0.1 |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Сб Ноя 22 2008, 23:13 | Сб Ноя 22 2008, 23:13 | |
| Просто хотелось бы немного упростить записи в словаре. Т.е. там, где при экспорте попадается Ё, и ударения совпадают со знаком "^" в таком виде и вносить их в словарь, без фонемной транскрипции. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Вс Ноя 23 2008, 06:49 | Вс Ноя 23 2008, 06:49 | |
| Куда проще, чем запись "ударение=ударе<ние"? Пользователь может вводить фонемы, может совершенно не использовать их, может отключать добавление комментариев, используя поле только для интерпретации в фонемы и т.д., кому как удобней. Буква "ё" при экспорте обрабатывается автоматически, так же при экспорте обрабатываются случаи го-канья в словах типа "чего<, кого<". Не вижу ничего выдающегося в словах с "ё", чтобы для них нужно было бы устанавливать индивидуальное правило при записи. Всего не предугадаешь, поэтому лучше стараться использовать качественные словари на входе. |
|
| | | koshi Новичок
Сообщений : 13
Репутация : 0
| koshi | :: Вс Ноя 23 2008, 12:06 | Вс Ноя 23 2008, 12:06 | |
| Stroodder, Loquendo TTS в основном правильно расставляет ударения. По-моему это большая ошибка - сделать конвертор словаря Николая в SAMPA транскрипции Ольги. Скоро в инете появятся "мусорные" словари для Ольги. Они уже есть - в них перечислены очень много слов, которые и без того хорошо читаются движком. А словарик то не бинарный и даже не текстовый, размер имеет значение. Каков алгоритм LoqLexer, если не секрет? Кажется, он не фильтрует уже правильные сампа транскрипции. В чём заключается суть конвертации? Получаем транскрипцию для слова с помощью внутренней функции Loquendo (как в PhonOlgaph) и далее в ней проставляем ударение в соответствии со словарём Николая? |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Вс Ноя 23 2008, 13:45 | Вс Ноя 23 2008, 13:45 | |
| - Цитата :
- Не вижу ничего выдающегося в словах с "ё", чтобы для них нужно было бы устанавливать индивидуальное правило при записи.
Жаль, конечно .Но уважаю вашу позицию в этом вопросе.
- Цитата :
- так же при экспорте обрабатываются случаи го-канья в словах типа "чего<, кого<"
Давно я конечно учился в школе, но это действительно является нормой произношения в русском языке, либо это просто так больше нравится?
Задействован ли подключенный в реестре SAPI5 словарь т.е. учитываются ли уже сделанные коррекции ?
И еще хотелось бы услышать ваше мнения как автора утилиты, планируете ли вы привязать к ней морфологический словарь на подобии утилиты Ajaja для Алены по изысканию неправильно произносимых слов в тексте с добавлением их в словарь. Такой функционал позволил бы лучше выявлять проблемные слова и повысил результативность словаря, составляемого не постфактум, а перед чтением. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Вс Ноя 23 2008, 16:50 | Вс Ноя 23 2008, 16:50 | |
| - koshi пишет:
- Stroodder,
Каков алгоритм LoqLexer, если не секрет? Кажется, он не фильтрует уже правильные сампа транскрипции. Попробуйте прогнать через конвертер словарь Николая и сравнить размеры "до" и "после". Размер сконвертированного будет меньше (в версии 1.0.1 можно уменьшить еще, если отключить добавление комментариев), потому как "ненужные" правила отфильтровываются, и это указано в ридми. Словарь - это по сути текстовый файл с добавлением префиксов тэгов в статьях.
Lexus В архиве LoqLexer 1.0.1, ссылку на которую я выложил чуть выше есть файл Readme.txt и History.txt, в последнем описана опция подключения словаря: - Цитата :
Добавлено: ...
Опция включения/отключения записи комментариев при импорте словаря движка Elan. Раздел реестра: "HKEY_LOCAL_MACHINE\SOFTWARE\LoqLexer\Config", параметр "ImportComments: true/false".
Глобальная опция подключения системного словаря при импорте, озвучивании, постоении транскрипций. Раздел реестра: "HKEY_LOCAL_MACHINE\SOFTWARE\LoqLexer\Config", параметр: "UseSysDict: true/false". ...
С помощью этой опции можно также при повторной перегонке одного и того же словаря выявить словосочетания, произношение которых не изменяется, несмотря на наличие их в словаре.
По поводу "чего<" "кого<" и т.п. Пишется-то все верно, но попробуйте поставить ударение в Ольге и она начнет говорить чеГО, вместо обычного чеВО, это тоже приходится отфильтровывать. Короче говоря программа сравнивает, искажает ли знак ударения нормальное произношение и отклоняет, либо включает статью в словарь.
По-поводу транскрипций с буквой "ё", тут есть и более весомый аргумент: в словосочетания по соседству со словом, содержащим букву "ё", может быть и другое слово, требующее исправления ударения. Например: "все подчиненное".
По морфологич. анализу пока сдвигов никаких, честно говоря в исходниках так и не разбирался еще. |
|
| | | koshi Новичок
Сообщений : 13
Репутация : 0
| koshi | :: Вс Ноя 23 2008, 19:24 | Вс Ноя 23 2008, 19:24 | |
| Stroodder Точно, так и есть. В теме со словарями фигурирует ссылка - Цитата :
- http://ifolder.ru/8796587 пробный словарь вылаженный товарищем Stroodder на одном из форумов.
Очень избыточный словарик (видимо первые попытки конвертации), вот я и подумал, что утилитка конвертит всё подряд. А вот у меня ещё такая просьба по улучшению функционала LoqLexer. Добавить два чекбокса (например справа от кнопочек "прослушать") для автоматического прослушивания. И те действия, которые выполняются по двойному клику в списке транскрипций, назначить на перемещение (выбор) активного рядка (по клику или стрелками). То есть, пользователь выставляет автовоспроизведение и просто перемещаясь стрелочкой вниз быстро проверяет/прослушивает звучание слов (оба варианта по очереди, либо один - отмеченный). Поля "Читать" и прочие соответственно обновляются. |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Вт Ноя 25 2008, 09:45 | Вт Ноя 25 2008, 09:45 | |
| Stroodder У меня есть еще немного необычная просьба, сделать ActiveX dll по получению транскрипции из строковой переменной через родную функцию движка. Немного программирую на VScript. Влезать в Cи не позволяет ПК, да и знаний не достаточно. Я думаю не одному мне поможет.
LogLexer при экспорте игнорирует правила без знака ударения. Т.е не выполняется проверка на Ё типа:
елка - Ёлка
Т.е тот случай когда нужно было бы устанавливать индивидуальное правило обработки. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| | | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Вт Ноя 25 2008, 11:41 | Вт Ноя 25 2008, 11:41 | |
| - Цитата :
- Не совсем понял насчет буквы Ё
Вот как конвертер отрабатывает правило "елка=ёлка": Ну, не знаю. Перегнал 75 000 строк с николая с Ё и на выходе ни одной импортированной строки. Отсель и вывод. Заподозрить Ольгу в такой грамотности будет уж слишком.
По-видимому, правило: "елка" = "\SAMPA=(j"o5kV#)" соответствует правильному чтению Ольги, а слова с Ё, которые она читает неправильно, Lexer не замечает. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Вт Ноя 25 2008, 12:13 | Вт Ноя 25 2008, 12:13 | |
| Lexus Хмм, ну выкладывайте в ПМ, посмотрим. Алгоритм сравнения слов отрабатывается для всех без исключения выражений, что с ударением, что без, слово-фонемы-сравнение. Вы словарь в реестре отключали при перегонке?
- Цитата :
- правило "елка" = "\SAMPA=(j"o5kV#)"
Так Вы вставьте в Phonolgaph или в Lexer без учета системного словаря (м/б там просто уже присутствует это правило, поэтому и не вносится повторно в другие словари) и посмотрите как читается "елка" по умолчанию читается неверно. |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Вт Ноя 25 2008, 14:05 | Вт Ноя 25 2008, 14:05 | |
| - Цитата :
- Вы словарь в реестре отключали при перегонке?
Там вообще нулевой , не обявленный в реестре системный словарь. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Вт Ноя 25 2008, 14:52 | Вт Ноя 25 2008, 14:52 | |
| Если формат входного словаря корректный, то проблем быть не должно. Скорей всего ошибка в формате. |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Вт Ноя 25 2008, 15:20 | Вт Ноя 25 2008, 15:20 | |
| фрагмент словаря
" :TAB<" - присутствует ТАВ (форум не показывает при копировании в буфер) екнул : <ёкнул> /i екнула : <ёкнула> /i екнули : <ёкнули> /i екнуло : <ёкнуло> /i екнут : <ёкнут> /i екнуть : <ёкнуть> /i елка : <ёлка> /i |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Вт Ноя 25 2008, 16:09 | Вт Ноя 25 2008, 16:09 | |
| Ну почему же, табы на форуме вставляются, вот выдержка из моего словаря ёфикатора: - Код:
-
екнула : <ёкнула> /i екнули : <ёкнули> /i екнуло : <ёкнуло> /i
Скопируйте в текстовый файли попробуйте конвертировать. Что-то у вас с табами в словаре не так имхо. |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Вт Ноя 25 2008, 16:48 | Вт Ноя 25 2008, 16:48 | |
| фрагмент словаря Ну вот переписал в виде кода, после вставки из буфера не вижу разницы между вашим кодом
- Код:
-
екнул : <ёкнул> /i екнула : <ёкнула> /i елка : <ёлка> /i елкам : <ёлкам> /i елочных : <ёлочных> /i |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Вт Ноя 25 2008, 17:27 | Вт Ноя 25 2008, 17:27 | |
| Конвертится и Ваш код что в 1.0, что в версии 1.0.1 без проблем. Предлагаю все-таки выслать мне личкой словарь и вопрос решать там же, дабы нам не засорять топик. |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Вт Ноя 25 2008, 21:53 | Вт Ноя 25 2008, 21:53 | |
| На домашней машине программа без проблем за считанные минуты импортировала словарик.Спасибо.
Если задумаете отлавливать проблему. Для информации, дело застопорилось:
win2000 sp4, системный словарь в реестре не указан. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Вс Дек 07 2008, 07:57 | Вс Дек 07 2008, 07:57 | |
| Loq Lexer v.1.1.2
- Цитата :
v.1.1.2 ======= Дополнения: ----------- Диалог настроек. Функция удаления комментариев из словаря. Функция удаления дубликатов. Функция авточтения.
Изменения: ---------- Редактирование по по двойному щелчку мыши заменено на редактирование по одинарному щелчку мыши, выборе строки клавишами.
|
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Вс Дек 07 2008, 18:27 | Вс Дек 07 2008, 18:27 | |
| Stroodder Хорошо бы добавить в LogLexer фуннкцию объединения словарей. |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Вс Дек 07 2008, 21:51 | Вс Дек 07 2008, 21:51 | |
| Что значит "Хорошо бы добавить в LogLexer фуннкцию объединения словарей."? Если в смысле exc_rus.txt+exc_rus1.txt+*.dic, то такая функция не нужна и вредна. Ольга девочка умная и не делает ошибок присущих Коле. Если в смысле описанном ниже то да. В словарь*.lex нельзя кидать, что не поподя! Он нужен в основном для исправления нерусского акцента Ольги, а Ёфикацию, ударения и замещения(типа агонии=аго'ни-и) и цифры в буквы нужно кидать в *.dic. Импорт из exc_rus.txt в *.lex нужен был для старта, просто других словарей небыло. Сейчас я вычистил LEX и внём порядка 400 слов, вместо 11мег~30000 слов импортировнных от Николая*.dic Практически начал заново *.dic. Из наследия Николая подходят только ёфикаторы, омографы и цифры в буквы, а ударения (для *.dic) надо начинать заново. Поэтому я пользуюсь сервисом поиска новых сов из MP3book2005, предварительно обнулив там все словари, больше эта программа ни на что не годится, так как заточенна только под Николая, а потом портирую в формат для Балоболки. Если делать так делать! Хорошо бы сделать что то подобное, как в MP3book2005 т.е. 1. Отлов новых слов. (ведение логфайла прослушенных слов+сова из *.DIC+ *.HGM, ну иконечно + *.LEX) для этого нужен экспорт из *.lex в текстовый. Сейчас я экспорт делаю вручную, через мелкософтовский лексикон. И всё это безобразие вычитается из слов найденых в новой книге. 2. Логические ооперации со словарями (объединить, вычесть, пересечения и т.д.) в текстовом формате. |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Вс Дек 07 2008, 22:21 | Вс Дек 07 2008, 22:21 | |
| Забыл добавить. Большой почет и спасибо Stroodder-у!!!
P.S. Есть мысли по оброботке исходного текста, т.е. простановка ударений в омографах и ёфикация, с использованием молулей морфологического и синтаксического анализа на основе словаря Зализняка. Немножко их, - мысли, причешу и выложу завтра. Сейчас эксперементирую. |
|
| | | subigenda Наблюдатель
Сообщений : 1
Репутация : 0
| subigenda | :: Пн Дек 08 2008, 05:52 | Пн Дек 08 2008, 05:52 | |
| - lev55 пишет:
Сейчас я вычистил LEX и внём порядка 400 слов, вместо 11мег~30000 слов импортировнных от Николая*.dic Практически начал заново *.dic. Из наследия Николая подходят только ёфикаторы, омографы и цифры в буквы, А можете выложить этот Lex с 400 словами?
Кстати, а почему не нужно ударения и омографы заносить в lex? Это тормозит работу движка или ведет к каким другим ошибкам? Дело в том, что при правке dic у меня получались ситуации, когда установка ударений (^, ' , `) приводила к неправильному произношению (смягчению согласных, превращениям "Е" в "э" и т.п.) В этом случае помогала только правка lex-словаря. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Пн Дек 08 2008, 14:42 | Пн Дек 08 2008, 14:42 | |
| lev55 Действительно импорт Elan раньше был отдельной консольной утилитой, привинтил к редактору в виде вспом. опции.
Выкладывайте идеи, подумаем вместе
subigenda Посмотрите эту тему и попробуйте, подключив те словари-фильтры, ссылка на которые в шапке.
P.S. Думаю вот, если это интересно не мне одному, м/б отдельную тему создать по редактору? |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Пн Дек 08 2008, 18:38 | Пн Дек 08 2008, 18:38 | |
| Stroodder Есть такая мысль, редоктировать исходный текст, заменяя Е на Ё, и проставлять ударения в каждом слове до прослушивания книги. Тогда по сути дела будут не нужны словари ударений и ёфикации, проблем с омографами тоже не будет. Как это автоматизировать? Для этого нужен некий парсер, который будет брать одно предложение из текста и передовать его вмодуль синтаксического и морфологического анализа. Исходный текст: Экспортная пошлина подлежит уплате в момент предъявления товара к таможенному контролю. После обработки получаем такую форму: +-- подлежит [глагол,третье лицо,ж.род,ед.число,Н вр.,невозв.] +-- пошлина [существительное,третье лицо,ж.род,ед.число,им.пад.] ¦ +-- экспортная [прилагательное,третье лицо,ж.род,ед.число,им.пад.] +-- уплате [существительное,третье лицо,ж.род,ед.число,дат.пад.] +-- # [существительное с предлогом,вин.пад.] ¦ +-- в [предлог,вин.пад.] ¦ +-- момент [существительное,третье лицо,м.род,ед.число,вин.пад.] ¦ +-- предъявления [существительное,третье лицо,с.род,ед.число,род.пад.] ¦ +-- товара [существительное,третье лицо,м.род,ед.число,род.пад.] +-- # [существительное с предлогом,дат.пад.] +-- к [предлог,дат.пад.] +-- контролю [существительное,третье лицо,м.род,ед.число,дат.пад.] +-- таможенному [прилагательное,третье лицо,м.род,ед.число,дат.пад.]
По этому безобразию строим словоформу для каждого слова на основе словаря Зализняка. Казалось бы "масло маслянное", но дело в том что в словаре сова записаны с ударением и буквой "ё"! Я не програмист, поетому я не знаю интерфейса к бинарнрому словарю. Я пользуюсь модулем который строит полную парадигму на слово. пример (только без ударений)здесь с ударениями: Morphological characteristics: Ns Singular Plural Nominative по'шлина по'шлины Genitive по'шлины по'шлин Dative по'шлине по'шлинам Accusative inanimate по'шлину по'шлины Instrumental по'шлиной //по'шлиною по'шлинами Locative по'шлине по'шлинах В итоге получаем: Э'кспортная по'шлина подлежи'т упла'те в моме'нт предъявле'ния това'ра к тамо'женному контро'лю. Из словаря Зализняка можно получить сразу искомую форму слова подав на "вход" пошлина [существительное,третье лицо,ж.род,ед.число,им.пад.]. Ударения можно "заточить" под Ольгу, Алёну и Николая. Всё необходимое можно взять здесь,здесь,здесь,здесь,здесь,здесь и здесь.
Конечно есть заморочки с Замок-замОк,потому что (число,род и падеж)с гОры-горЫ таких заморочек не будет. То, что не однозначно обрабатывает модуль, можно потом ручками исправить. Просто парсер должен осавлять метку в виде порядкового номера слова для дальнейшего поиска и редакции. Вообще то при синтаксическо-морфологическом анализе определяются 98% омографов. http://risearch.org/cgi-bin/demo/rumor/rumor_full.pl?word=%E3%EE%F0%FBhttp://starling.rinet.ru/cgi-bin/response.cgi?root=/usr/local/share/starling/morpho&morpho=1&basename=\usr\local\share\starling\morpho\zaliznia\dict&first=1http://macrocosm.narod.ru/http://www.geocities.com/SiliconValley/Bit/1116/http://www.rvb.ru/soft/catalogue/c01.htmlhttp://asknet.ru/IS/Analytics/programms.htm#Утилиты%20лингвистического%20анализа%20текстаhttp://www.aot.ru/http://starling.rinet.ru/downl.php?lan=en#dicthttp://starling.rinet.ru/cgi-bin/main.cgi?flags=wygtmnl |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Пн Дек 08 2008, 18:45 | Пн Дек 08 2008, 18:45 | |
| lev55 Ой...., а не могли бы Вы подкорректировать пост, чтобы он выглядел так как Вы этого хотели? Предпросмотр может помочь, честно говоря только до - Цитата :
- +-- таможенному [прилагательное,третье лицо,м.род,ед.число,дат.пад.]
понял. |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Пн Дек 08 2008, 19:31 | Пн Дек 08 2008, 19:31 | |
| Stroodder
Я выложу ссылки без коментариев. Там всё понятно. 1. http://macrocosm.narod.ru/ 2. http://www.geocities.com/SiliconValley/Bit/1116/ 3. http://www.rvb.ru/soft/catalogue/c01.html 4. http://asknet.ru/IS/Analytics/programms.htm#Утилиты%20лингвистического%20анализа%20текста 5. http://www.aot.ru/ 6. http://starling.rinet.ru/downl.php?lan=en#dict 7. http://starling.rinet.ru/cgi-bin/main.cgi?flags=wygtmnl 8. http://risearch.org/cgi-bin/demo/rumor/rumor_full.pl?word=%E3%EE%F0%FB 9. http://starling.rinet.ru/cgi-bin/response.cgi?root=/usr/local/share/starling/morpho&morpho=1&basename=\usr\local\share\starling\morpho\zaliznia\dict&first=1 |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Пн Дек 08 2008, 20:18 | Пн Дек 08 2008, 20:18 | |
| subigenda - Цитата :
- Дело в том, что при правке dic у меня получались ситуации, когда установка ударений (^, ' , `) приводила к неправильному произношению (смягчению согласных, превращениям "Е" в "э" и т.п.) В этом случае помогала только правка lex-словаря.
Вот такие слова и надо заносить в lex, которые нормально правятся с помощью ^и' надозаносить в dic. В сучае большого словаря lex наблюдаются тормоза. Когда вы правите слово в lex оно правильно не прозвучит в прослушиваемом тексте, пока не сменете голос, или перезапустите Балаболку, это касается и других приложений. Во вторых с текстовым форматом легче работать. В принципе "хозяин - барин", но так я думаю будет больше порядка при обмене словарями. Я бы вообще предложил стандарт такой при обмене: lex - не правильно произносимые слова слова dic - ёфикация, замена, ударения hmg - омографы known_words.txt - известные слова, чобы исключать при поиске новых слов. Все четыре файла выкладывать вместе[b] |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Пн Дек 08 2008, 23:40 | Пн Дек 08 2008, 23:40 | |
| lev55 - Цитата :
- Что значит "Хорошо бы добавить в LogLexer функцию объединения словарей."?
Это значит совершенно не то, что вы поняли. А значит это объединение Lex словарей, опция 'импорт'. А вообще-то предложение адресовывалось Stroodderу |
|
| | | panalex Новичок
Сообщений : 11
Репутация : 5
| panalex | :: Вт Дек 09 2008, 02:09 | Вт Дек 09 2008, 02:09 | |
| Stroodder При запуске Loq Lexer v.1.1.1 и Loq Lexer v.1.1.2 появляется сообщение об ошибке "Error opening file for reading". Версия 1.0 запускается без проблем. Что можно сделать? Проверял на двух машинах - дома и на работе. Установлена корпоративная Windows XP SP2 русская. |
|
| | | Filatov223 Новичок
Сообщений : 12
Репутация : 0
| Filatov223 | :: Вт Дек 09 2008, 03:17 | Вт Дек 09 2008, 03:17 | |
| я так понял, словаризация данного движка на этапе экспериментов и наиболее лучшего способа заставить правильно говорить пока нет. Или я не прав? А то я тут скачал некоторые причиндалы к Ольге. яя_1_Olga_basic_remover.dic яя_0_Olga_basic_stresser.dic установил в балаболку,подключил. скачал и установил в балаболку сверху Digalo Russian Nicolai.dic
Однако при прочтении текста слышны лишние звуки. Возможно нужно отфильтровать лишние знаки в словаре, но утилита loqlexer_v_1_0_1.rar работает только с словарями txt |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Вт Дек 09 2008, 12:43 | Вт Дек 09 2008, 12:43 | |
| Lexus Вообще в коде была функция, для объединения словарей, но в откомпилированной программе ее нет, гораздо быстрей можно объединить словари в текстовом редакторе (в обычном WordPad например), а потом просто удалить дубликаты, используя соответствующую кнопку. Я вот словари объединяю очень редко (практически никогда), обычно из этого в итоге рано или поздно получается помойка, поэтому и не счел нужным вешать кнопку на форму, хотя, возможно я и не прав
panalex Ппроверьте в реестре (раздел HKEY_LOCAL_MACHINE\SOFTWARE\Loquendo\LTTS7\LoqSAPI5\, параметр "Lex.1049") правильность указания пути к файлу словаря, м/б там указан путь к несуществующему словарю. |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Вт Дек 09 2008, 22:23 | Вт Дек 09 2008, 22:23 | |
| Stroodder По моемому это то что нужно http://www.solarix.ru/for_developers/api/grammar-engine.shtml Есть исходники, Dll, консольные утилиты, осталось только оболочку написать, ,это я утрирую конечно. А это для примера с других сайтов для наглядности http://starling.rinet.ru/morph.htm http://www.dictum.ru/?main=demo&sub=dictascope_rus , а там в одном флаконе. Только соварь без ударений. Зато есть возможность компилировать словарь самому, тот же Зализняк с ударениями или Ожегов и в дальнейшем попалнять. |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Пт Дек 12 2008, 09:56 | Пт Дек 12 2008, 09:56 | |
| Stroodder
В программе есть проблеммы с форматом сохранения словаря, что возможно и вызывает некоторые неточности при его использовании.
В действительности при отображении словаря и сохранении используются различные варианты сортировки. \x правила при сохранении сортируются в обычном порядке, а не не так как они отображаются в словаре. Рекомендую учесть в вашей программе
Давайте действительно заведем отдельную тему по LoqLexerу. Тем более, что там встречаются ошибки. Навскидку:
костля<вую kVsl'"avuju# (kVstl'"avuju#)
слово мно<го |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Пт Дек 12 2008, 18:23 | Пт Дек 12 2008, 18:23 | |
| Lexus Спасибо за замечания, одна голова хорошо, а несколько лучше...
Насчет сортировки - мысль понял, но попробуйте в текстовом редакторе, в словаре, в графе "sorted" поставить "no" и посмотрите в читалке как это проработает движок.
- Цитата :
- В действительности при отображении словаря и сохранении используются различные варианты сортировки.
Нет, запись в словарь идет в том порядке, как Вы это видите в редакторе: n=0, n=n+1, .... n+m.
- Цитата :
- Навскидку:
костля<вую kVsl'"avuju# (kVstl'"avuju#) В следующей версии будет использован "родной", "нетабличный" алгоритм простановки ударений, но и тут есть некоторые сложности, от которых постараюсь избавиться. |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Ср Янв 14 2009, 11:21 | Ср Янв 14 2009, 11:21 | |
| А что, развитие нужной программы прекратилось? |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Ср Янв 14 2009, 19:33 | Ср Янв 14 2009, 19:33 | |
| - Цитата :
- А что, развитие нужной программы прекратилось?
Не так всё просто, как хотлось - бы, нкто крыльтев не опускает! |
|
| | | Mago Постоялец
Сообщений : 77
Репутация : 8
| Mago | :: Чт Июн 18 2009, 15:10 | Чт Июн 18 2009, 15:10 | |
| А где можно найти описание языка SAMPA? |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Чт Июн 18 2009, 22:41 | Чт Июн 18 2009, 22:41 | |
| Mago Запускаем - C:\Program Files\Loquendo\LTTS7\bin\TTSDirector.bat -tools/Loquendo tts lexicon manager ... new lexicon/add section Там виртуальная клавиатура SAMPA, при наведении мышки на кнопки всплывает описание значений-функций управления звуком. Незаменимая вещь для LoqLexer.exe. Практически можно всё изобразить, даже натуральный смех!!! All Теперь в olga_plus.7z-0omograph.dic, омографы типа со+сны-сосны+, будут писатся только со+сны, а в 1Olga_default.dic - сосны+. Связанно с меньшем колличеством вариантов для множественного числа. Как изначально произносится голосом - по барабану! Сегодня серьёзное обновление (по объёму не оцениваать! Иногда словари будут даже меньше - идеальный вариант). |
|
| | | donbaton Интересующийся
Сообщений : 7
Репутация : 0
| donbaton | :: Пн Июл 20 2009, 09:59 | Пн Июл 20 2009, 09:59 | |
| Ссылка на LoqLexer v.1.0.1 издохла. Есть ли польза от проги в в данный момент или аналоги лучше? |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Вс Июл 26 2009, 20:54 | Вс Июл 26 2009, 20:54 | |
| http://tts-olga.narod.ru/LoqLexer.7z Эта прога более шустрая и удобная, чем аналог на jva. |
|
| | | alsv70 Наблюдатель
Сообщений : 4
Репутация : 1
| alsv70 | :: Вс Ноя 11 2012, 21:48 | Вс Ноя 11 2012, 21:48 | |
| Прошло 3 года... Интересно есть ли изменения? |
|
| | | | Альтернативный редактор лексикона LoqLexer | |
| Альтернативный редактор лексикона LoqLexer |
---|
| |