|
| |
Автор | Сообщение | Обсуждение словарей |
---|
maximus Интересующийся
Сообщений : 6
Репутация : 4
| maximus | :: Вт Ноя 11 2008, 12:13 | Вт Ноя 11 2008, 12:13 | |
| Подскажите пожалуйста где можно достать словари для Ольки и как их вообще подключать? |
|
| | | trubodur Интересующийся
Сообщений : 9
Репутация : 0
| trubodur | :: Вт Ноя 11 2008, 17:10 | Вт Ноя 11 2008, 17:10 | |
| - Цитата :
- Подскажите пожалуйста где можно достать словари для Ольки и как их вообще подключать?
http://ifolder.ru/8796587 пробный словарь вылаженный товарищем Stroodder на одном из форумов. Подключается следующим образом: кидаеш его на любой диск желательно в корень главное чтоб в пути небыло русских символов. В реестре находиш эту ветку - Цитата :
- [HKEY_LOCAL_MACHINE\SOFTWARE\Loquendo\LTTS7\LoqSAPI5]
и добавляеш эту строку - Цитата :
- "Lex.1049"="e:/ggg.lex"
путь к словарю указываешь свой. В любой читалке под SAPI5 должон работать. Если есть решение проще? прошу поправить. |
|
| | | compaNet Интересующийся
Сообщений : 9
Репутация : 2
| compaNet | :: Чт Ноя 13 2008, 11:33 | Чт Ноя 13 2008, 11:33 | |
| - trubodur пишет:
- В реестре находиш эту ветку
- Цитата :
- [HKEY_LOCAL_MACHINE\SOFTWARE\Loquendo\LTTS7\LoqSAPI5]
и добавляеш эту строку - Цитата :
- "Lex.1049"="e:/ggg.lex"
путь к словарю указываешь свой. В любой читалке под SAPI5 должон работать. Пожалуйста,объясните ламеру : Lex.1049 - это строка,а e:/ggg.lex это путь к файлу(типа для примера). Или строка "Lex.1049"="e:/ggg.lex" , а путь писать всё равно свой.Просто я от реестра ужасно далёкий. |
|
| | | trubodur Интересующийся
Сообщений : 9
Репутация : 0
| trubodur | :: Чт Ноя 13 2008, 13:47 | Чт Ноя 13 2008, 13:47 | |
| - Цитата :
- Lex.1049 - это строка,а e:/ggg.lex это путь к файлу(типа для примера)
ага все так и есть |
|
| | | compaNet Интересующийся
Сообщений : 9
Репутация : 2
| compaNet | :: Пт Ноя 14 2008, 01:43 | Пт Ноя 14 2008, 01:43 | |
| Спасибо , словарь подключил. Дальше уже пошли личные симпатии - послушал я Ольгу и вернулся к Алёне,у неё голос всё-таки помягче будет. |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Пт Ноя 14 2008, 03:16 | Пт Ноя 14 2008, 03:16 | |
| там появился редактор словарей для ольки
- Stroodder пишет:
- Выложил редактор словаря http://ifolder.ru/9060496 для Ольги. На боевое тестирование времени пока нет, поэтому о найденных глюках пишите в личку или на форуме.
http://forum.ru-board.com/topic.cgi?forum=5&topic=21094&start=280#18 кто пользуется отпишитесь как оно? а то в системе пока кроме аленки ничего нет а интересно как дела у нее с редактированием словаря. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Пт Ноя 14 2008, 06:08 | Пт Ноя 14 2008, 06:08 | |
| Привет всем. Я уже перезалить успел ссылку на редактор поместил в раздел причиндалов для Ольги. |
|
| | | SNY Наблюдатель
Сообщений : 1
Репутация : 0
| SNY | :: Чт Ноя 20 2008, 01:26 | Чт Ноя 20 2008, 01:26 | |
| Скачал себе и опробовал все движки(Николя, Алёну, Катерину, Ольгу). Ну Николай, классика, поэтому про него промолчу. Имхо, Ольга лучше остальных включая и самого Николая, и слова не "жуёт", и звук почетче без звонов, хрипов нет, читает быстро красиво. Поэтому, имхо нужно для неё словарь разрабатовать!) |
|
| | | panalex Новичок
Сообщений : 11
Репутация : 5
| panalex | :: Пт Ноя 21 2008, 00:22 | Пт Ноя 21 2008, 00:22 | |
| - Цитата :
- "Lex.1049"="e:/ggg.lex"
Буква диска должна быть большой. Долго не мог понять, почему не получается. оказалось - просто регистр поменять E:/ggg.lex |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Вт Ноя 25 2008, 22:34 | Вт Ноя 25 2008, 22:34 | |
| Сложилось впечатление, что размер файла словаря обрабатываемый ольгой-движком имеет определенный предел. Кто-нибудь уточнял границу? |
|
| | | Малышка Блонд Новичок
Сообщений : 11
Репутация : 0
| Малышка Блонд | :: Сб Ноя 29 2008, 21:29 | Сб Ноя 29 2008, 21:29 | |
| Скажите где брать словарь для этого голоса? |
|
| | | david Интересующийся
Сообщений : 9
Репутация : 0
| david | :: Вс Ноя 30 2008, 00:23 | Вс Ноя 30 2008, 00:23 | |
| - SNY пишет:
- Скачал себе и опробовал все движки(Николя, Алёну, Катерину, Ольгу). Ну Николай, классика, поэтому про него промолчу. Имхо, Ольга лучше остальных включая и самого Николая, и слова не "жуёт", и звук почетче без звонов, хрипов нет, читает быстро красиво. Поэтому, имхо нужно для неё словарь разрабатовать!)
Кажется Ольга действительно идет после Николая на втором мете, а есть ли для нее словарь с расширением (.dic) для балаболки? |
|
| | | trubodur Интересующийся
Сообщений : 9
Репутация : 0
| trubodur | :: Вс Ноя 30 2008, 11:59 | Вс Ноя 30 2008, 11:59 | |
| - Цитата :
- а есть ли для нее словарь с расширением (.dic) для балаболки?
в новой версии балаболки есть небольшой словарик омографов для ольги |
|
| | | david Интересующийся
Сообщений : 9
Репутация : 0
| david | :: Вс Ноя 30 2008, 23:19 | Вс Ноя 30 2008, 23:19 | |
| - Stroodder пишет:
- Ну я выложил лишь словари фильтры, словари dic - любые словари, разработанные для Николая. Например словари отсюда: vector-ski.ru/vecs/govorilka/dic.htm
Скажите, а словарь от Николая полностью подходит к Ольге, т.е. ошибки произношения те же? |
|
| | | koshi Новичок
Сообщений : 13
Репутация : 0
| koshi | :: Вс Ноя 30 2008, 23:55 | Вс Ноя 30 2008, 23:55 | |
| david Словарь от Николая абсолютно НЕ подходит к Ольге. То есть определённый процент слов они оба читают неправильно и в этом случае словари Николая полезны. Но подавляющее большинство тех слов Ольга читает правильно. Достаточно запустить конвертирование Николаевского exc_rus.txt в LoqLexer и посмотреть на количество отсеянных слов. Кроме того, у Ольги свои причуды, которых не было у Николая (следовательно некоторых слов никогда не встретишь в словарях Николая). А *.dic, насколько я знаю, не конвертируются пока ничем. Так что вот - огромная избыточность с таким подходом, этот факт надо учесть. Зато некий quick start для работы с Ольгой. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Пн Дек 01 2008, 04:30 | Пн Дек 01 2008, 04:30 | |
| Да, корректней всего править родной словарь или лучше сразу составлять новый на основе *.dic Хотя многие словари, напр. ёфикации, даты, числа времени можно использовать неглядя. А вообще, если не акдемизировать, то избыточность не так уж и страшна в словарях dic. Современные машины кушают многомегабайтные словари и не давятся, главное, чтобы коллизий в таких словарях не было. Вобщем есть возможность использовать два подхода работы с Ольгой, а кто уж чем будет пользоваться это дело каждого . Правда есть еще и третий подход на основе файла rex, но он практически дублирует словари программы, поэтому особого удобства в нем не вижу, кроме опять же академизированности. |
|
| | | amigo Наблюдатель
Сообщений : 1
Репутация : 0
| amigo | :: Вт Янв 13 2009, 10:53 | Вт Янв 13 2009, 10:53 | |
| Словарь от Николая мало подходит для Ольги. Прочитал файл License.xUSSR.txt от FAR. Со словарем больше ошибок, чем без него. Почему указание ударения в слове "используете" не исправляет произношения? |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Пн Янв 19 2009, 10:46 | Пн Янв 19 2009, 10:46 | |
| Есть большой словарь Зализняка для Ольги. Удалены дубликаты, удалены слова, которые Ольга произносит правильно. Плюсы - собсно Зализняк , минусы - ударение многих омографов проставляются в редковстречающейся форме, обработка автоматическая, поэтому могут быть казусы (хотя скорей всего это будет нечасто). Если кому-нибудь нужно - выложу.
З.Ы. Ищу наиболее полный перечень омографов рус. яз, если кто-нибудь поможет буду признателен. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Вт Янв 20 2009, 10:05 | Вт Янв 20 2009, 10:05 | |
| lev55 Правила не прослушивал (много их), частые варианты типа комУ/кОму, ужЕ/Уже придется убирать вручную, короче говоря нужно будет обработать напильником под себя. Проблемные случаи с "го"="во" и "ечно"="ешна" отсеял алгоритмом. Спасибо за ссылки.
Выложил словарь в двух форматах - lex и dic здесь.
Добавлено: А где достать версию Pro словаря для solarix? |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вт Янв 20 2009, 13:34 | Вт Янв 20 2009, 13:34 | |
| Stroodder - Цитата :
- Есть большой словарь Зализняка для Ольги
А зачем он нужен, если есть Книгодел (на форуме отдельная тема есть)? Проставляющий ударение правильно в 99% омонимов? И словарь больше и алгоритмы для определения омонимов есть... И обработка автоматическая... |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Вт Янв 20 2009, 13:50 | Вт Янв 20 2009, 13:50 | |
| Ольга очень часто не воспринимает некоторые слова из словарей SAPI. кто нибудь уловолил логигику отказов? |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Вт Янв 20 2009, 14:19 | Вт Янв 20 2009, 14:19 | |
| rquester А зачем нужна "Балаболка" и лишние SAPI-движки, такие как Николай, Ольга и Алена - ведь есть же "Книгодел"...? Вообще этой темы касались, повторяться не хочется. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вт Янв 20 2009, 15:34 | Вт Янв 20 2009, 15:34 | |
| Stroodder - Цитата :
- А зачем нужна "Балаболка" и лишние SAPI-движки, такие как Николай, Ольга и Алена - ведь есть же "Книгодел"...?
Особой необходимости именно в Балаболке нет - есть куча программ с близкой функциональностью, хотя, возможно, она одна из лучших. А так, скажем, Ударятель точно также может синтезировать речь с помощью имеющихся движков и записывать mp3/ogg/wav. Вот голосовые движки нужны - на данный момент, даже если взять все имеющиеся голоса (вне зависимости от качества и стоимости), их будет недостаточно для того, чтобы, скажем озвучивать субтитры разными голосами (грубо говоря, нужно около 20 голосов, 10 мужских и 10 женских). Так что, в любом случае, кроме Книгодела нужны еще голосовые движки. Да и поддержка SAPI удобна для программ (которые ни словарей, ни предобработки не делают)... Если конкретно вернуться той версии словарей, что Вы выложили - я бы сказал, что она бесполезна, как бы не обрабатывали ее напильником - омонимы будут мешать в любом случае. А омонимов в русском языке вообще и в словаре Зализняка в частности очень много... Если даже удалить лишние (которые встречаются редко) слова, то все равно останется очень много омонимов, от которых не избавиться (дома/дома...). А дополнительной информации в Вашем словаре нет. В Книгоделе используется сложный алгоритм, который приводит к практически полностью правильным версиям текста, по крайней мере, близко к максимально возможным при автоматической обработке... Плюс режим поиска новых слов... |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вт Янв 20 2009, 16:32 | Вт Янв 20 2009, 16:32 | |
| - Цитата :
- и программа Ваша тоже никогда не заработает с таким подходом...
Она уже работает, давая очень малое количество ошибок. Новая (еще не выложенная) версия, кстати, еще лучше (различает и все/всё). То, что вы предлагаете (aot) будет работать хуже. Так как там (насколько я увидел по словарям) универсальный алгоритм для разных языков. То есть нормально не работающий нигде. И уж точно заменять работающую программу на этот бред я не буду... Да и вообще там Вы вроде не помощь предлагали, а предлагали изменить дизайн |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Вт Янв 20 2009, 16:56 | Вт Янв 20 2009, 16:56 | |
| rquester Конечно приятно общаться с гением, но по сути с таким подходом получается, что словари вообще не нужны. Безошибочность алгоритма - бред, 99%, да и 80% пожалуй нет в Вашей программе, это голословные утверждения. "Книгодел", как я помню, даже "в годы великой отечественной войны" ошибался с омографами, ставил "вОйны", хотя синтаксический разбор этой части один из самых однозначных в плане обработки. Не думайте, пожалуйста, что Вы один занимаетесь автом. обработкой текста, у других людей есть свои взгляды на вещи и свои способы работы над проблемой. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Вт Янв 20 2009, 17:12 | Вт Янв 20 2009, 17:12 | |
| lev55 Да, я оттуда и качал, в SDK не увидел ygres.exe, папка "exe" пустая. Пока скомпилировать из исходников его не получилось, уж больно много сырцов, что к чему относится не разобрался еще, и еще, как я понял, надо boost качать для компиляции. Я видимо не так понял про словари, на сайте написано о каких-то бесплатных словарях, а где тогда платные? Или их можно самому скомпилить из исходников? Мне в частности словарь синтаксиса нужен пока что, а там поглядим |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Вт Янв 20 2009, 17:12 | Вт Янв 20 2009, 17:12 | |
| - Цитата :
- Кое что понятно..., но об этом ли речь ...?
Есть некоторые строки в словаре, которые движок просто не замечает. Примеры бесполезны, так как системы в этой ошибке я не нашел. Возможно размер словаря имеет значение в их появлении. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вт Янв 20 2009, 19:00 | Вт Янв 20 2009, 19:00 | |
| Stroodder - Цитата :
- Безошибочность алгоритма - бред, 99%, да и 80% пожалуй нет в Вашей программе, это голословные утверждения.
Во-первых, даже если чуть меньше 80% - это лучше чем 50%, во-вторых, утверждения не голословные, а подтвержденные реальными данными (если не верите - запустите программу на какой-нибудь текст (в режиме только омонимов) и поищите по знаку <все омонимы. Посчитайте число ошибочных. Просто не все слова являющиеся омонимами кажутся нам таковыми. Например ка<кая/кака<я. - Цитата :
- "Книгодел", как я помню, даже "в годы великой отечественной войны" ошибался с омографами, ставил "вОйны", хотя синтаксический разбор этой части один из самых однозначных в плане обработки.
Сейчас эта проблема есть, в новой версии я это исправил (не только в этом варианте). - Цитата :
- Не думайте, пожалуйста, что Вы один занимаетесь автом. обработкой текста, у других людей есть свои взгляды на вещи и свои способы работы над проблемой.
Да это пожалуйста... Просто я сказал про конкретную версию конкретного словаря, что она бесполезна... Высказал личное мнение на основе своего опыта синтаксического разбора...
lev55 - Цитата :
Как-раз с дизайном у меня туго. Дизайн предлогал muk79. Да, но вы его поддержали, а потом когда я сказал, что менять дизайн бессмысленно - обиделись. - Цитата :
Пока моим хакерским методом, 8 книг -3 ошибки. (я этого Вам не предлогаю)
Не знаю, у меня и мой алгоритм примерно такой же результат даёт... - Цитата :
Проблема в другом, вместо КАВО\ЧИВО произносится КОГО\ЧЕГО. (у меня) Вообще-то Вы не слышате, что Вам пишут... В новой версии будет словарь замен - там достаточно записать кого+=каво+ В текущей версии можно просто создать noakc.dic в который занести слова кого+ и чего+ (в отсортированом виде), тогда они будут произноситься движком как он привык. Кроме того будут отдельные настройки замены слов на "как слышатся". |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Ср Янв 21 2009, 07:47 | Ср Янв 21 2009, 07:47 | |
| - lev55 пишет:
Нельзя-ли тоже самое отсюда? http://depositfiles.com/files/mct16uslr
Так я его и перегонял, падежи есть, словоформы, которые Ольга читает корректно отфильтрованы, те, которые нет - остались в словаре. Но, повторюсь, словарь скорее академического или прикладного интереса, чтобы его использовать в читалке нужно выбирать омографы.
Спасибо за файлы, пока так и не понял почему у меня не компилится из исходников, прекомпиляция идет нормально, заключительный этап ругается, но, думаю разберусь. А пока попробую Вашими файлами словари поковырять. |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Ср Янв 21 2009, 13:42 | Ср Янв 21 2009, 13:42 | |
| Судя по молчанию, следует считать, что проблемы с обработкой Ольгой словарей у форуччан отсутствуют? |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Ср Янв 21 2009, 18:13 | Ср Янв 21 2009, 18:13 | |
| lev55 Посмотрю завтра, возможно регекс перекрыл некоторые. В ПМ пару примеров отсутствующих статей словаря можете выслать?
Lexus Глюк "непрочтения" некоторых правил скорей всего в алгоритме сортировки списка по алфавиту, а точнее статей, начинающихся со знаков, не думал, что Ольга так ревнива к символам. Надо будет LoqLexer подкручивать. А вот насчет проблем с *.dic - не знаю... |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Ср Янв 21 2009, 18:35 | Ср Янв 21 2009, 18:35 | |
| Проблемы с *.lex. и это сильно огорчает. Правило нормально читается в словаре из несколько десятков правил. Если же зарядить в приличном по объему словаре те же правила, начинаются глюки. пробовал сортировать как у lоquendo - те же проблемы. Наверное косяки движка. Если проблема не решится, то создание словарей движка теряет всякий смысл. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Ср Янв 21 2009, 19:14 | Ср Янв 21 2009, 19:14 | |
| Lexus Сортировать программой Raptor пробовали? |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Ср Янв 21 2009, 22:11 | Ср Янв 21 2009, 22:11 | |
| Stroodder - Цитата :
- Сортировать программой Raptor пробовали?
Нет. Исполльзовал методы из - Код:
-
CreateObject("System.Collections.ArrayList" ) Нормально сортирует. Но проблем не решает.
- Цитата :
- lev55
*.dic - это из другой песни. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Чт Янв 22 2009, 06:44 | Чт Янв 22 2009, 06:44 | |
| Lexus Если в lex никак не решается, то выход имхо один - словари dic (я их и использую в основном). lev55 ...Удалено... Насчет слов с буквой "ё" - тут можно просто применить парсер, без использования функций движка. Но тут уж слова типа "все", "осел" будут всегда читаться с буквой "ё" - тоже проблема.... Надо ли?
Вы в Солярисе словари самостоятельно компилировали? Словаря N-грамм нет случайно? |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Чт Янв 22 2009, 11:02 | Чт Янв 22 2009, 11:02 | |
| - Цитата :
- Если в lex никак не решается, то выход имхо один - словари dic (я их и использую в основном).
В dic фонемную тр. не вставишь. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Чт Янв 22 2009, 11:52 | Чт Янв 22 2009, 11:52 | |
| lev55 Посмотрел подробней. Нету форм "поду'мав" и "дви'гает" в словаре Зализняка...
Lexus Но ведь слов, требующих правки фонем не превалирующее количество, думаю вполне небольшой словарь получится. Вообще фонемы использую в основном для корректировки акцента или "истерик". |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Чт Янв 22 2009, 12:43 | Чт Янв 22 2009, 12:43 | |
| - Цитата :
- фонемы использую в основном для корректировки акцента
Если использовать ^' автоматом составить словарь на все случаи не получается. Да и, внутренний словарь по скорости чтения вне конкуренции. есть еще плюсы.
На буковском форуме один товарищ как-то порывался отправить баг репорт на фирму. Потерялся он где-то. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Чт Янв 22 2009, 13:36 | Чт Янв 22 2009, 13:36 | |
| Lexus Ну в lex на все случаи тоже не получится автоматом. Автообработка, а точнее сказать конвертация, всего-навсего помогает избавиться от основной массы ошибок, выявлении слабых сторон движка и концентрации над другими проблемами. К примеру "Народный словарь" Николая можно было бы обработать процентов на 60-70, более того, найти изменения в произношении последних версий движка. Но, видимо, кому-то нравится биться над одним и тем же и платить деньги за очковтирательство.
З.Ы. Сегодня ветка на абуке стала, к сожалению, сугубо пиарной и обсуждать идеи там, по большому счету некому и не с кем. |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Чт Янв 22 2009, 22:21 | Чт Янв 22 2009, 22:21 | |
| Заметил, что и моя сортировка не совпадает с Loquendo. Наверное стоит копать дальше в этом направлении. |
|
| | | balabolka V.I.P.
Сообщений : 1228
Репутация : 986
| balabolka | :: Пт Янв 23 2009, 03:23 | Пт Янв 23 2009, 03:23 | |
| - lev55 пишет:
- Так вот, задал вопрос в ветке Балаболка, получилось, как у Задорнова:
- Этот автобус идёт до рынка? - Вам не надо на рынок, лучше езжайте в супермаркет, там лучше. А на самом деле, мой знакомый живёт в доме на против рынка и мне надо к нему. Не смешно. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Пт Янв 23 2009, 08:23 | Пт Янв 23 2009, 08:23 | |
| lev55 У меня некорректный словарь компилится, я его потом даже к своему отладчику (подобие Lexicon-pro) привинтить не могу - dll не принимает, а родной словарь кушает на раз. Словари вопроса не решат, надо с компиляцией/декомпиляцией разобраться, чтобы пополнять его. М/б сурсы неполные у меня, хотя установил все, что было на сайте. А где Вы взяли родной дистрибутив syntax.bin ??? Ткните носом на ссыль, пожалуйста, может там еще что-нибудь недостающее откопаю. На сайте "Соляриса" скачал исходники: там почему-то две ссылки на разные сырцы, нашел те, где лежат утилиты компиляции и декомпиляции, но и там нету некоторых заголовочных файлов, а выдирать их вручную адова работа будет - много.
- lev55 пишет:
интересный грамматический движок geocities.com/SiliconValley/Bit/1116/index.html
MAD.dll я уже как-то привинчивал для нормализации слов, дальше не копал, больше подошла MCR.dll. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Пт Янв 23 2009, 19:22 | Пт Янв 23 2009, 19:22 | |
| lev55 Mystem для морфо из небольших систем пока что имхо рулит, там и эвристика есть, жаль только что не в dll сделана. |
|
| | | AlTu Интересующийся
Сообщений : 8
Репутация : 0
| AlTu | :: Сб Янв 24 2009, 00:58 | Сб Янв 24 2009, 00:58 | |
| Доброго всем дня!
Помогите подключить словарь.
Я взял словарь exc_rus.txt переконвертировал его программай LoqLexer v.1.0.2. Всё прошло хорошо. Полученный файл exc_rus.lex я поместил в корень диска C: В реестре, следуя приведённому выше описанию, в [HKEY_LOCAL_MACHINE\SOFTWARE\Loquendo\LTTS7\LoqSAPI5] добавил новый строковый параметр Lex.1049 и придал ему значение C:/exc_rus.lex Для проверки в словарь добавил проверочное слово, но после запуска встроенной читалки Loquendo TTS7 Voice Experience проверочное слово не изменилось. Из чего я делаю вывод что словарь не подключился. Вопрос. Что я сделал не правильно? Как подключить словарь?
Дополнение. Как выяснилось, словарь не работает только с родной читалкой Loquendo TTS7 Voice Experience. В тесте TTSApp (SAPI5) и в Балаболке проверочное слово распознается верно. Хотелось бы чтобы правильно заработала и родная читалка Loquendo TTS7 Voice Experience. У меня такое впечатление что в этой читалке голос Ольги чище чем в Балаболке.
Заранее признателен за помощь. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Сб Янв 24 2009, 08:15 | Сб Янв 24 2009, 08:15 | |
| lev55 Да нет, я не про то Dll более гибко. Но и за консоль разработчикам спасибо конечно, можно и так использовать. Про ударения в MCR.dll не понял, каким образом для ударений ее можно юзать? Я такой функции в ней не видел, только засвеченные строчки на сайте в описании. Или Вы про сравнение, своими средствами, результата работы этой библиотеки со словарем ударений говорите?
AlTu в начало текста в программу вставьте строчку: \lexicon(load=0,c:/exc_rus.lex) |
|
| | | AlTu Интересующийся
Сообщений : 8
Репутация : 0
| AlTu | :: Сб Янв 24 2009, 11:04 | Сб Янв 24 2009, 11:04 | |
| - Stroodder пишет:
- в начало текста в программу вставьте строчку: \lexicon(load=0,c:/exc_rus.lex)
Спасибо! Всё заработало. |
|
| | | however63 Новичок
Сообщений : 10
Репутация : 1
| however63 | :: Вт Янв 27 2009, 00:32 | Вт Янв 27 2009, 00:32 | |
| lev55 пишет: - Цитата :
- Есть такая проблемма:
Слова у которых в конце стоят знаки припинания очень часто произносятся не правильно ( борьба, - встречи, - выступлений, ) и т.д. Убирать запятую не хотелось бы - почему-то произносит эти слова в редакторе LogLexer как: - Цитата :
- ( борьба, - встречи, - выступлений, )
правильно но чтобы сохранить в словаре и не вылезало окно " Исключение не содержит изменений!" нужно поменять букву на заглавную
"борьба," = "\SAMPA=(bVr'b"A#)" "встречи," = "\SAMPA=(fstr'"eTS'i#)" "выступлений," = "\SAMPA=(v1stupl'"en'Ij#)" вот еще что-то похожее на эту тему "товарищ капитан"=tVv"ar'iS'#k@p'it"an# произносит "товарис капитан" если поставить циферку 1 или 2 между i и S (tVv"ar'i1S'#k@p'it"an#) то будет читать правильно. Но проблема осталась с этим словом "товарищ" вот еще к примеру "товарищ мой" и т.д.
думаю что таких глюков у Ольги предостаточно
Если есть решение проще, быстрее? прошу поправить.
Может Ольгу логопеду покзть? :x |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Чт Янв 29 2009, 18:52 | Чт Янв 29 2009, 18:52 | |
| lev55 however63 Насчет запятых можно сделать ход конем. Правда, в этом случае потеряем интонацию и добавим монотонность. Суть в том, чтобы заменить "," на ";", но, т.к. продолжительность препинания зависит от параметра в реестре, нужно будет и его поправить, чтобы пауза на месте запятой не затягивалась. Тут выложил файлы, по которым, думаю, будет понятна идея. dic - в "Балаболку", reg - как обычно два клика. Желательно в "Балаболке" (или в др. программах с этой функцией) в настройках паузы м/у предложениями установить 300. Конечно, длительностью пауз "LongPauseLength" в reg и в программе-читалке м/у предложениями можно поиграться и подстроить под себя. P.S. После правки в реестре читалку нужно перезапускать. |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Пт Янв 30 2009, 05:42 | Пт Янв 30 2009, 05:42 | |
| lev55
Спасибо. Предлагаю продолжить тут, ато мы чего-то увлеклись...
ALL Всем, кому интересна тема автообработки текста, добро пожаловать туда же. Чем больше мыслей - тем универсальней результат. |
|
| | | SergeiSP Новичок
Сообщений : 19
Репутация : 0
| SergeiSP | :: Вс Мар 01 2009, 17:23 | Вс Мар 01 2009, 17:23 | |
| Хм. Как я понимаю, на данный момент под Ольгу нет качественных словарей? То что для Диалго, так в Ольге ошибок еще больше становиться, чем без этих словарей. В общем, либо я не догоняю чего-то, но есть хоть один словарь нормальный, или нет? |
|
| | | | Обсуждение словарей |
---|
| |