TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  



Ошибки синтеза замены и ударения

Предыдущая тема Следующая тема Перейти вниз
На страницу : 1, 2, 3  Следующий
АвторСообщениеОшибки синтеза замены и ударения
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Пн Янв 05 2009, 23:04
Пн Янв 05 2009, 23:04

Несколько замечаний по поводу ударений в программе "Книгодел" и "ударятель".
1. Ударения раставляемые этой прогаммой для движка "Ольга", на первый взгляд вроде бы правильны.
Т.е. в одном случае " ^ ", а в другом" ` " но читаются, вряде случаев, движком не правильно.
пример совсе`м, прибе`гнуть . . . и т.д.
На мой взгляд более правильно пользоваться одним знаком ударения " ' " для всех движков, а для каждого
движка иметь словарь подстановки. (Я пользуюсь "Балаболкой").
Для Алёны
Цитата :
*а'*=А
*е'*=Е
*ё'*=Ё
*и'*=И
*о'*=О
*о'я=Ойа
*у'*=У
*ы'*=Ы
*э'*=Э
*э'*=Э
*ю'*=Ю
*я'*=Я
для Ольги
Цитата :
*а'*=^а *э'*=^э *ю'р*=ю' ^'р *ю'ш*=ю' ^'ш *я'ж*=я' ^'ж *я'р*=я' ^'р *я'щ*=я' ^'щ
*е'*=е' ^' *ю'*=ю' ^' *ю'с*=ю' ^'с *ю'щ*=ю' ^'щ *я'з*=я' ^'з *я'с*=я' ^'с е'*=^е
*е'е*=е' ^'йе *ю'е*=ю' ^'йе *ю'т*=ю' ^'т *я'*=я' ^' *я'й*=я' ^'й *я'т*=я' ^'т е'е*=^ейе
*и'*=и' ^' *ю'к*=ю' ^'к *ю'ф*=ю' ^'ф *я'б*=я' ^'б *я'к*=я' ^'к *я'ф*=я' ^'ф и'*=^и
*и'е*=и' ^'йе *ю'л*=ю' ^'л *ю'х*=ю' ^'х *я'в*=я' ^'в *я'л*=я' ^'л *я'х*=я' ^'х ю'*=^ю
*о'*=^о *ю'м*=ю' ^'м *ю'ц*=ю' ^'ц *я'г*=я' ^'г *я'м*=я' ^'м *я'ц*=я' ^'ц ю'е*=^юйе
*у'*=^у *ю'н*=ю' ^'н *ю'ч*=ю' ^'ч *я'д*=я' ^'д *я'н*=я' ^'н *я'ч*=я' ^'ч я'*=^я
*ы'*=^ы *ю'п*=ю' ^'п *ю'р*=ю' ^'р *я'е*=я' ^'йе *я'п*=я' ^'п *я'ш*=я' ^'ш я'е*=^яйе
С этими словарями ударений все слова совсе'м, прибе'гнуть . . . и т.д. будут звучать правильно.

2. Принципиально не верно ограничиваться простраением словоформ по словарю (наверное Зализняка)!
Пример, что получается: с^олнечная буря`, незад^олго д^о начал^а. . . вобщем ошибок больше, чем движок Алёны или Ольги делает без расстановки ударений.
Чтобы избежать таких ошибок нужен синтаксический разбор.
Я делаю следующим образом - На сайте АОТ есть програмка www.aot.ru\download\shortrml.zip в которой находится файл " RML\Bin\VisualSynan.exe который делает разбор предложения и если навести курсор мышки на слово высвечиваются все атрибуты слова ( род, число, падеж, склонение и многое другое).
Так вот, я написал некий парсер, который выделяет из текста предложение и передаёт его этой программе.
В некой области памяти я получаю слова этого предложения со всеми атрибутами по которым ставится ударение (ищется слово в словаре Зализняка).
Программа платная, и имеет ограниченное время пользования. Поэтому я не буду описывать хакерские приёмы для её использования.
Приведу статистику - На восемь книг - 3 ошибки (несловарные слова я не учитывал).
Порекомендую посмотреть бесплатный грамматический движок с сайта www.solarix.ru .
Там описывается некий поисковик, используюший грамматический движок http://files.solarix.ru/for_developers/download/win/sdk-setup.exe и словари к нему http://files.solarix.ru/for_developers/download/win/dictionary-pack-premium.ru-en.exe только словари надо перкомпилировать с ударениями (компилятор тоже есть).
Правда синаксис выдаётся в неочень удобной форме и чтобы связать это с морфологией надо приложить усилия. Зато омонимия снимается "на раз". Там есть пример " Пила лежала на полу " и " Кошка пила молоко ", так где глагол, а где сушествительное определяется чётко.
Перевод чисел в числительные с нужным падежом там тоже есть и морфология есть.
Я не програмист, поэтому может быть свою программу написать легче, чем использовать ихний Solarix_Grammar_Engine.dll, но описание функций библиотеки там исчерпывающее.

P.S. В "Книгоделе" не все тексты обрабатываются. То ли из-за длинны, то - ли из-за знаков каких либо
непотребных, пока не понял, на выходе *_pre.txt пустой фацл.
Функции Синтез(F3) и В файл(F4), тоже не работают ни для lame-3.92, ни для wav.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Вт Янв 06 2009, 16:32
Вт Янв 06 2009, 16:32

Цитата :
На мой взгляд более правильно пользоваться одним знаком ударения " ' " для всех движков, а для каждого
движка иметь словарь подстановки
Спасибо, об этой особенности Ольги знал (то, что не всегда правильно ставятся ударения), но как обойти был не в курсе. Думаю, что в ближайшей версии это будет сделано.
Цитата :
2. Принципиально не верно ограничиваться простраением словоформ по словарю (наверное Зализняка)!
Пример, что получается: с^олнечная буря`, незад^олго д^о начал^а. . . вобщем ошибок больше, чем движок Алёны или Ольги делает без расстановки ударений.
У меня и так делается разбор (то есть падеж, число и часть речи учитывается), возможно, не везде правильно (некоторые слова-исключения прерывают правильный разбор и т.д.). Насколько я знаю, большая часть омонимов определяется корректно.
С указанными Вами фрагментами поэкспериментирую.
Цитата :
P.S. В "Книгоделе" не все тексты обрабатываются. То ли из-за длинны, то - ли из-за знаков каких либо
непотребных, пока не понял, на выходе *_pre.txt пустой фацл.
А можно прислать файл, который не работает?

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Вт Янв 06 2009, 18:23
Вт Янв 06 2009, 18:23

Цитата :

*а'*=^а *э'*=^э *ю'р*=ю' ^'р *ю'ш*=ю' ^'ш *я'ж*=я' ^'ж *я'р*=я' ^'р *я'щ*=я' ^'щ
*е'*=е' ^' *ю'*=ю' ^' *ю'с*=ю' ^'с *ю'щ*=ю' ^'щ *я'з*=я' ^'з *я'с*=я' ^'с е'*=^е
*е'е*=е' ^'йе *ю'е*=ю' ^'йе *ю'т*=ю' ^'т *я'*=я' ^' *я'й*=я' ^'й *я'т*=я' ^'т е'е*=^ейе
*и'*=и' ^' *ю'к*=ю' ^'к *ю'ф*=ю' ^'ф *я'б*=я' ^'б *я'к*=я' ^'к *я'ф*=я' ^'ф и'*=^и
*и'е*=и' ^'йе *ю'л*=ю' ^'л *ю'х*=ю' ^'х *я'в*=я' ^'в *я'л*=я' ^'л *я'х*=я' ^'х ю'*=^ю
*о'*=^о *ю'м*=ю' ^'м *ю'ц*=ю' ^'ц *я'г*=я' ^'г *я'м*=я' ^'м *я'ц*=я' ^'ц ю'е*=^юйе
*у'*=^у *ю'н*=ю' ^'н *ю'ч*=ю' ^'ч *я'д*=я' ^'д *я'н*=я' ^'н *я'ч*=я' ^'ч я'*=^я
*ы'*=^ы *ю'п*=ю' ^'п *ю'р*=ю' ^'р *я'е*=я' ^'йе *я'п*=я' ^'п *я'ш*=я' ^'ш я'е*=^яйе
Попробовал указанные вами замены. Не работает. Особенно отвратно звучит на концах слов - Ольга в этом случае произносит название этой буквы (тэ вместо т), а в случае если остается что-то вроде "ть", произносит как (тэ мягкий знак). Можно, конечно, добавить проверку на то, конец это слова или нет, но все равно тогда останется проблема со словами с ударением на последнем слоге...

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Вт Янв 06 2009, 19:01
Вт Янв 06 2009, 19:01

rquester
Цитата :
но как обойти был не в курсе. Думаю, что в ближайшей версии это будет сделано.
Обходит ничего не надо. Появятся новые движки с какой нибудь буквой "зю" в виде ударения и опять придётся переделывать программу. Легче написать словарь замены ударений, опять же один и тот-же текст можно читать разными голосами без "перекомпиляции" под определённый вид ударений. В конце концов обмениваться текстами. Стандартизация-унификация, предполагают дальнейший путь развития, а обратное - тупиковая ветвь - это закон природы.
" ' " - Это классика жанра, локанично и красиво.
Цитата :
(некоторые слова-исключения прерывают правильный разбор и т.д.).
Для этого и нужен синтаксический анализ. В Solarix_Grammar_Engine.dll это
выглядит так:
Исходное предложение -
Цитата :
Горы, скалистые и холодные, нависали над нами.
получаем-
Цитата :
горы _и ( скалистые, холодные ) нависали ( [над нами] )
Связанные слова нажодятся на одном и томже уровне "вложенности", подчинённые на уровень ниже.
Таким образом можно избавиться от "шума".
Движок имеет встроенный Prolog, поэтому можно задавать свои правила обработки.
Эту "фичу" можно вывести и для конечного пользователя.
Вот что обязательно надо сделать -
1. пересечение множеств, т.е. при расстановки ударений учитывать лексикон
голосового движка и не ставить ударения в этих словах. Это не значит, что надо делать экспорт из того, или иного словаря, а просто сравнивать с неким txt файлом известных слов. Пользователь сам наполнит его по своему усмотрению (ваариантов и методик по его наполнению множество).
2. (добавит, исправить) интерактивный вариант обработки омогафов, т.е. не автоматически обрабатовать амографы,
а предоставлять выбор из вариантов - правилно нажимаем кнопочку "дальше", нет - ставится альтернатива.
Я раньше так и делал в "ударятеле", сначала ставил все удаарения в тексте, потом вариант с омографами, затем в текстовом редакторе искал двойное ударение "<<" и проверял правильно ли? На эти "<" ударения сделал такие же словари замен для Ольги и Алёны, как писал раньше.

Цитата :
А можно прислать файл, который не работает?
http://bookaudi.ru/savered.php?file=113069
Мне кажется нужно описать все разрешонные знаки для фильтра, а остальное отфильтровывать.

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Вт Янв 06 2009, 19:05
Вт Янв 06 2009, 19:05

rquester
Я дал усечённый вариант словаря, думал что некоторые сочитания не нужны,
сейчас сравню этот и старый варианты потом отпишусь.

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Вт Янв 06 2009, 19:40
Вт Янв 06 2009, 19:40

rquester
Цитата :
Попробовал указанные вами замены. Не работает.
Можно примерчик?
Не могу подобрать сова, где не работает.
Я чтото в регистрах прописывал для Ольги может это влияет...

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Вт Янв 06 2009, 19:55
Вт Янв 06 2009, 19:55

Цитата :
Для этого и нужен синтаксический анализ.
Так синтаксический анализ сейчас в программе есть (хотя и не в таком виде, как у приведённой Вами программы). Слова-исключения - это, грубо говоря, слова, отсутствующие в стандартном словаре программы (только в пользовательском или отсутствует и там и там). Если слово отсутствует в словаре, то и синтаксический анализ сделать сложно (догадывание по внешнему виду слова о его части речи пока в программе отсутствует, возможно, в следующих версиях эта возможность появится, но не факт). Просто на данный момент проблемы с простановкой ударений в имеющихся программах все-равно не дают программе развернуться...
Цитата :

Обходит ничего не надо. Появятся новые движки с какой нибудь буквой "зю" в виде ударения и опять придётся переделывать программу
Под новый движок все равно надо будет, скорее всего, переделывать, например, для Катерины нужно разбивать на слоги и заменять на большие букы - если делать это словарём замен, то нужен словарь из, как минимум, 33 в квадрате строк, то есть примерно 1000 строк. Проще в программе изменить...
Да и для Ольги слишком много строк нужно...
На данный момент, если очень нужно использовать программу для неизвестного ей движка, можно вывести в формат Николая, а потом с помощью простого макроса в Word'e сделать нужные замены...

С диалоговой обработкой омонимов, в принципе, вещь интересная, но в ближайшее время я её делать вряд ли буду (нет времени и, на мой взгляд смысла в этом немного - омонимов достаточно много, а подавляющее большинство угадывается правильно - тысячи раз подтверждать решение программы - замучаешься), вот сделать вывод только омонимов - это более вероятно...

Цитата :
Примерчик
"Соблазнить и вперёд", например. Оба слова читаются как соблазни тэ мягкий знак и вперё дэ.

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Вт Янв 06 2009, 20:34
Вт Янв 06 2009, 20:34

rquester
Цитата :
"Соблазнить и вперёд", например. Оба слова читаются как соблазни тэ мягкий знак и вперё дэ.
У меня всё работает, как часы. Попробую снести движок и почистить регистры, а потом установить заново Надо определить чего не хватает.
Цитата :
(догадывание по внешнему виду слова о его части речи пока в программе отсутствует
Могу выложить таблицы окончаний, суффиксов и предлогов. По этим таблицам можно работать с такими предложениям - "Глокая куздра бодланула бокра." без словаря.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Вт Янв 06 2009, 20:37
Вт Янв 06 2009, 20:37

Цитата :
Могу выложить таблицы окончаний, суффиксов и предлогов. По этим таблицам можно работать с такими предложениям - "Глокая куздра бодланула бокра." без словаря.
В принципе, конечно, неплохо если выложите. Но быстро добавить все это в программу не обещаю...

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Вт Янв 06 2009, 20:59
Вт Янв 06 2009, 20:59

rquester
Завтра выложу.

Чтобы корректно работали словари подстановки для Ольги нужна такая запись.

[HKEY_LOCAL_MACHINE\SOFTWARE\Loquendo\LTTS7\default.session]
"SpellingLevel"="pronounse"

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Вт Янв 06 2009, 22:04
Вт Янв 06 2009, 22:04

Цитата :
[HKEY_LOCAL_MACHINE\SOFTWARE\Loquendo\LTTS7\default.session]
"SpellingLevel"="pronounse"
Спасибо, помогло, нужно будет рекомендацию отключить эту опцию, в комплекте с программой поставлять, а, возможно, и reg-файл. Правда, ошибочки чтения еще есть (например, ла^пы читает как лапЫ и вроде другие мелочи присутствуют), но уже гораздо лучше.
Правда, я еще сделал прочтение по-старому, если ударная гласная находится в конце слова - иначе с последующей точкой получается какой-то бред (лишние звуки).

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Ср Янв 07 2009, 00:11
Ср Янв 07 2009, 00:11

rquester
Цитата :
(например, ла^пы читает как лапЫ и вроде другие мелочи присутствуют)
без ударения читается также.
Это нельзя исправить даже редактором транскрипций, как например и слово кучу иногда приходится добавлять "ь", или лишнюю букву постепь^еннно
Делали-то движок иностранцы, от этого и все беды. Интонация в предложениях, ошибки произношения в сочитаниях слов и совместно со знаками припенания, нет и некоторых фонем, присущих русскому языку.

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Ср Янв 07 2009, 00:19
Ср Янв 07 2009, 00:19

Вообще-то надо писать л^апы, а не ла^пы, но ла'пы.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Ср Янв 07 2009, 12:35
Ср Янв 07 2009, 12:35

Цитата :
Вообще-то надо писать л^апы, а не ла^пы, но ла'пы.
Это я опечатался, глючит именно вариант л^апы.
P.S.: Ошибку с присланным файлом нашел, в следующей версии будет исправлено.

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Ср Янв 07 2009, 18:46
Ср Янв 07 2009, 18:46

rquester
Вот здесь таблицы окончаний. http://depositfiles.com/files/56c3kg8j5
1. Я чего то не понял почему не подходят словари перевода ударений Николай - Ольга?
Здесь http://mytts.forum2x2.ru/forum-f12/tema-t165.htm
Там не усеченные под Николая(в смысле его знака ударения "<" ">") заточенно.

2. Никак понять не могу, как у Вас будет определяться омограф в таком предложении?
Сосны, XXX XXXXX XXXX, освещались XXXX.
Мастерские, на улице XXXX, работали без XXXX.
или
В душе Ивана Иваановича не работает кран.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Чт Янв 08 2009, 12:51
Чт Янв 08 2009, 12:51

Цитата :

1. Я чего то не понял почему не подходят словари перевода ударений Николай - Ольга?
Здесь http://mytts.forum2x2.ru/forum-f12/tema-t165.htm
Там не усеченные под Николая(в смысле его знака ударения "<" ">") заточенно.
Используются словари со знаком + для ударения (файл easy.dic и он же в окне), кроме того не подходят словари со звездочками и сочетаниями слов...
Скорее всего, в ближайшее время сделаю и стандартный словарь замены...
Цитата :

Никак понять не могу, как у Вас будет определяться омограф в таком предложении?
Сосны, XXX XXXXX XXXX, освещались XXXX.
Мастерские, на улице XXXX, работали без XXXX.
В душе Ивана Иваановича не работает кран.
Тут все определяется корректно. И, по идее, в первых двух вариантах все однозначно. Но с душем/душой в некоторых контекстах проблемы могут быть проблемы - на данный момент те слова, которые анализируются по смысловому значению, могут не всегда корректно определяться.
Цитата :
Вот здесь таблицы окончаний. http://depositfiles.com/files/56c3kg8j5
Спасибо, а что за обозначения в rgramtab.txt?
Эф A С мр,ед,рд,2
Что значит цифра 2, Эф, А, С?
Цитата :

Попробуйте заглянуть сюда, и, если позволит время, полистайте тему, начиная с первой страницы.
Там обсуждается, в основном, именно синтезатор, а грамматический разбор почти не упоминается...

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пт Янв 09 2009, 10:42
Пт Янв 09 2009, 10:42

rquester ой что-то в 1_30b так много ударений понаставляла ...Smile

Цитата :
Об истОрии создАния фИльма ничевО принципиАльно нОвово нЕ скажУ. кАк извЕсно, в тЫсяча девятьсОт девянОсто девЯтом годУ. телеканал эй-би-си заказАл пилОт сериАла МД, нО когдА <отвЕтственые лИца> посмотрЕли отснЯтый Линчем материАл, проЭкт зарубИли. пилОт лЁг нА полкУ И пролежАл тАм двА гОда. в двЕ тЫсячи пЕрвом годУ. европЕйские продЮсеры предложИли Линчу сдЕлать киноверсию МД. Линч доснял нЕсколько сцЕн, перемонтИровал пилОт, И получИлось тО, штО получИлось. вАжно здЕсь тО, кАк удалОсь Этими дополнИтельными сцЕнами объяснИть всЁ происходЯщее в пилОте, кАк удалОсь органИчно закОнчить тОлько начинАвшуюся истОрию. говорЮ срАзу - Я нЕ отклонЮсь Ат наибОлее распространЁново в линч-сообществе объяснЕния, штО бОльшая чАсть фИльма - сОн Дайаны Сэлвин. мОй Опус И Есть подтверждЕние Этой вЕрсии.
это с настройками (Алена со словарями омонимов)
много много лишних ударений (читает и так нормально аленка)
штО тО тАм двА - это ж не омографы зачем оно нужно?

можно ли как-то оставить только поиск омографов, замену Е=Ё и замену Е=Э там где пишется "е" а читается либо "ё" либо "э" без простановки ударений в тексте обычным словам?

и еще - как править или проставлять ударения для новых слов те которые выписываются в главное окно после поиска? прямо в окне ставить + и слово сохраниться в словарь и при следующем поиске будет ставить правильное ударение и не выскакивать при очередном поиске новых слов? или не так?

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пт Янв 09 2009, 21:49
Пт Янв 09 2009, 21:49

Цитата :
На данный момент проставляются все ударения (так как программа писалась, в первую очередь для своего голосового движка). В одной из следующих версий, возможно, будет сделано.
Цитата :
Цитата:
можно ли как-то оставить только поиск омографов, замену Е=Ё и замену Е=Э там где пишется "е" а читается либо "ё" либо "э" без простановки ударений в тексте обычным словам?
В принципе, можно, но не в текущей версии.
это было бы очень здорово, и актуально особенно для Алёны

Цитата :
Да либо в формате
Петю+нечка
либо
Петюнечка=Петю+нечка
т.е. можно прямо в этом окне редактировать и слово сохраниться в словарь и при следующем поиске будет ставить правильное ударение и не выскакивать при очередном поиске новых слов?
если например есть слово Петюнечка=Петю+нечка то при следующем поиске в другом тексте мне Петюнечка снова не выскочит в этот список, т.е. он как бы один для всех или каждому свой?

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Пт Янв 09 2009, 22:44
Пт Янв 09 2009, 22:44

rquester
Уже гараздей!
Замечания:
1. Не ставить двойные ударения для ольги.
Цитата :
зе' ^мли` с ме`ст^а п^ушк^у
У Ольги по определению не может быть два открытых звука! В словарьях это сплошь и рядом, но здесь не проходит.
2. Нельзя ли всётаки сделать " ' " такое ударение?! Это ведь не трудно.
Попробовал со своей таблицей ударений для " ' " звучит гораздо лучьше.
Пока не понял вчём дело - разбираусь.
3. Надо отфильтровывать "<<" и ">>", иначе в обработанном тексте остаётся < XXX >, воспринимается как тэг.
4. В описании не нашоел, что такое Olga Loguendo и Olga (с заменами).
Никаких замен я не делал, но ошибок во втором случае меньше.
5. А Крафаген должен быть созжон!
Цитата :
^а тре' ^тий п^олет преврати' ^лся
Слово с двух сторон окруженно конкретизирующими совами, однако . . .

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Пт Янв 09 2009, 22:51
Пт Янв 09 2009, 22:51

evilone_
Цитата :
т.е. можно прямо в этом окне редактировать и слово сохраниться в словарь и при следующем поиске будет ставить правильное ударение и не выскакивать при очередном поиске новых слов?
Да, по крайней мере должно. Если не будет работать - пишите, буду разбираться.

Цитата :
программе Говорящяя Мышь (ссылку я давал) тоже пишут, что применяют несколько сотен правил для разрешения омонимии, а рзультат один к однома как у Вас. Это говорит о том, что подход не верный!
Я несколько книг озвучивал с помощью моего алгоритма - число ошибок распознавания омонимов минимально (одна-две на весь файл, размером около 600К). Причем большинство ошибок - напрямую после глагола, над этим работаю... Остальные ошибки, в основном, это реальная неоднозначность, то есть проблема уже на смысловом уровне.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Пт Янв 09 2009, 23:05
Пт Янв 09 2009, 23:05

lev55
Цитата :
Не ставить двойные ударения для ольги.
Вроде не должны ставиться, это, скорее всего, ошибка при конвертировании в формат Ольги, посмотрю.
Цитата :
Нельзя ли всётаки сделать " ' " такое ударение?! Это ведь не трудно.
В программе конкретный символ много где используется, переделывать все сложно, а толку мало. Кстати ' используется в текстах достаточно часто - в именах типа О'Браен и иногда вместо обычных кавычек (особенно когда, скажем, название используется в прямой речи).
Цитата :

Надо отфильтровывать "<<" и ">>", иначе в обработанном тексте остаётся < XXX >, воспринимается как тэг
Посмотрю что можно сделать.
Цитата :
В описании не нашоел, что такое Olga Loguendo и Olga (с заменами).
Никаких замен я не делал, но ошибок во втором случае меньше.
Первый вариант - это тот, что был у меня раньше, а Olga (с заменами) - это тот алгоритм, который Вы приводили (который требует измененного реестра).
Цитата :
^а тре' ^тий п^олет преврати' ^лся
Слово с двух сторон окруженно конкретизирующими совами, однако .
Да, проблема, постараюсь исправить.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Пт Янв 09 2009, 23:15
Пт Янв 09 2009, 23:15

lev55
Не знаю, у меня никаких проблем с << >> и лишними ударениями на указанных вами фразах. Вот что получилось:
Цитата :

в^от <<маши' ^на>> крут^а.
в^от зе' ^мли с ме' ^ста пушк^у.
Может, конкретный файл (фрагмент файла) пришлете?

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Пт Янв 09 2009, 23:50
Пт Янв 09 2009, 23:50

rquester

Бад Тук встретил Шиобэн, прилетевшую на «Комарове», как и раньше.
Цитата :
Бад т^ук встре' ^тил Шиобэн, прилете' ^вшую н^а <камараве>, к^ак ^и р^аньше.

Роуз, порой вы разговариваете, как мой водопроводчик. «Вам крышка» – это неверно сказано. Очень важно верно подбирать слов^а. Это не мо^я проблема, а наша. Так что крышка всем нам.
Бад Тук, глядевший на Шиобэн с другого софт-скрина, негромко рассмеялся.

Цитата :
р^оуз, пар^ой в^ы разгав^ариваете, к^ак м^ой вадаправ^одчик. <в^ам кр^ышка> - ^это неве' ^рно ск^азано. ^очень в^ажно ве' ^рно падбир^ать сл^ов^^а. ^это не` м^о^^я прабле' ^ма, ^а н^аша. т^ак шт^о кр^ышка все' ^м н^ам.

И нужна такая функция, сверьяться с неким txt файлом, где описаны слова в которых не надо ставить ударьения,
т.е. те слове которые описанны sampo -й в системных словарьях.

P.S. С двойным ударением тема снята, сам дурак, прошу прощения!
А скобочки стрелочки присутствуют.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Сб Янв 10 2009, 00:07
Сб Янв 10 2009, 00:07

lev55
А с угловыми кавычами... А я проверял (как у Вас и было написано) с меньше/больше. Посмотрю.
Цитата :
И нужна такая функция, сверьяться с неким txt файлом, где описаны слова в которых не надо ставить ударьения
Большой файл будет... А вообще сделать такое можно...

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Сб Янв 10 2009, 17:01
Сб Янв 10 2009, 17:01

evilone
Цитата :
другом тексте мне Петюнечка снова не выскочит в этот список, т.е. он как бы один для всех или каждому свой?
Так точно сударыня, для всьех-с, и даже для всех голосов.
Всё пишется в easy.dic.
rquester
Пожелания, замечания:
Цитата :
по которым = p@#kVt"or1m#
па которым = p"a#kVt"or1m#
Такие подстановки под разговорную речь не допустимы!!!
Движок сам корректно делает такую замену, а поэтому крайне необходим файл содержащий слова в которых не надо ставить ударения. Не только слова, но ирегулярные выражения, типа - *го (регулярного=регулярнова)
Вот ещё примеры

Цитата :
защитного поля - защи' ^тнаво паля`

В последнем примере сразу две ошибки, но об этом потом.

Цитата :
но толпа почти не обращала на них внимания.
Цитата :
н^о талп^а пачти` не` абращ^ала н^а них< вним^ания.
. . . . . . . .
После тега пропадает весь абзац!
Коль ударения для Алёны и Ольги ставятся по < и > корректней делать подстановку как сделанно у Stroodder http://mytts.forum2x2.ru/forum-f12/tema-t165.htm Я уже писал об этом. Там есть такие сочитания: их<*=^их и их>^их, а у меня таких сочитаний нет, потому что они не нужны для " ' "! И вообще они отличаются.
Цитата :
не подходят словари со звездочками и сочетаниями слов

(Причём здесь звёздочки и сочитания,звёздочки убрать, а слов там вообще нет.
Надо сначала разобраться а потом писать!)
От этого и наблюдаемые фифекты речи.
Я не просто ведь ратую за " ' ", дело в том что существует некая специфика движков, проявляется она в том, что слово отредактированное в редакторе, допустим Балаболки, и звучащие там правильно, зачастую не правильно звучит в предложении и наоборот. А за счёт словарей замены ударений в подовляющем большинстве достигается положительный эффект, особенно с " ' " (полученно опытным путём).
Тем более, что бинарник наверное имеет вид
Цитата :
водка#во'дка,во'дки,во'дки,во'док,во'дке,во'дкам,во'дку,во'дки,во'дкой,во'дкою,во'дками,во'дке,во'дках
Утверждения
Цитата :
Кстати ' используется в текстах достаточно часто - в именах типа О'Браен и иногда вместо обычных кавычек (особенно когда, скажем, название используется в прямой речи).

не состаятельны, ведь уши нам даны для слуха, а не для зрения, и какая стоит разметка ' XXXX ' или " XXXX ", по барабану, весь мусор длжен фильтровться на входе. В случае
Цитата :
О'Браен
скорее ударение чем разделитель и нет механизмов озвучивания таких тяжолых случаев.

Теперь о синтаксическом анализе:
Цитата :
родной звезды - радн^ой звё' ^зды ^
другой звезды - друг^ой звё' ^зды
такие ошибки имеют регулярный характер, на странице 23 штуки, а не
Цитата :
(одна-две на весь файл, размером около 600К)
В Балаболке это решается так *ой звезды=ой звезд^ы
Не понятно, какие вообще правила работают у вас, их нет!!! (Начинаем всьё сначала)
Поэтому такое предложение, вынести отдельным модулем грамматику и лучше сделать это на Прологе.
Этот язык, как нельзя лучше подходит для этих целий, не даром подавляющее большинство грам. движков сделанно именно на нём.
Дать открытый код или возможность внесения правил для заинтересованных людей.
Не надо иметь семь пядей во лбу, чтобы написать правило на прологе!
Что касается тезаоруса (понятно для чего), то создание его измеряется в человеко/часах, как ребята словари для Алёнки делают.
Оформить это можно dll-кой.
Если интересно то есть наработки, могу всё расписать и грам. движок тоже.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Сб Янв 10 2009, 18:06
Сб Янв 10 2009, 18:06

Цитата :
Движок сам корректно делает такую замену, а поэтому крайне необходим файл содержащий слова в которых не надо ставить ударения
Уже сделал (правда, пока не выложил), правда без регулярных выражений. Будет неплохо, если Вы выложите реальный файл словаря (пробовал на маленьком файле - все работает, а на большом пока нет, а желательно)).
Цитата :
Я не просто ведь ратую за " ' ", дело в том что существует некая специфика движков, проявляется она в том, что слово отредактированное в редакторе, допустим Балаболки, и звучащие там правильно, зачастую не правильно звучит в предложении и наоборот
Программа предназначена для универсальной работы с любыми программами синтеза, вся движкозависимая логика - только на самом последнем этапе, это основной принцип. Соответственно и символ должен быть один для всех движков.
Цитата :
н^о талп^а пачти` не` абращ^ала н^а них< вним^ания
Это просто ошибка то ли в программе, то ли в словаре. Буду искать. С заменами это вообще никак не коррелирует.

Цитата :
Тем более, что бинарник наверное имеет вид
Цитата:
водка#во'дка,во'дки,во'дки,во'док,во'дке,во'дкам,во'дку,во'дки,во'дкой,во'дкою,во'дками,во'дке,во'дках
Нет, он имеет вид ближе к следующему:
во+дка <тип склонения> <тип ударения>
То есть слово во всех словоформах не хранится.
Цитата :
скорее ударение чем разделитель и нет механизмов озвучивания таких тяжолых случаев.
Это не тяжелый случай, а стандартный для ирландских фамилий.
Цитата :
такие ошибки имеют регулярный характер, на странице 23 штуки
Если вы специально искали ошибки в определении омонимии, и сделали файл только из сложных случаев - возможно. Но на обычных текстах ошибки именно единичные. По крайней мере, на тех, которые я пробовал.
Цитата :
Не понятно, какие вообще правила работают у вас, их нет
Правила работают многие, но иногда возникает внутренний конфликт правил...
Цитата :
Поэтому такое предложение, вынести отдельным модулем грамматику и лучше сделать это на Прологе.
Пролог - вообще мертвый язык, и делать что-то на нём - это выкидывать время в мусорную корзину.
Цитата :
Дать открытый код или возможность внесения правил для заинтересованных людей.
А то, что я потратил кучу времени для его создания?
Хотя если Вы готовы оплатить выкладывания свободного кода - я "за". Для оценки примерной суммы - прикиньте зарплату за год-два работы программиста высокого уровня...
Цитата :
Что касается тезаоруса (понятно для чего), то создание его измеряется в человеко/часах, как ребята словари для Алёнки делают.
Так тезаурусы вроде есть, причем можно найти даже бесплатные... Или речь о каких-то специфических словарях?

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Сб Янв 10 2009, 18:27
Сб Янв 10 2009, 18:27

rquester
Цитата :
Это просто ошибка то ли в программе, то ли в словаре. Буду искать. С заменами это вообще никак не коррелирует.
Вы не поняли, в моей таблице замен нет могих сочитаний и программа не найдя сочитания ставит <. Искат ничего не надо, надо скачать отсюда
http://mytts.forum2x2.ru/forum-f12/tema-t165.htm
Я сотый раз пишу, а вы даже посмотреть не хотите!
Цитата :
Программа предназначена для универсальной работы с любыми программами синтеза, вся движкозависимая логика - только на самом последнем этапе, это основной принцип. Соответственно и символ должен быть один для всех движков.
Зкамена ударений должна происходить не в вашей программе а допустим в Балаболке или ещё где, это принципиально!!!
Иначе эффекта не будет, и от кортавости не избавиться.
Цитата :
Это не тяжелый случай, а стандартный для ирландских фамилий.
Да хоть для африканской, как это со звуком связанно?
Цитата :
Если вы специально искали ошибки в определении омонимии,
Обычный расказ Кларка "Солнечная буря".
Цитата :
Хотя если Вы готовы оплатить выкладывания свободного кода
На этом форуме, уже надо платить?
Одно из двух, или Вы издиваетесь, или кто-то здесь ненормальный,
чувствую, что не я!

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Сб Янв 10 2009, 18:47
Сб Янв 10 2009, 18:47

Цитата :
н^о талп^а пачти` не` абращ^ала н^а них< вним^ания.
Ошибка у меня, не у Вас, я попробовал у себя этот текст, и у "них" тоже ударение не правильное. Буду исправлять.
Словари замен смотрел...
Цитата :
Зкамена ударений должна происходить не в вашей программе а допустим в Балаболке или ещё где, это принципиально!!!
Иначе эффекта не будет, и от кортавости не избавиться.
В каком смысле не будет? Сейчас конвертируешь текст в формате Николая - и Николай хорошо читает все. Для остальных движков, конечно, хуже, но это уже проблема движков... А если через неделю выйдет еще движок, то все словари переделывать?
Если у движка проблема с какими-то определёнными словами - вариант со словарями "не простановки", конечно, возможен, но это - скорее исключения, чем правила. Иначе и поиск неизвестных слов работает не совсем правильно (по словарю программы+пользовательскому словарю), а не по словарю движка и т.д.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Сб Янв 10 2009, 19:04
Сб Янв 10 2009, 19:04

Ошибку с "них<" исправил, когда выложу новую версию, все должно быть нормально.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Сб Янв 10 2009, 21:29
Сб Янв 10 2009, 21:29

Цитата :
Обычный расказ Кларка "Солнечная буря".
Посмотрю. На тех текстах, на которых я тестировал ошибок было очень мало
Цитата :
Цитата:
На этом форуме, уже надо платить?
За посещения форума вроде нет Smile. А вот еслии хотите получить исходные тексты Книгодела - надо. Если они Вам действительно нужны.
Так же если Вы активно будете пользоваться программой, желательно поддержать разработчика, чтобы у него был стимул ее дорабатывать (номера кошельков есть на сайте)...
А интерфейсом все равно на всех не угодишь... Один любит скины, другой не любит, один любит пиктограммы - другой нет, один любит когда окошко кривое и розовое, другой терпеть не может... Поэтому если что-то конкретное требуется от интерфейса я и предложил доработать под условия заказчика на платной основе...

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Сб Янв 10 2009, 23:03
Сб Янв 10 2009, 23:03

Рассказа "Солнечная буря" у Кларка не нашел, нашел роман. Посмотрел 1% текста (около двух страниц с одинарным интервалом и 12 пунктовым шрифтом). Ошибки:
1.пу<стынной - подправлю приоритет, а так практичски никакой разбор не даст правильного различия пу<стынный (от пустынь) и пусты<нный (от пустыня)
2.кулаком гла<за - этот вариант так же требует смыслового разбора - компьютер естественно не знает, что в состав глаза не входит кулак (у инопланетян, кстати, может входить). Если использовать так же глагол протёр, то, если бы была информации о то, какими падежами он управляет, то это можно было бы использовать, но это информации, по крайней мере, у меня нет.
3.на пару< размеров - вот это устойчивое сочетание, его можно исправить
4.что-то надорвалось в гру<ди у Бисезы - пожалуй, ошибка разбора
5.пропитанного пото<м песка - песок можно пото<м пропитать, без разбора смысла вряд ли что-то изменится
6.была вода с лу<ны - тут алгоритм дает сбой, признаю ошибку
7.на южном полюсе лу<ны - разобрать не учитывая контекст и смысл так же невозможно, если, конечно, не использовать то, что Луна написана с большой буквы (но это уже частное решение, которое, конечно, могу добавить)
8.через несколько ми<нут - ошибка, буду думать как исправить
Итого на две страницы:
8 ошибок, из которых реально проблема разбора - 3. Конечно, это не три ошибки на весь текст (хотя на тех текстах, что я пробовал - примерно такое количество ошибок), но и не 23, которые вы указали (если укажете в каком именно месте такое количество ошибок, это поможет их исправить).

Еще можно посчитать ошибкой "жизнеобеспе<чение", но в словаре слово так и записано. Если нравится жизнеобеспече<ние, то можно просто добавить его в пользовательский словарь.

Вернуться к началу Перейти вниз
Leopold
Интересующийся


Сообщений : 8
Репутация : 1

 Leopold :: Сб Янв 17 2009, 23:39
Сб Янв 17 2009, 23:39

Из приведенного вами списка слова допела, пела, ноздрей, переть, потереть, похлеще, припереть, прочесть, утереть читаются совершенно нормально (только что попробовал). Слова мел/мёл, мер/мёр, смел/смёл и шлем/шлём действительно проблемные (хотя вроде занеся в easy.dic можно заставить читать как хочется). Слова обрётшие, привёдшая, провёдшего действительно читаются с ё, но во-первых, не факт что этот вариант неправильный (вроде в словарях я именно такой вариант встречал), а во-вторых, вроде в программе эти слова как омонимы не обозначаются (в режиме только омонимов они не выводятся) - т.е. решить проблему можно с помощью easy.dic, занеся правильный (на ваш вкус) вариант туда. И, соответственно, это будет работать для всех движков...
По поводу не и как-то, когда-то... - проблем не замечал, нормально все синтезируется (может, конечно, разные версии движка). Если что - можно использовать словарь исключений (вроде появился в версии 1.31, по крайней мере, на сайте сказано что появился), куда занести специально распознаваемые движком слова...

Вернуться к началу Перейти вниз
unknown
V.I.P.


Сообщений : 73
Репутация : 11

 unknown :: Ср Янв 21 2009, 16:08
Ср Янв 21 2009, 16:08

rquester
Спасибо за новую версию и новый подход.

Некоторые ошибки.
хотели хотэ<ли хоте<ли
хотелось хотэ<лось хоте<лось
много мно<во мно<го
плавно плавно< пла<вно
вилку вилку< ви<лку было бы лучше
разъяснил разъя<снил разъясни<л
еды е<ды еды<

Некоторые пожелания.
а<т винта атвинта< или отвинта<
а<т сочу<ствия
а<т сча<стья
а<т все<х
а<т батаре<й
а<т лю<ка
а<т бе<рега
... и другие подобные сочетания с частитецей "от"
если невозможно сделать 2-й(атвинта<) или 3-й(отвинта<) вариант лучше оставить "от"
Тоже самое и с частицей "по"
па< восто<чному павоcто<чному или повосто<чному
если не возможно, то лучше оставить "по"
****************************
кого-то кого<то или ково<то
...и все слова с "-то"
****************************
и на закуску

Спойлер:
 

Некоторые непонятки.
Да и еще непонятно зачем проставляется ударения в:
а<, за<, и<, не<, мы< и т.д., т.е. в простых односложных словах и частицах.
Просто некоторые.
Если вы готовы продолжать работать в этом направлении и дальше,то буду и дальще предлагать корректировки произношения и искать ошибки.
Например много слов,где хотелось бы,чтобы "е" произносилось как "э",или слова с двойными согласными(например: автокоррекция,коррозионный),где для уха полезнне одна "р"
Всё вышесказанное конечно же относиться к подготовке текста для Николая(mme или telecom).
А вот rep.dic пока работает криво.Вы сами пробовали его в деле,хотя-бы с включёнными вами правилами?

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Ср Янв 21 2009, 16:50
Ср Янв 21 2009, 16:50

slag
Цитата :
Спасибо за новую версию и новый подход.
Так подход вроде тот же остался. Или Вы о диалоге настроек?

За найденные ошибки - спасибо, постараюсь исправить.
С предлогами по и от (а так же не и же) - у меня даже сделан блок для этого, но он находится в блоке синтеза (если синтезировать своим движком это работает), но постараюсь перенести.
Цитата :
а<, за<, и<, не<, мы< и т.д., т.е. в простых односложных словах и частицах.
Заодно... Кроме того, это полезно для встроенного синтезатора книгодела (некоторые алгоритмы проверки на это завязаны, не надо искать первый ударный слог...)

Цитата :
Если вы готовы продолжать работать в этом направлении и дальше,то буду и дальще предлагать корректировки произношения и искать ошибки.
Да, это будет полезно.

Цитата :
А вот rep.dic пока работает криво.Вы сами пробовали его в деле,хотя-бы с включёнными вами правилами?
Эти правила включены как пример. С конкретно этим вариантом не пробовал, но с другими правилами текстировал. А что не так? И учли что правила применяются на последнем этапе (перед преобразованием в формат движка), то есть должны задаваться с ударениями (+)?

Вернуться к началу Перейти вниз
unknown
V.I.P.


Сообщений : 73
Репутация : 11

 unknown :: Ср Янв 21 2009, 20:21
Ср Янв 21 2009, 20:21

rquester
Новый подход в этом
Цитата :
...чтобы помочь Николаю воспроизводить текст хоть немного приблеженным к нормальной человеческой речи при чтении вслух.
Мне импонирует,что вы в новой версии сделали шаг в эту сторону, кстати в этом и состоял мой воспрос -"будете ли вы дальше это развивать?"
На мой взгляд это будет хорошей отличительной особенностью вашей программы.
Цитата :
Цитата :
Цитата:
а<, за<, и<, не<, мы< и т.д., т.е. в простых односложных словах и частицах.
Заодно... Кроме того, это полезно для встроенного синтезатора книгодела (некоторые алгоритмы проверки на это завязаны, не надо искать первый ударный слог...)
Про встроенный синтезатор ничего пока не скажу, однако Николай, и так не отличается плавностью речи, а эти ударения ёще больше делают её отрывистой.
Можно для примера прослушать:
Код:
э<то же< хорошо< бы< за< собо<й. э<тоже хорошо<бы засобо<й.

но< я< не< могла< предста<вить. но я немогла< предста<вить.
Но пока такие изменения нам недоступны в вашей программе, поэтому, можно предложить, после обработки текста, прогонять его ещё раз в Балаболке по CTRL+T со словарем .dic примерно следующего содердания:
Код:
* а< *= а
* во< *= во
* всё< *= всё
* её< *= её
* за< *= за
* и< *= и
* ли< *= ли<
* на< *= на
* не< *= не
* но< *= но
* ра<з *= раз
* та<к *= так
* я< *= я
* мне< *= мне
и т.д.

Пробелы обязательны после звёздочки,перед следующей звёздочкой,и в заменах до и после слова.(Это прокатит если вы избавились от кавычек,скобок многоточий в тексте, и т.п., а если нет то надо создавать соответствующие правила замены).

Некоторые ошибки.
тощая тоща<я то<щая(предпочтительнее)
громко громко< гро<мко(предпочтительнее)
столиком столи<ком сто<ликом(предпочтительнее)

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Чт Янв 22 2009, 00:40
Чт Янв 22 2009, 00:40

Цитата :
Мне импонирует,что вы в новой версии сделали шаг в эту сторону, кстати в этом и состоял мой воспрос -"будете ли вы дальше это развивать?"
В принцип, это было и в предыдущих версиях (кое-что с недавних пор, а кое-что и давно), просто, так получилось, что для Николая этот режим не работал (так как он большинство слов сам корректно смягчает), в этой версии появилась опция, поэтому сделано чтобы меняло везде.
Цитата :
На мой взгляд это будет хорошей отличительной особенностью вашей программы.
Так вроде и вообще толковой расстановки ударений с большим процентов различием омонимов нет... Если бы была - добавить все эти мелочи не очень трудно...
Цитата :
Но пока такие изменения нам недоступны в вашей программе, поэтому, можно предложить, после обработки текста, прогонять его ещё раз в Балаболке по CTRL+T со словарем .dic примерно следующего содердания:
Насколько я знаю, если написать в словаре rep.dic
а+=а
во+=во
...
то всё будет корректно работать (если целиком слово - звёздочек не надо, в программе проверяется на слово целиком если звёздочки нет с одной из сторон). Если не работает - напишите, я постараюсь исправить...
То есть:
приве+т=прю+вет
Заменит все соответствующие целые слова
*приве+т*=прю+вет
все слова содержащие привет (выражение указывать тоже можно)
приве+т*=прю+вет
все слова начинащиеся с привет
*приве+т=прю+вет
все слова заканчивающиеся на это
P.S.: правда, в текущей версии будет проблема если перед/после слова идёт нестандартный символ вроде двоеточия или скобки,в следующей версии планирую это исправить.
P.P.S.: Также можно воспользоваться файлом noakc.dic, в котором перечислены те слова, которы нужно оставить без ударения. В этом файле слова должны быть отсортированы (стандартная сортировка строк, включая ударения, отсортировать можно досовской (есть и в Windows) sort с ключом /L "C"). То есть туда нужно занести:
а+
во+
...

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Чт Янв 22 2009, 06:15
Чт Янв 22 2009, 06:15

Кстати, если написать rep.dic:
по+ *=по
не+ *=не
без+ *=безъ
*-то=то
* же+=же
...
то программа как раз сделает то, что Вы предложили...
У меня, по крайней мере, работает...

P.S.: До выхода новой версии там же можно исправить "столиком", "тощая"...

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Чт Янв 22 2009, 11:32
Чт Янв 22 2009, 11:32

Рассмотрите, пожалуйста, возможность исправить в следующей версии следующее:

Спойлер:
 

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Ср Янв 28 2009, 09:21
Ср Янв 28 2009, 09:21

Новая версия стала лучше различать омонимы.
Спойлер:
 

Если можно, в режиме "Только омонимы [export]" желательно было бы убрать ударения в цифрах.

Напоследок несколько новый предложений:

Спойлер:
 

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Ср Янв 28 2009, 14:46
Ср Янв 28 2009, 14:46

ptoton
Спасибо за найденные ошибки. Постараюсь поправить.
Но ошибки с общее, будущее и именно у меня не проявляются. Возможно, они в каком-то из Ваших словарей (rep.dic, fon.dic, easy.dic, словарях для читалки)? Если не найдёте в своих данных ошибки, укажите, точно при каких опциях выдаёт ошибочные данные и, если нетрудно, выложите ошибочный файл...
P.S.: При включённой фонетике общее и именно действительно меняются, но вот при выключенной.... Со словом общее, в принципе, была ошибка, но не такая, как Вы описываете. Ту ошибку о которой я говорю (в некоторых случаях ставилось двойное ударение) я уже поправил, в новой версии должно быть нормально.

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Ср Янв 28 2009, 16:04
Ср Янв 28 2009, 16:04

Распаковывал новую версию поверх старой. Сейчас удалил все файлы и распаковал на чистое место. Действительно
"именно" и "общее" теперь не изменяются. Буду осторожнее.

Но "буд<ущее" получилось опять. Даю ссылку на файл.

http://webfile.ru/2592247

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Ср Янв 28 2009, 19:18
Ср Янв 28 2009, 19:18

ptoton
Ошибку с "будущим" отловил и уже исправил. Спасибо.

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Чт Янв 29 2009, 09:08
Чт Янв 29 2009, 09:08

Посмотрите, пожалуйста, отмеченные мной предложения в повести Вернора Винджа "Куки-монстр".
Он был обработан Книгоделом 1.33b с опцией "только омонимы" (омографы). Потом в файле было отмечено, все что хотелось бы поправить.

Сразу оговорюсь, что все спорные по Вашему мнению случаи оставляю на Ваше усмотрение. Что-то наверное пропущено, что-то отмечено зря. Надеюсь, что это поможет в разаработке алгоритма и совершенствовании программы "Книгодел".
Vindzh_Kuki-monstr.txt - исходный файл.
Vindzh_Kuki-monstr_pre.doc - файл с отмеченными предложениями или словами.

http://webfile.ru/2594397

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Чт Янв 29 2009, 17:57
Чт Янв 29 2009, 17:57

ptoton
Предыдущие ошибки уже исправил (кроме одной с профессором, она в ближайших версиях вряд ли будет исправлена - и неизвестное слово мешает алгоритму работать и расположение перед глаголом). Ударение на числах сделал отдельной опцией.
Новые файлы посмотрю.

muk79
Цитата :

Может стоит разделить тему на bugreport и wishlist а то уже такая каша в топике что разобрать может только тот кто читает с самого начала.
А как их разделить-то? По сути, кроме информации об ошибке с длинными файлами всё что здесь указано - это именно wishlist, так как алгоритм различия омонимов в принципе не может давать 100% результат (даже люди иногда не способны выбрать правильный вариант, скажем во фразе "Продаётся замок. Дёшево."). Но, в какой-то мере, он и bugreport, конечно Smile

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Пн Фев 02 2009, 17:06
Пн Фев 02 2009, 17:06

Спасибо за новую версию.
Посмотрите, подалуйста еще порцию предложений обработанных Книгоделом 1.34b (омонимы).

Спойлер:
 

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Вт Фев 03 2009, 01:11
Вт Фев 03 2009, 01:11

ptoton
Цитата :
Посмотрите, подалуйста еще порцию предложений обработанных Книгоделом 1.34b (омонимы).
Спасибо, постараюсь исправить (кое-что уже исправлено).

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Вт Фев 10 2009, 17:12
Вт Фев 10 2009, 17:12

Предлагаю рассмотреть еще одну порцию предложений, обработанных версией 36

Спойлер:
 

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Ср Фев 11 2009, 11:21
Ср Фев 11 2009, 11:21

почему-то в 37й при Алена (со словарями омонимов)(с заменами) +омонимы экспорт
ставит ударения
Код:
<
или так и задумано? может просто убрать эту опцию совсем если она идентична Алена (со словарями омонимов)?
и еще
после замены вылазит слово
Код:
по+сле
вместо
Код:
пОсле
в уже финальном варианте т.е. остается "+" почему-то
и кавычки в тексте после простановки ударений наоборот ставиться почему-то
Цитата :
- Когда? - .не понял » грешник «.
- И чего стоИм? - развел руками » монолитчик «. - Двор чистый!
в принципе не сильно важно но как-то необычно смотрится Smile

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Ср Фев 11 2009, 12:26
Ср Фев 11 2009, 12:26

37-ая версия отлично справилась с почти всеми прислаными ранее предложениями. Остались только:

при 50 километрах в час колеса+ автобуса делают около 4,5 оборотов в секунду.

мне в глаза+ попала у+гольная пыль или сажа+ с паровоза.

чайки+ с диким мяуканьем пики+руют на меня

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Ср Фев 11 2009, 13:45
Ср Фев 11 2009, 13:45

evilone_
Цитата :
почему-то в 37й при Алена (со словарями омонимов)(с заменами) +омонимы экспорт
ставит ударения <

Была ошибка, исправил, в новой версии должно быть все нормально, скорее всего уже с заменами.
Ошибку с после тоже исправил.
С кавычками еще не смотрел, но вроде такого быть не должно, должно заменяться на обычные кавычки " текст ". Может это редактор так их показывает?

ptoton
Ошибку с сажей исправил, в новой версии будет. А с остальными фразами - в принципе, могу искусственно исправить, заставив всегда вместо чайкИ писать чАйки.... Но тогда неправильно будет произноситься фраза "надоели все эти чайкИ!"

Вернуться к началу Перейти вниз

Ошибки синтеза замены и ударения

Предыдущая тема Следующая тема Вернуться к началу
Ошибки синтеза замены и ударения
Страница 1 из 3Страница 1 из 3На страницу : 1, 2, 3  Следующий
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении