TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  



Ошибки синтеза замены и ударения

Предыдущая тема Следующая тема Перейти вниз
На страницу : Предыдущий  1, 2, 3  Следующий
АвторСообщениеОшибки синтеза замены и ударения
rquester
V.I.P.


Сообщений : 137

 rquester :: Ср Фев 11 2009, 13:45
Ср Фев 11 2009, 13:45

evilone_
Цитата :
почему-то в 37й при Алена (со словарями омонимов)(с заменами) +омонимы экспорт
ставит ударения <

Была ошибка, исправил, в новой версии должно быть все нормально, скорее всего уже с заменами.
Ошибку с после тоже исправил.
С кавычками еще не смотрел, но вроде такого быть не должно, должно заменяться на обычные кавычки " текст ". Может это редактор так их показывает?

ptoton
Ошибку с сажей исправил, в новой версии будет. А с остальными фразами - в принципе, могу искусственно исправить, заставив всегда вместо чайкИ писать чАйки.... Но тогда неправильно будет произноситься фраза "надоели все эти чайкИ!"

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Ср Фев 11 2009, 14:54
Ср Фев 11 2009, 14:54

А что надо сделать, чтобы " + " не ставились в тексте?
Цитата :
Через короткое время по+сле того, как он
Попробовал все компбинации в настройках, ничего не помогло.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Ср Фев 11 2009, 16:45
Ср Фев 11 2009, 16:45

lev55
Выложил новую версию (номер не менялся), в которой этот баг исправлен.

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Ср Фев 11 2009, 16:49
Ср Фев 11 2009, 16:49

rquester
Спасибо!

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Чт Фев 12 2009, 11:53
Чт Фев 12 2009, 11:53

Предложения пропущенные через 37-ую версию
1) при включенной опции Агрессивно не ёфицировать
50-е 60-е и т.д меняются на
50-ё+ 60-ё+

"е" меняется на "ё" в следующих предложениях

Спойлер:
 

2) ударения

Спойлер:
 

3) В слове "Проезжая" в отдельно стоящем предложении "Проезжа+я мимо нашего амбара, я закинул одну "колхозницу" в открытую дверь." ударение ставится правильно, но, если перед ним есть еще текст, то - неправильно.

Набрав полкузова дынь, мы вернулись. Прое+зжая мимо нашего амбара, я закинул одну "колхозницу" в открытую дверь.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Чт Фев 12 2009, 17:34
Чт Фев 12 2009, 17:34

ptoton
Спасибо, посмотрю.

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Вт Фев 17 2009, 08:20
Вт Фев 17 2009, 08:20

Новая порция предложений, 38 версия программы

Спойлер:
 

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вт Фев 17 2009, 10:16
Вт Фев 17 2009, 10:16

Это где-то 20% от всего текста на 634к символов в котором сделано 788 замены Arrow

Спойлер:
 

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Вт Фев 17 2009, 18:50
Вт Фев 17 2009, 18:50

evilone_
Спасибо, посмотрю.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Ср Фев 18 2009, 07:28
Ср Фев 18 2009, 07:28

evilone_
Обновил версию (с тем же номером), там указанные ошибки исправлены.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Ср Фев 18 2009, 10:34
Ср Фев 18 2009, 10:34

Вот еще из того же текста и снова не до конца уже в 39й.
Вообще очень утомительное и неудобное занятие. Вы бы как-то упростили задачу поиска и сравнения, например создания отдельного файла со всеми замененными предложениями с выделением замен цветом или как-то еще а то ошибки есть но искать их просто "песня" какая-то Rolling Eyes

Спойлер:
 

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Ср Фев 18 2009, 19:55
Ср Фев 18 2009, 19:55

Цитата :
Вообще очень утомительное и неудобное занятие. Вы бы как-то упростили задачу поиска и сравнения, например создания отдельного файла со всеми замененными предложениями с выделением замен цветом или как-то еще а то ошибки есть но искать их просто "песня" какая-то
Проблем с поиском особых нет - нужно выставить в Настройках опцию конверсии для Николая (вариант - + для первого прохода) и искать по символу ударения (< или + соответственно) в любом текстовом редакторе... Как раз по замененным словам и будете передвигаться. Если же нужна альтернатива fc с выделением цветами, то она тоже есть, во многих вариантах. Один из них - UltraCompare.
С заменой L на пятидесятый - отключите опцию транслитерации римских цифр, она для таких случаев и сделана. Остальные ошибки посмотрю...

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Чт Фев 19 2009, 09:36
Чт Фев 19 2009, 09:36

в окно UltraCompare полностью весь текст не влазит да и неудобно совсем а тем более искать в текстовом редакторе, это и имелось в виду под "песней" то что сейчас ошибок много это, к сожалению, факт и хуже то что там где движок возможно и прочитает нормально обычное слово, измененное слово будет, после такой замены, читаться им уже неправильно, т.е. заведомо "поганится" текст.

лучше сделайте к нему какой-то вменяемый редактор с возможностью ручного поиска и замены и проверки орфографии налету (посмотрите как это сделано в балаболке при ручном поиске омографов) так будет куда быстрее и избавит от лишней головной боли, а то будет выходить версия за версией до бесконечности Smile
только чтобы можно было сохранить выбор для последующего поиска чтобы словарь самообучался при каждой новой проверке текста вручную.
иначе это просто "мартышкин труд".

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Чт Фев 19 2009, 16:47
Чт Фев 19 2009, 16:47

Цитата :
в окно UltraCompare полностью весь текст не влазит да и неудобно совсем а тем более искать в текстовом редакторе, это и имелось в виду под "песней"
Аналогов Ultra Compare полно, даже Word умеет сравнивать несколько файлов, есть и еще утилиты... А в текстовом редакторе получается не хуже, чем в Балаболке Ctrl-F ввести + и нажимать далее, пока не появиться неправильное слово. По моему проще некуда...
Цитата :

то что сейчас ошибок много это, к сожалению, факт и хуже то что там где движок возможно и прочитает нормально обычное слово, измененное слово будет, после такой замены, читаться им уже неправильно, т.е. заведомо "поганится" текст.
Если активно исправлять ошибки, то подавляющее большинство будет исправлено достаточно быстро. и "поганиться" текст не будет. Более того, все слова, на которых бывают ошибки - омографы, так что надеяться тут на движок не стоит. В одном значении правильно, в другом - нет. Он, конечно, может выбирать вариант "от балды" и иногда его вариант случайно оказывается более правильным, чем у Книгодела... Но изменится версия движка (а то и сам движок) - станут вылезать новые, совершенно не предсказуемые ошибки. Лучше уж один раз отладить программу...
Цитата :

лучше сделайте к нему какой-то вменяемый редактор с возможностью ручного поиска и замены и проверки орфографии налету (посмотрите как это сделано в балаболке при ручном поиске омографов) так будет куда быстрее и избавит от лишней головной боли, а то будет выходить версия за версией до бесконечности
От лишней головной боли можно избавиться только внеся в базу все омографы, чтобы программа сама всё (или почти всё) корректно отличала. А для этого нужно поактивнее пользоваться программой и приводить здесь список ошибок.

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Чт Фев 19 2009, 19:45
Чт Фев 19 2009, 19:45

Цитата :
Более того, все слова, на которых бывают ошибки - омографы, так что надеяться тут на движок не стоит.
Ольга 50% распознаёт омографы сама, конечно если Russian.rex "правильный", но и с "родным" часть омографов определяется правильно. (Это значит не как бог на душу положит, а действительно в разных ситуациях определяет какое ударение должно быть.)
evilone
Я делаю так: Завёл словарь в Балаболке типа - *ие ворота=ие воро+та,
*ых года=ых го+да, из земли=из земли+, *ой вселенной=ой вселе+нной и т.д.
Подключаю такой словарь и по Ctrl-T ставлю плюсы в омографах, потом книгодел (тлько омографы), потом по Ctrl-T все остальные слова.
rquester
Цитата :
А в текстовом редакторе получается не хуже, чем в Балаболке
В Балаболке обрабатываются списки слов(dic?,hmg), а если пользоватся текстовым редактором то чёкнешся! (Правда такой диагноз у всех кто пользуется TTS Smile )
P.S. Очень напрягают такие штуки (ли'^чнаго=l'"itS'nagV#)
,должно быть ли' ^чного=l'"itS'n@vV#) и такое сплошь и рядом.
Пункт "Записывать как читаются" совсем не нужен, но и при отключённом, там где в омографах ставится ударение наблюдается такая ерунда, кроме путаницы и корёженья уха толку нет. При насильственном корёженьи вместо "V и @" получается "a", т.е никуда не годится!
Просто надо работать на настроенном движке!
И ударение выглядит так -" ' ^' ", а не так " ' ^ ", в сочетании " ее " ставится так - " е' ^'йе".

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Пт Фев 20 2009, 00:27
Пт Фев 20 2009, 00:27

Цитата :
Ольга 50% распознаёт омографы сама, конечно если Russian.rex "правильный", но и с "родным" часть омографов определяется правильно. (Это значит не как бог на душу положит, а действительно в разных ситуациях определяет какое ударение должно быть.)
Возможно. Но раз применяете Книгодел - значит распознавание омонимов там недостаточно хорошее. Да и закладываться на конкретный движок не очень хорошо - чуть что изменится и все словари переделывать...
Цитата :
делаю так: Завёл словарь в Балаболке типа - *ие ворота=ие воро+та,
*ых года=ых го+да, из земли=из земли+, *ой вселенной=ой вселе+нной и т.д.
Подключаю такой словарь и по Ctrl-T ставлю плюсы в омографах, потом книгодел (тлько омографы), потом по Ctrl-T все остальные слова.
Так в Книгоделе же всё это можно сделать... Тот же словарь что из Балаболки закинуть в reps.dic. Вроде различий в формате особых нет. Ошибку с воротами исправил (в новой версии должно быть нормально), с остальными посмотрю. Если можно, приведите конкретный контекст в котором глючит. Кстати, Ваш вариант будет глючить на не ёфицированном тексте на фразе "каждой вселённой в квартиру дают по уху".
Цитата :
В Балаболке обрабатываются списки слов(dic?,hmg), а если пользоватся текстовым редактором то чёкнешся!
Все равно там списки достаточно большие, практичеки равные числу омографов - соответственно и при поиске будет практически то же число(а если омографа нет в списке - то и не будет скорректирован в ручном режиме).
Цитата :
P.S. Очень напрягают такие штуки (ли'^чнаго=l'"itS'nagV#)
,должно быть ли' ^чного=l'"itS'n@vV#) и такое сплошь и рядом.
Это вы об Алёне или об Ольге? У Ольги транскрипция пока не пишется, только с ударениями. Если об Алёне - то, на мой взгляд, использовать там @ желательно только для ы, так как иначе программа всё время ыкает (мылако - ужас...). Впрочем, могу сделать версию и со стандартной интерпретацией.
Цитата :
Пункт "Записывать как читаются" совсем не нужен
О необходимости этого пункта меня специально просили...
Цитата :
И ударение выглядит так -" ' ^' ", а не так " ' ^ ", в сочетании " ее " ставится так - " е' ^'йе".
Я делал тот вариант, который сказали. Могу сделать и такой вариант - не проблема. Скорее всего, будет в следующей версии.

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Пт Фев 20 2009, 13:19
Пт Фев 20 2009, 13:19

rquester
Цитата :
Возможно. Но раз применяете Книгодел - значит распознавание омонимов там недостаточно хорошее.

Кончно. 50% никого не устраивает. Это сделано, чтобы читаемый текст без подготовки хоть как то можно было понять. А толку от этого нет. Всё равно приходится дублиновать эти правила, иначе нужен ещё один словарь "правильно произносимых омографов". Думаю это перебор. Подобное я сделал с Зализняком, Вычистил из него все правильно произносимые слова и омографы, дополнил порядка 7000, которых нет в Зализняке.
Словарь типа *ие ворота=ие воро+та, *ых года=ых го+да, завёл потому что Книгодел (может быть по объективным причинам) делает ошибки в рядом лежащих, друг друга конкретезирующих словах.
Цитата :
Ошибку с воротами исправил (в новой версии должно быть нормально),
Это я для примера, на самом деле у меня в словаре для автоматической растановки ударений в омографах 1200 строк-правил и это не предел.
Вот, чтобы не делать 1200 релизов Книгодела, все и просят сделать опцию редактора правил, подобно Балаболке.
Цитата :
Так в Книгоделе же всё это можно сделать... Тот же словарь что из Балаболки закинуть в reps.dic. Вроде различий в формате особых нет.
Не знал. Спасибо. Из описания это как то не очень понятно. Но всё равно, текст для reps.dic, нужно готовить в Балаболке.
Цитата :
Все равно там списки достаточно большие, практичеки равные числу омографов
Если не пользоваться *.hmg (ручная обработка омографов в Балаболке) а перенести эти правила в *.dic, то по Ctrl -T всё ставится автоматически. Попробую такой фокус с reps.dic. (Но редактор для правил нужен!).
Цитата :
Это вы об Алёне или об Ольге? У Ольги транскрипция пока не пишется,
Это об Ольге. Транскрипцию я взял из рабочего буфера Loquendo-движка, где готовится строка транскипции для конвертации в wav.
Это чтобы было наглядно, что происходит. Надо убрать такую неприятную вещь (вайн^ы, паздне' ^е, в с^амам).
Часть таких изменений не влияет на слух, а часть невозможно слушать. Это такой гиморой, приводить всё вручную к нормальному виду. Для Алёны наверное это актуально, но для Ольги абсолютно неприемлемо.
Loquendo - Ольга на порядок круче Алёны. Это касается и того как "пишется - читается", очень грамотный алгоритм.
Russian.rex вообще материал для скульптора. Или для интереса откройте в текстовом редакторе ...LTTS7\data\voices\Olga\OlgaGilded.gde. Вообще Ольга имеет много настроек, не реализованных в программах - оболочках.
Хотябы регулировка пауз между словами внутри предложения (это не скорость чтения). Если изменять паузы в тексте путём подстановок тегов, то
получится Николай, а тут с сохранением огибающей интонации.
Ну это я так, лирическое отступление.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Пт Фев 20 2009, 18:51
Пт Фев 20 2009, 18:51

Обновил версию.
Цитата :
Словарь типа *ие ворота=ие воро+та, *ых года=ых го+да, завёл потому что Книгодел (может быть по объективным причинам) делает ошибки в рядом лежащих, друг друга конкретезирующих словах.
Ошибки Книгодела, практически все, из-за неучтённых в программе омонимов. Например с воротами - из-за слова вОрот, которое во множественном числе имеет те же формы что и ворОта. Эта ошибка исправлена. А вот с "ых года" проблему не обнаружил - у меня все нормально читается (например - опасных года).
Цитата :

Это я для примера, на самом деле у меня в словаре для автоматической растановки ударений в омографах 1200 строк-правил и это не предел.
А можете выложить здесь?
Просто прежде чем вносить какое-то слово в правила - напишите здесь ошибочную фразу. Со временем, большинство глюков будет исправлено и словарь будет, в основном, содержать конкретные обороты.
Цитата :

Вот, чтобы не делать 1200 релизов Книгодела, все и просят сделать опцию редактора правил, подобно Балаболке.
Есть reps.dic. А если удобно редактировать именно в Балаболке - не проблема. После бета-тестирования, по идее, ошибок в стандартной форме не должно остаться, только фразеологические обороты...
Цитата :

Не знал. Спасибо. Из описания это как то не очень понятно.
Добавил краткое описание в readme.

Цитата :
Это об Ольге. Транскрипцию я взял из рабочего буфера Loquendo-движка, где готовится строка транскипции для конвертации в wav.
Это чтобы было наглядно, что происходит. Надо убрать такую неприятную вещь (вайн^ы, паздне' ^е, в с^амам).
Насколько я помню, если убрать замену безударных о на а было сильное оканье, для решения этой проблемы и были введены замены о на а. Новая версия (с описанным Вами алгоритмом) замен о на а не делает.

Цитата :

Russian.rex вообще материал для скульптора. Или для интереса откройте в текстовом редакторе ...LTTS7\data\voices\Olga\OlgaGilded.gde.
Вроде ничего особенного ни там ни там не нашел...
Цитата :
Вообще Ольга имеет много настроек, не реализованных в программах - оболочках.
Больше, чем в других. Это, несомненно плюс этого голоса.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пт Фев 20 2009, 20:05
Пт Фев 20 2009, 20:05

тот же текст 40я версия Arrow
Спойлер:
 

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Пт Фев 20 2009, 21:28
Пт Фев 20 2009, 21:28

Незнаю почему, но новый релиз для меня становится доступен только через сутки-двое.
(Вообще чего то у меня этот сайт глючит. Писал, писал начал отправлять всё повисло).
Цитата :
Ошибки Книгодела, практически все, из-за неучтённых в программе омонимов.
Со временем, большинство глюков будет исправлено и словарь будет, в основном, содержать конкретные обороты.
В том то и дело, этот процесс почти безконечен. И на каждый десяток омографов - новая версия?
Пользователям нужно дать возможность дополнять недостающее. Для этого нужен "внятный" редактор регулярных выражений, а не такой как для ini файлов в Балаболке. Нужные функции для кирилицы там не работают.
Пользователи, могли бы выкладывать и обмениваться такими словарями-правилами, а не писать трактаты встретившихся ошибок.
Цитата :
А можете выложить здесь?
Обязательно выложу.
Цитата :
А вот с "ых года" проблему не обнаружил - у меня все нормально читается
Поэтому надо его почистить, он же не для Книгодела делался.
Поле того, как закончу крамсать Зализняка для Ольги, почищу омографы и выложу.
Цитата :
Насколько я помню, если убрать замену безударных о на а было сильное оканье, для решения этой проблемы и были введены замены о на а. Новая версия (с описанным Вами алгоритмом) замен о на а не делает.
Для Ольги нужны только ударения, и других изменений категорически не надо. Может оно так и есть в 40й, пока не могу скачать.
Цитата :
Вроде ничего особенного ни там ни там не нашел...
Значит не разобрались.
Я тоже ещё до конца не понимаю, как работают некоторые функции, но и того в чём разобрался - выше крыши!
Теже омографы. В OlgaGilded.gde приведены примеры интонаций, так вот эти фразы можно пополнять, а через Russian.rex одни и те-же слова и фразы, в зависимости от контекста будут звучать с разной интонацией.
Голос становится не отличим от дикторского, во всяком сучае лучше чем у Галины Шумской (начитала много аудиокниг).

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Пт Фев 20 2009, 23:38
Пт Фев 20 2009, 23:38

evilone_
Цитата :
тот же текст 40я версия
Спасибо, посмотрю. С "язычком замка" вроде не было, было с дужкой (хотя мог и пропустить). Так как этот омоним иначе как по имеющимся вокруг словам (и, с гораздо меньшей точностью, во всём тексте) не различить,то дополнительные слова очень помогают.
С кружками - вообще-то приведённый текст даже человеком не может быть распознан однозначно... Вариант с крУжками звучит ничем не хуже чем с кружкАми.
А так, что могу стараюсь исправлять...

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Пт Фев 20 2009, 23:52
Пт Фев 20 2009, 23:52

lev55
Цитата :
Незнаю почему, но новый релиз для меня становится доступен только через сутки-двое.
Попробуйте Ctrl-F5 нажать,это скажет браузеру (как минимум IE) перезагрузить страницу.
Цитата :

В том то и дело, этот процесс почти безконечен. И на каждый десяток омографов - новая версия?
Попутно я и другое исправляю, так что это мало что меняет.
Цитата :
Пользователям нужно дать возможность дополнять недостающее.
Так сейчас есть достаточно внятный вариант...
Цитата :
Нужные функции для кирилицы там не работают.
Какие? Или вы о Балаболке? У меня кирилица как раз родной формат...

Цитата :
В OlgaGilded.gde приведены примеры интонаций, так вот эти фразы можно пополнять, а через Russian.rex одни и те-же слова и фразы, в зависимости от контекста будут звучать с разной интонацией.
Я там интонаций не нашел. В olgagilded.gde я нашел только описание вариантов приветствия и т.д. В Russian.rex - чтения всяких единиц измерения. Все эти возможности особой ценности не представляют - их функциональности всё равно не хватает, а если делать программно, то они не нужны. Вроде бы опция для смены интонации описана в хэлпе, но я её попробовал и эффекта не увидел. Если можете привести конкретный пример - можно будет добавить...

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Сб Фев 21 2009, 00:02
Сб Фев 21 2009, 00:02

предложения, не прошедшие через версию 40:

Спойлер:
 

Вернуться к началу Перейти вниз
Stroodder
V.I.P.


Сообщений : 98
Репутация : 7

 Stroodder :: Сб Фев 21 2009, 07:40
Сб Фев 21 2009, 07:40

lev55
Это точно. ОТКРЫТОСТЬ НЕУНИКЛЬНЫХ АЛГОРИТМОВ СПОСОБСТВУЕТ ИХ ПРЕОБРАЗОВАНИЮ В УНИКАЛЬНЫЕ И ПРОГРЕССУ. Впрочем как и ошибкам Smile

rquester
Я не знаю каким словарем Вы пользуетесь для ударений, но... Как-то для оценки возможностей самой идеи делал утилитку, которая проставляет ударения в тексте по известному бинарнику Зализняка - ошибки там были те же, что и в Вашем случае, т.е. в зависимости от того в каком порядке для омографов проставлены ударения в парадигмах, вот СКРИН РЕДАКТОРА СЛОВАРЯ. Из чего напрашиваются некоторые выводы Smile Но, в этом случае словарь, как и его редактор лежат в интернете и, более того, авторы сами ратуют за исправление ошибок, предоставляя все инструменты и исходники.
По поводу регекса Ольги. Вы не поняли глубины возможностей, с наскоку их не понять без определенных мытарств.

ALL
Объясните кто-нибудь мне неразумному. Почему считается предпочтительней исправлять одни и те же ошибки в разных форматах, а не развивать имеющийся большой словарь для всех движков? Нехватка источников информации? Нехватка инструментов? Банальная лень? Жажда псевдоуникализма? Другие причины?

З.Ы. Вообще, имхо актуально сосредоточиться на правилах снятия омонимии, ударения в неомографичных парадигмах с с использованием эвристики (скрины мелковаты получились, увеличьте - там все видно) сегодня не такая уж и масштабная проблема.

Вернуться к началу Перейти вниз
muk79
Участник «online словари»


Сообщений : 103
Репутация : 29

 muk79 :: Сб Фев 21 2009, 09:49
Сб Фев 21 2009, 09:49

Stroodder пишет:
Объясните кто-нибудь мне неразумному. Почему считается предпочтительней исправлять одни и те же ошибки в разных форматах, а не развивать имеющийся большой словарь для всех движков? Нехватка источников информации? Нехватка инструментов? Банальная лень? Жажда псевдоуникализма? Другие причины?
Нехватка стойких и грамотных кадров Smile
Stroodder пишет:
актуально сосредоточиться на правилах снятия омонимии
Вот вокруг этого сейчас все и крутится, только каких-то более менее вменяемых способов автоматизировать это дело без ошибок пока что нету Sad

Вернуться к началу Перейти вниз
Stroodder
V.I.P.


Сообщений : 98
Репутация : 7

 Stroodder :: Сб Фев 21 2009, 10:58
Сб Фев 21 2009, 10:58

muk79
Вменяемые есть, безошибочных нет Smile
Уточню по пред-му посту. Создание видимости алгоритма, а не создание и доработка собственно алгоритма и заставляет ходить сообщество по кругу.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Сб Фев 21 2009, 12:25
Сб Фев 21 2009, 12:25

Stroodder
Цитата :
Как-то для оценки возможностей самой идеи делал утилитку, которая проставляет ударения в тексте по известному бинарнику Зализняка - ошибки там были те же, что и в Вашем случае, т.е. в зависимости от того в каком порядке для омографов проставлены ударения в парадигмах, вот СКРИН РЕДАКТОРА СЛОВАРЯ.
Я писал сам, так что существующие решения меня мало интересуют. Тем более я этим уже занимаюсь года три. Да и если бы тот вариант (или Ваш) давал бы меньший или хотя бы равный процент ошибок, все бы использовали его.
Один из главных плюсов моей программы - 99% корректное распознавание падежной омонимии. Остальные омонимы распознаются по контексту, а те, которые программе неизвестны - действительно выдаются случайным образом, вот их Вы и видите в списках ошибок (а так же небольшой процент не распознанных по контексту слов) и они действительно похожи на те, что выдают любые другие программы - слова русского языка одни и те же.

Вернуться к началу Перейти вниз
Stroodder
V.I.P.


Сообщений : 98
Репутация : 7

 Stroodder :: Сб Фев 21 2009, 13:47
Сб Фев 21 2009, 13:47

Понятно, работа над омографами с т.з. качественного, а не количественного подхода Вас не интересует. А если Вы попробуете все-таки поддержать высказывания фактами, ну или хотя бы аргументами? Можете ли Вы привести пример текста с 99% убитой алгоритмом омонимией, если используются статические правила - это будет видно при первой же перестановке?
И что Вы понимаете под термином "падежная омонимия"? Я под этим понимаю неразличимость падежей в отдельном слове вне контекста предложения - такую омонимию убивает наш мозг и программы обработки для этого не нужны, т.к. позиция ударения не изменяется.
rquester пишет:

Тем более я этим уже занимаюсь года три.
Ну да, Зализняку, который на это жизнь положил до Вас далеко...

Вернуться к началу Перейти вниз
muk79
Участник «online словари»


Сообщений : 103
Репутация : 29

 muk79 :: Сб Фев 21 2009, 14:03
Сб Фев 21 2009, 14:03

Stroodder Есть предложение помозговать над проблемой где-то тут и не приставать к книгоделу с его "уникальным" алгоритмом Smile

Вернуться к началу Перейти вниз
Stroodder
V.I.P.


Сообщений : 98
Репутация : 7

 Stroodder :: Сб Фев 21 2009, 14:49
Сб Фев 21 2009, 14:49

muk79
Да ладно уж, кто пристает? Если автор не искажает факты, то демонстрация возможностей только привлечет пользователей. Wink
Идея хорошая, но у меня немного другое предложение. Пока подумаю над ним.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Сб Фев 21 2009, 15:51
Сб Фев 21 2009, 15:51

Stroodder
Цитата :

Понятно, работа над омографами с т.з. качественного, а не количественного подхода Вас не интересует.
В каком смысле? Я сейчас исправляю практически все ошибки, которые присылают.
Цитата :

А если Вы попробуете все-таки поддержать высказывания фактами, ну или хотя бы аргументами?
Пожалуйста. Просто посмотрите на список ошибок. Там практически нет омонимии падежных форм (например, профессорА/профЕссора, рУки/рукИ...), а если и есть, то когда в предложении встречается неизвестное слово или даже с точки зрения человека падеж не однозначен (если не рассматривать смысл). Причем практически в любых сочетаниях, в том числе с редкоиспользуемыми словами. Если же попробовать сделать тоже самое (найти все омографы) с обычным текстом - большинство ошибок будет связано с падежными формами.
Учитывая что эти ошибки взяты из случайных, не мной выбираемых, текстов - это очень хороший показатель Smile
Цитата :

И что Вы понимаете под термином "падежная омонимия"?
То, что обычно пд этим подразумевается в синтезе речи - разное ударение в разных падежах.

Вернуться к началу Перейти вниз
Leopold
Интересующийся


Сообщений : 8
Репутация : 1

 Leopold :: Сб Фев 21 2009, 16:40
Сб Фев 21 2009, 16:40

Цитата :
Ну да, Зализняку, который на это жизнь положил до Вас далеко...
Ну если бы не Зализняк - вообще бы было не понятно зачем нужны филологи Smile
Один вменяемый словарь лет за пятьдесят Smile. На тысячу филологов Smile. И то без имен, географических названий и т.п. И пригодный к использованию в программах только после достаточно сильного преобразования. И ни до, ни после ничего... А ведь составлять словари - вроде бы их работа...

Вернуться к началу Перейти вниз
muk79
Участник «online словари»


Сообщений : 103
Репутация : 29

 muk79 :: Сб Фев 21 2009, 18:07
Сб Фев 21 2009, 18:07

Скажите а какое отношение имеет
rquester пишет:
омонимия падежных форм
к
rquester пишет:
профессорА/профЕссора, рУки/рукИ...
а то как-то не совсем ясно о чем речь ведете. :19:

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Сб Фев 21 2009, 18:33
Сб Фев 21 2009, 18:33

Ошибки в 40й. (Ольга)
Резкий зван<ак, всё равн^о<
Появились николаевские "<".
Ударение долхно быть ' ^' , а не ' ^ !!!

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Сб Фев 21 2009, 21:43
Сб Фев 21 2009, 21:43

а вот еще чуть-чуть
Спойлер:
 

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Сб Фев 21 2009, 22:30
Сб Фев 21 2009, 22:30

muk79
Цитата :
Скажите а какое отношение имеет
омонимия падежных форм
к
профессорА/профЕссора, рУки/рукИ...
Прямое. рУки/рукИ - омографы. Но омография звучит не по-русски (точнее, как медицинская процедура), поэтому используется термин омонимия. А раз омонимия - то и омонимы вместо омографов, так как в синтезе речи о классических омонимах речь обычно не идёт.

lev55
Цитата :
Резкий зван<ак, всё равн^о<
Странно. У меня было все нормально. Но проверю еще раз. Вы точно Ольга (новая) в настройках выбрали?

evilone_, ptoton
Спасибо, посмотрю.

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Сб Фев 21 2009, 23:33
Сб Фев 21 2009, 23:33

rquester
Прошу извинить, по привычке Олльгу с замеенами включил.
Новая Ольга вроде нормально.

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Вс Фев 22 2009, 00:16
Вс Фев 22 2009, 00:16

И еще до кучи по версии 40
Спойлер:
 

Вернуться к началу Перейти вниз
Lexus
Эксперт
avatar


Сообщений : 413
Репутация : 32

 Lexus :: Вт Фев 24 2009, 14:48
Вт Фев 24 2009, 14:48

lev55
Цитата :
Новая Ольга вроде нормально.
Может пропустил и появилась новая версия движка?

rquester

Допускаете ли вы возможность генерации на основе базы своего движка обычного словаря типа dic ?

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Вт Фев 24 2009, 16:47
Вт Фев 24 2009, 16:47

Lexus
Нет, к сожалению.
Это новая опция в "Книгоделе".
А "норально", это насчёт только вида ударения. (Тоже к сожалению).

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Ср Фев 25 2009, 01:59
Ср Фев 25 2009, 01:59

Lexus
Цитата :
Допускаете ли вы возможность генерации на основе базы своего движка обычного словаря типа dic ?
В каком смысле? Если просто нужен список всех словоформ (например, чтобы загрузить его в Алёну), то допускаю. Но через некоторое время.
В принципе, сейчас можно использовать просто словоформы из Зализняка - в большинстве случаев разница будет незаметна. Либо просто пользоваться вариантом с транскрипцией (для Алёны)...
Если же речь идёт о варианте в форме *ие ноги=ие но+ги, то это просто невозможно, так как в программе используется совершенно другой алгоритм и ничего близкого к этим правилам там нет.

Вернуться к началу Перейти вниз
Lexus
Эксперт
avatar


Сообщений : 413
Репутация : 32

 Lexus :: Ср Фев 25 2009, 11:17
Ср Фев 25 2009, 11:17

Цитата :
Если просто нужен список всех словоформ (например, чтобы загрузить его в Алёну), то допускаю. Но через некоторое время.

Ну наверно всех и не нужно. Да и алена не интересна. Больше Ольга симпатична. Алггоритм представляю следующим:
-отсев слов, внесенных в SAPI словарь
-Фонемный анализ ударений остальных слов
-построение словаря неправильных слов желательно не в фонемном виде.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Ср Фев 25 2009, 17:32
Ср Фев 25 2009, 17:32

Lexus
Цитата :
Ну наверно всех и не нужно.
Программа работает со всеми словоформами, так что либо все, либо ничего Smile
Цитата :
Да и алена не интересна. Больше Ольга симпатична.
С Ольгой проблем вроде нет - там ударения нормально понимаются, поэтому словарь там вообще никакой не нужен. Это для Алёны (если не использовать транскрипцию) нужно ударения в движок вводить.
Цитата :
Алггоритм представляю следующим:
-отсев слов, внесенных в SAPI словарь
SAPI не предоставляет доступ к словарю общими методами, насколько я знаю.
Цитата :
-Фонемный анализ ударений остальных слов
А если по-русски? В русском языке подвижное ударение и "правильных" слов, по сути, не существует.
Цитата :
-построение словаря неправильных слов желательно не в фонемном виде.
Что значит фонемный и не фонемный вид? Транскрипция и просто с проставленным ударением? Что значит "неправильных" слов, когда все слова неправильные? Или речь об омографах (омонимах)?
По-моему для Ваших целей вполне хватит словаря Зализняка - он в теме Ольги не раз выкладывался, причём уже с удалёнными словами, которые знает Ольга...

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Ср Фев 25 2009, 18:12
Ср Фев 25 2009, 18:12

Lexus
Цитата :
-отсев слов, внесенных в SAPI словарь
-Фонемный анализ ударений остальных слов
-построение словаря неправильных слов желательно не в фонемном виде.
Это уже есть, наверное через недельку выложу в "прибамбасах" для Ольги.
Словари огромны, поэтому будет инструкция по применению.

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Ср Фев 25 2009, 19:10
Ср Фев 25 2009, 19:10

В 41-ой версии из ранее присланого остались следующие предложения
Спойлер:
 

Простенький файл с словами
"все Все ВСЕ"

возвращает после обработки
"все Все+ ВСЕ+"

если в noakc.dic стоит только "все+".

Так что надо сделать, чтобы в результате было
"все Все ВСЕ"?

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Ср Фев 25 2009, 22:20
Ср Фев 25 2009, 22:20

ptoton
В 41-ой версии из ранее присланого остались следующие предложения
Цитата :

Всю дорогу до Бруэра он, сидя в автобусе, чувствует за+пах теплой зо+лы.
Странно. Сейчас попробовал этот пример (убрав плюсы) - все нормально.
Цитата :

Она встает, бродит по комнате; одна грудь вспухла, в соске+ коле+т
Не заметил что проблема не только в соске.
Цитата :

буквой Х сходятся четыре квадратных пли+ты тротуара.
Насколько я понял, эта фраза не совсем корректно согласована - либо квадратные плиты, либо квадратных плит. Втаких случаях возможны некорректности...
Цитата :

а бедняжка такая вялая и слабая, то и дело спо+лзает вниз и норовит зарыться своими бескостными ножками ей в грудь
Мы слышали, что у тебя там, дома+, есть невеста.
В этих примерах не очевиден правильный вариант даже для человека...
Цитата :

Он, должно+ быть, изрядно хватил за завтраком и, вздумав провести день в мо+ем обществе, готов был осуществить свое намерение хотя бы силой.
Этим увлекательным сообщениям о мо+ем соседе помешала миссис Мак-Ки
- И не забудьте: завтра в девять часов утра+ мы с вами отправляемся в по+лет на гидроплане.
У меня все нормально. Возможно, у Вас отключена ёфикация? Тогда такое решение программы наиболее правильно.

Всех остальных ошибок я вроде не видел - то ли пропустил, то ли Вы забыли выложить. Посмотрю.

Цитата :

Простенький файл с словами
"все Все ВСЕ"

возвращает после обработки
"все Все+ ВСЕ+"

если в noakc.dic стоит только "все+".
Понятно. Вроде нашел ошибку, постараюсь исправить.

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Чт Фев 26 2009, 21:01
Чт Фев 26 2009, 21:01

Поскольку меня всегда смущало слово "агрессивно", то ставил режим "агрессивно не ёфицировать", а в этом режиме показывает все-таки "зо+лы".
Если ёфикация необходима, прошу дать рекомендации - когда какой режим ёфикации выбирать.

Еще есть пожелание продумать возможность обновлять версию программы скачивая только измененую часть, а не все 14 МВ?

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Чт Фев 26 2009, 22:40
Чт Фев 26 2009, 22:40

ptoton
Цитата :
Поскольку меня всегда смущало слово "агрессивно", то ставил режим "агрессивно не ёфицировать", а в этом режиме показывает все-таки "зо+лы".
Если ёфикация необходима, прошу дать рекомендации - когда какой режим ёфикации выбирать.
Ёфикация необходима для не ёфицированных текстов. Агрессивно - это из-за того, что иногда при ёфикации могут быть ошибки (например шлем в особо сложном случае может неправильно замениться на шлём, или все на всё), но для не ёфицированного текста этих ошибок будет гораздо меньше, чем ошибок в режиме "агрессивно не ёфицировать". Первый режим предназначен для уже ёфицированных текстов, четвёртый - для не ёфицированных. Второй и третий режим сами определяют ёфицированность текста, оптимален третий режим (он и соит по умолчанию) - вроде на практике он обычно сбоев у меня не давал. Но если будет какой-нибудь очень короткий текст, или текст с сильно не среднестатистическим числом ё - может понадобиться выставить этот параметр вручную.
Кстати проблема с золой в новой версии поправлена и в случае "не ёфицирования".
Цитата :

Еще есть пожелание продумать возможность обновлять версию программы скачивая только измененую часть, а не все 14 МВ?
Особого смысла нет - максимальный размер у словаря и экшника, а так же hash-файла... Они больше половины размера занимают и меняются практически каждый раз.... Кроме того, для другой версии на сервере просто нет места (вариант "купить больше места" стоит денег)...

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Сб Фев 28 2009, 21:20
Сб Фев 28 2009, 21:20

Из предыдущих предложений через 42-ую версию не прошли
Спойлер:
 
Часть из них конечно непростые, и это уже обсуждалось.

Из новых пока есть чуть-чуть
Спойлер:
 

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Вс Мар 01 2009, 14:49
Вс Мар 01 2009, 14:49

ptoton
Спасибо, посмотрю.

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Вт Мар 03 2009, 10:44
Вт Мар 03 2009, 10:44

Еще по 42-ой версии
Спойлер:
 

Вернуться к началу Перейти вниз
Спонсируемый контент




 Спонсируемый контент ::


Вернуться к началу Перейти вниз

Ошибки синтеза замены и ударения

Предыдущая тема Следующая тема Вернуться к началу
Ошибки синтеза замены и ударения
Страница 2 из 3Страница 2 из 3На страницу : Предыдущий  1, 2, 3  Следующий
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении