|
| Ошибки синтеза замены и ударения | |
| |
Автор | Сообщение | Ошибки синтеза замены и ударения |
---|
lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Пн Янв 05 2009, 23:04 | Пн Янв 05 2009, 23:04 | |
| Несколько замечаний по поводу ударений в программе "Книгодел" и "ударятель". 1. Ударения раставляемые этой прогаммой для движка "Ольга", на первый взгляд вроде бы правильны. Т.е. в одном случае " ^ ", а в другом" ` " но читаются, вряде случаев, движком не правильно. пример совсе`м, прибе`гнуть . . . и т.д. На мой взгляд более правильно пользоваться одним знаком ударения " ' " для всех движков, а для каждого движка иметь словарь подстановки. (Я пользуюсь "Балаболкой"). Для Алёны - Цитата :
- *а'*=А
*е'*=Е *ё'*=Ё *и'*=И *о'*=О *о'я=Ойа *у'*=У *ы'*=Ы *э'*=Э *э'*=Э *ю'*=Ю *я'*=Я для Ольги - Цитата :
- *а'*=^а *э'*=^э *ю'р*=ю' ^'р *ю'ш*=ю' ^'ш *я'ж*=я' ^'ж *я'р*=я' ^'р *я'щ*=я' ^'щ
*е'*=е' ^' *ю'*=ю' ^' *ю'с*=ю' ^'с *ю'щ*=ю' ^'щ *я'з*=я' ^'з *я'с*=я' ^'с е'*=^е *е'е*=е' ^'йе *ю'е*=ю' ^'йе *ю'т*=ю' ^'т *я'*=я' ^' *я'й*=я' ^'й *я'т*=я' ^'т е'е*=^ейе *и'*=и' ^' *ю'к*=ю' ^'к *ю'ф*=ю' ^'ф *я'б*=я' ^'б *я'к*=я' ^'к *я'ф*=я' ^'ф и'*=^и *и'е*=и' ^'йе *ю'л*=ю' ^'л *ю'х*=ю' ^'х *я'в*=я' ^'в *я'л*=я' ^'л *я'х*=я' ^'х ю'*=^ю *о'*=^о *ю'м*=ю' ^'м *ю'ц*=ю' ^'ц *я'г*=я' ^'г *я'м*=я' ^'м *я'ц*=я' ^'ц ю'е*=^юйе *у'*=^у *ю'н*=ю' ^'н *ю'ч*=ю' ^'ч *я'д*=я' ^'д *я'н*=я' ^'н *я'ч*=я' ^'ч я'*=^я *ы'*=^ы *ю'п*=ю' ^'п *ю'р*=ю' ^'р *я'е*=я' ^'йе *я'п*=я' ^'п *я'ш*=я' ^'ш я'е*=^яйе С этими словарями ударений все слова совсе'м, прибе'гнуть . . . и т.д. будут звучать правильно.
2. Принципиально не верно ограничиваться простраением словоформ по словарю (наверное Зализняка)! Пример, что получается: с^олнечная буря`, незад^олго д^о начал^а. . . вобщем ошибок больше, чем движок Алёны или Ольги делает без расстановки ударений. Чтобы избежать таких ошибок нужен синтаксический разбор. Я делаю следующим образом - На сайте АОТ есть програмка www.aot.ru\download\shortrml.zip в которой находится файл " RML\Bin\VisualSynan.exe который делает разбор предложения и если навести курсор мышки на слово высвечиваются все атрибуты слова ( род, число, падеж, склонение и многое другое). Так вот, я написал некий парсер, который выделяет из текста предложение и передаёт его этой программе. В некой области памяти я получаю слова этого предложения со всеми атрибутами по которым ставится ударение (ищется слово в словаре Зализняка). Программа платная, и имеет ограниченное время пользования. Поэтому я не буду описывать хакерские приёмы для её использования. Приведу статистику - На восемь книг - 3 ошибки (несловарные слова я не учитывал). Порекомендую посмотреть бесплатный грамматический движок с сайта www.solarix.ru . Там описывается некий поисковик, используюший грамматический движок http://files.solarix.ru/for_developers/download/win/sdk-setup.exe и словари к нему http://files.solarix.ru/for_developers/download/win/dictionary-pack-premium.ru-en.exe только словари надо перкомпилировать с ударениями (компилятор тоже есть). Правда синаксис выдаётся в неочень удобной форме и чтобы связать это с морфологией надо приложить усилия. Зато омонимия снимается "на раз". Там есть пример " Пила лежала на полу " и " Кошка пила молоко ", так где глагол, а где сушествительное определяется чётко. Перевод чисел в числительные с нужным падежом там тоже есть и морфология есть. Я не програмист, поэтому может быть свою программу написать легче, чем использовать ихний Solarix_Grammar_Engine.dll, но описание функций библиотеки там исчерпывающее.
P.S. В "Книгоделе" не все тексты обрабатываются. То ли из-за длинны, то - ли из-за знаков каких либо непотребных, пока не понял, на выходе *_pre.txt пустой фацл. Функции Синтез(F3) и В файл(F4), тоже не работают ни для lame-3.92, ни для wav. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вт Янв 06 2009, 16:32 | Вт Янв 06 2009, 16:32 | |
| - Цитата :
- На мой взгляд более правильно пользоваться одним знаком ударения " ' " для всех движков, а для каждого
движка иметь словарь подстановки Спасибо, об этой особенности Ольги знал (то, что не всегда правильно ставятся ударения), но как обойти был не в курсе. Думаю, что в ближайшей версии это будет сделано. - Цитата :
- 2. Принципиально не верно ограничиваться простраением словоформ по словарю (наверное Зализняка)!
Пример, что получается: с^олнечная буря`, незад^олго д^о начал^а. . . вобщем ошибок больше, чем движок Алёны или Ольги делает без расстановки ударений. У меня и так делается разбор (то есть падеж, число и часть речи учитывается), возможно, не везде правильно (некоторые слова-исключения прерывают правильный разбор и т.д.). Насколько я знаю, большая часть омонимов определяется корректно. С указанными Вами фрагментами поэкспериментирую. - Цитата :
- P.S. В "Книгоделе" не все тексты обрабатываются. То ли из-за длинны, то - ли из-за знаков каких либо
непотребных, пока не понял, на выходе *_pre.txt пустой фацл.
А можно прислать файл, который не работает? |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вт Янв 06 2009, 18:23 | Вт Янв 06 2009, 18:23 | |
| - Цитата :
*а'*=^а *э'*=^э *ю'р*=ю' ^'р *ю'ш*=ю' ^'ш *я'ж*=я' ^'ж *я'р*=я' ^'р *я'щ*=я' ^'щ *е'*=е' ^' *ю'*=ю' ^' *ю'с*=ю' ^'с *ю'щ*=ю' ^'щ *я'з*=я' ^'з *я'с*=я' ^'с е'*=^е *е'е*=е' ^'йе *ю'е*=ю' ^'йе *ю'т*=ю' ^'т *я'*=я' ^' *я'й*=я' ^'й *я'т*=я' ^'т е'е*=^ейе *и'*=и' ^' *ю'к*=ю' ^'к *ю'ф*=ю' ^'ф *я'б*=я' ^'б *я'к*=я' ^'к *я'ф*=я' ^'ф и'*=^и *и'е*=и' ^'йе *ю'л*=ю' ^'л *ю'х*=ю' ^'х *я'в*=я' ^'в *я'л*=я' ^'л *я'х*=я' ^'х ю'*=^ю *о'*=^о *ю'м*=ю' ^'м *ю'ц*=ю' ^'ц *я'г*=я' ^'г *я'м*=я' ^'м *я'ц*=я' ^'ц ю'е*=^юйе *у'*=^у *ю'н*=ю' ^'н *ю'ч*=ю' ^'ч *я'д*=я' ^'д *я'н*=я' ^'н *я'ч*=я' ^'ч я'*=^я *ы'*=^ы *ю'п*=ю' ^'п *ю'р*=ю' ^'р *я'е*=я' ^'йе *я'п*=я' ^'п *я'ш*=я' ^'ш я'е*=^яйе
Попробовал указанные вами замены. Не работает. Особенно отвратно звучит на концах слов - Ольга в этом случае произносит название этой буквы (тэ вместо т), а в случае если остается что-то вроде "ть", произносит как (тэ мягкий знак). Можно, конечно, добавить проверку на то, конец это слова или нет, но все равно тогда останется проблема со словами с ударением на последнем слоге... |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Вт Янв 06 2009, 19:01 | Вт Янв 06 2009, 19:01 | |
| rquester - Цитата :
- но как обойти был не в курсе. Думаю, что в ближайшей версии это будет сделано.
Обходит ничего не надо. Появятся новые движки с какой нибудь буквой "зю" в виде ударения и опять придётся переделывать программу. Легче написать словарь замены ударений, опять же один и тот-же текст можно читать разными голосами без "перекомпиляции" под определённый вид ударений. В конце концов обмениваться текстами. Стандартизация-унификация, предполагают дальнейший путь развития, а обратное - тупиковая ветвь - это закон природы. " ' " - Это классика жанра, локанично и красиво. - Цитата :
- (некоторые слова-исключения прерывают правильный разбор и т.д.).
Для этого и нужен синтаксический анализ. В Solarix_Grammar_Engine.dll это выглядит так: Исходное предложение - - Цитата :
- Горы, скалистые и холодные, нависали над нами.
получаем- - Цитата :
- горы _и ( скалистые, холодные ) нависали ( [над нами] )
Связанные слова нажодятся на одном и томже уровне "вложенности", подчинённые на уровень ниже. Таким образом можно избавиться от "шума". Движок имеет встроенный Prolog, поэтому можно задавать свои правила обработки. Эту "фичу" можно вывести и для конечного пользователя. Вот что обязательно надо сделать - 1. пересечение множеств, т.е. при расстановки ударений учитывать лексикон голосового движка и не ставить ударения в этих словах. Это не значит, что надо делать экспорт из того, или иного словаря, а просто сравнивать с неким txt файлом известных слов. Пользователь сам наполнит его по своему усмотрению (ваариантов и методик по его наполнению множество). 2. (добавит, исправить) интерактивный вариант обработки омогафов, т.е. не автоматически обрабатовать амографы, а предоставлять выбор из вариантов - правилно нажимаем кнопочку "дальше", нет - ставится альтернатива. Я раньше так и делал в "ударятеле", сначала ставил все удаарения в тексте, потом вариант с омографами, затем в текстовом редакторе искал двойное ударение "<<" и проверял правильно ли? На эти "<" ударения сделал такие же словари замен для Ольги и Алёны, как писал раньше.
- Цитата :
- А можно прислать файл, который не работает?
http://bookaudi.ru/savered.php?file=113069 Мне кажется нужно описать все разрешонные знаки для фильтра, а остальное отфильтровывать. |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Вт Янв 06 2009, 19:05 | Вт Янв 06 2009, 19:05 | |
| rquester Я дал усечённый вариант словаря, думал что некоторые сочитания не нужны, сейчас сравню этот и старый варианты потом отпишусь. |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Вт Янв 06 2009, 19:40 | Вт Янв 06 2009, 19:40 | |
| rquester - Цитата :
- Попробовал указанные вами замены. Не работает.
Можно примерчик? Не могу подобрать сова, где не работает. Я чтото в регистрах прописывал для Ольги может это влияет... |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вт Янв 06 2009, 19:55 | Вт Янв 06 2009, 19:55 | |
| - Цитата :
- Для этого и нужен синтаксический анализ.
Так синтаксический анализ сейчас в программе есть (хотя и не в таком виде, как у приведённой Вами программы). Слова-исключения - это, грубо говоря, слова, отсутствующие в стандартном словаре программы (только в пользовательском или отсутствует и там и там). Если слово отсутствует в словаре, то и синтаксический анализ сделать сложно (догадывание по внешнему виду слова о его части речи пока в программе отсутствует, возможно, в следующих версиях эта возможность появится, но не факт). Просто на данный момент проблемы с простановкой ударений в имеющихся программах все-равно не дают программе развернуться... - Цитата :
Обходит ничего не надо. Появятся новые движки с какой нибудь буквой "зю" в виде ударения и опять придётся переделывать программу
Под новый движок все равно надо будет, скорее всего, переделывать, например, для Катерины нужно разбивать на слоги и заменять на большие букы - если делать это словарём замен, то нужен словарь из, как минимум, 33 в квадрате строк, то есть примерно 1000 строк. Проще в программе изменить... Да и для Ольги слишком много строк нужно... На данный момент, если очень нужно использовать программу для неизвестного ей движка, можно вывести в формат Николая, а потом с помощью простого макроса в Word'e сделать нужные замены...
С диалоговой обработкой омонимов, в принципе, вещь интересная, но в ближайшее время я её делать вряд ли буду (нет времени и, на мой взгляд смысла в этом немного - омонимов достаточно много, а подавляющее большинство угадывается правильно - тысячи раз подтверждать решение программы - замучаешься), вот сделать вывод только омонимов - это более вероятно...
- Цитата :
- Примерчик
"Соблазнить и вперёд", например. Оба слова читаются как соблазни тэ мягкий знак и вперё дэ. |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Вт Янв 06 2009, 20:34 | Вт Янв 06 2009, 20:34 | |
| rquester - Цитата :
- "Соблазнить и вперёд", например. Оба слова читаются как соблазни тэ мягкий знак и вперё дэ.
У меня всё работает, как часы. Попробую снести движок и почистить регистры, а потом установить заново Надо определить чего не хватает. - Цитата :
- (догадывание по внешнему виду слова о его части речи пока в программе отсутствует
Могу выложить таблицы окончаний, суффиксов и предлогов. По этим таблицам можно работать с такими предложениям - "Глокая куздра бодланула бокра." без словаря. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вт Янв 06 2009, 20:37 | Вт Янв 06 2009, 20:37 | |
| - Цитата :
- Могу выложить таблицы окончаний, суффиксов и предлогов. По этим таблицам можно работать с такими предложениям - "Глокая куздра бодланула бокра." без словаря.
В принципе, конечно, неплохо если выложите. Но быстро добавить все это в программу не обещаю... |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Вт Янв 06 2009, 20:59 | Вт Янв 06 2009, 20:59 | |
| rquester Завтра выложу.
Чтобы корректно работали словари подстановки для Ольги нужна такая запись.
[HKEY_LOCAL_MACHINE\SOFTWARE\Loquendo\LTTS7\default.session] "SpellingLevel"="pronounse" |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вт Янв 06 2009, 22:04 | Вт Янв 06 2009, 22:04 | |
| - Цитата :
- [HKEY_LOCAL_MACHINE\SOFTWARE\Loquendo\LTTS7\default.session]
"SpellingLevel"="pronounse" Спасибо, помогло, нужно будет рекомендацию отключить эту опцию, в комплекте с программой поставлять, а, возможно, и reg-файл. Правда, ошибочки чтения еще есть (например, ла^пы читает как лапЫ и вроде другие мелочи присутствуют), но уже гораздо лучше. Правда, я еще сделал прочтение по-старому, если ударная гласная находится в конце слова - иначе с последующей точкой получается какой-то бред (лишние звуки). |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Ср Янв 07 2009, 00:11 | Ср Янв 07 2009, 00:11 | |
| rquester - Цитата :
- (например, ла^пы читает как лапЫ и вроде другие мелочи присутствуют)
без ударения читается также. Это нельзя исправить даже редактором транскрипций, как например и слово кучу иногда приходится добавлять "ь", или лишнюю букву постепь^еннно Делали-то движок иностранцы, от этого и все беды. Интонация в предложениях, ошибки произношения в сочитаниях слов и совместно со знаками припенания, нет и некоторых фонем, присущих русскому языку. |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Ср Янв 07 2009, 00:19 | Ср Янв 07 2009, 00:19 | |
| Вообще-то надо писать л^апы, а не ла^пы, но ла'пы. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Ср Янв 07 2009, 12:35 | Ср Янв 07 2009, 12:35 | |
| - Цитата :
- Вообще-то надо писать л^апы, а не ла^пы, но ла'пы.
Это я опечатался, глючит именно вариант л^апы. P.S.: Ошибку с присланным файлом нашел, в следующей версии будет исправлено. |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Ср Янв 07 2009, 18:46 | Ср Янв 07 2009, 18:46 | |
| rquester Вот здесь таблицы окончаний. http://depositfiles.com/files/56c3kg8j5 1. Я чего то не понял почему не подходят словари перевода ударений Николай - Ольга? Здесь https://mytts.forum2x2.ru/forum-f12/tema-t165.htm Там не усеченные под Николая(в смысле его знака ударения "<" ">") заточенно.
2. Никак понять не могу, как у Вас будет определяться омограф в таком предложении? Сосны, XXX XXXXX XXXX, освещались XXXX. Мастерские, на улице XXXX, работали без XXXX. или В душе Ивана Иваановича не работает кран. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Чт Янв 08 2009, 12:51 | Чт Янв 08 2009, 12:51 | |
| - Цитата :
1. Я чего то не понял почему не подходят словари перевода ударений Николай - Ольга? Здесь https://mytts.forum2x2.ru/forum-f12/tema-t165.htm Там не усеченные под Николая(в смысле его знака ударения "<" ">") заточенно.
Используются словари со знаком + для ударения (файл easy.dic и он же в окне), кроме того не подходят словари со звездочками и сочетаниями слов... Скорее всего, в ближайшее время сделаю и стандартный словарь замены... - Цитата :
Никак понять не могу, как у Вас будет определяться омограф в таком предложении? Сосны, XXX XXXXX XXXX, освещались XXXX. Мастерские, на улице XXXX, работали без XXXX. В душе Ивана Иваановича не работает кран.
Тут все определяется корректно. И, по идее, в первых двух вариантах все однозначно. Но с душем/душой в некоторых контекстах проблемы могут быть проблемы - на данный момент те слова, которые анализируются по смысловому значению, могут не всегда корректно определяться. - Цитата :
- Вот здесь таблицы окончаний. http://depositfiles.com/files/56c3kg8j5
Спасибо, а что за обозначения в rgramtab.txt? Эф A С мр,ед,рд,2 Что значит цифра 2, Эф, А, С? - Цитата :
Попробуйте заглянуть сюда, и, если позволит время, полистайте тему, начиная с первой страницы.
Там обсуждается, в основном, именно синтезатор, а грамматический разбор почти не упоминается... |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Пт Янв 09 2009, 10:42 | Пт Янв 09 2009, 10:42 | |
| rquester ой что-то в 1_30b так много ударений понаставляла ...
- Цитата :
- Об истОрии создАния фИльма ничевО принципиАльно нОвово нЕ скажУ. кАк извЕсно, в тЫсяча девятьсОт девянОсто девЯтом годУ. телеканал эй-би-си заказАл пилОт сериАла МД, нО когдА <отвЕтственые лИца> посмотрЕли отснЯтый Линчем материАл, проЭкт зарубИли. пилОт лЁг нА полкУ И пролежАл тАм двА гОда. в двЕ тЫсячи пЕрвом годУ. европЕйские продЮсеры предложИли Линчу сдЕлать киноверсию МД. Линч доснял нЕсколько сцЕн, перемонтИровал пилОт, И получИлось тО, штО получИлось. вАжно здЕсь тО, кАк удалОсь Этими дополнИтельными сцЕнами объяснИть всЁ происходЯщее в пилОте, кАк удалОсь органИчно закОнчить тОлько начинАвшуюся истОрию. говорЮ срАзу - Я нЕ отклонЮсь Ат наибОлее распространЁново в линч-сообществе объяснЕния, штО бОльшая чАсть фИльма - сОн Дайаны Сэлвин. мОй Опус И Есть подтверждЕние Этой вЕрсии.
это с настройками (Алена со словарями омонимов) много много лишних ударений (читает и так нормально аленка) штО тО тАм двА - это ж не омографы зачем оно нужно?
можно ли как-то оставить только поиск омографов, замену Е=Ё и замену Е=Э там где пишется "е" а читается либо "ё" либо "э" без простановки ударений в тексте обычным словам?
и еще - как править или проставлять ударения для новых слов те которые выписываются в главное окно после поиска? прямо в окне ставить + и слово сохраниться в словарь и при следующем поиске будет ставить правильное ударение и не выскакивать при очередном поиске новых слов? или не так? |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Пт Янв 09 2009, 21:49 | Пт Янв 09 2009, 21:49 | |
| - Цитата :
- На данный момент проставляются все ударения (так как программа писалась, в первую очередь для своего голосового движка). В одной из следующих версий, возможно, будет сделано.
- Цитата :
- Цитата:
можно ли как-то оставить только поиск омографов, замену Е=Ё и замену Е=Э там где пишется "е" а читается либо "ё" либо "э" без простановки ударений в тексте обычным словам? В принципе, можно, но не в текущей версии. это было бы очень здорово, и актуально особенно для Алёны
- Цитата :
- Да либо в формате
Петю+нечка либо Петюнечка=Петю+нечка т.е. можно прямо в этом окне редактировать и слово сохраниться в словарь и при следующем поиске будет ставить правильное ударение и не выскакивать при очередном поиске новых слов? если например есть слово Петюнечка=Петю+нечка то при следующем поиске в другом тексте мне Петюнечка снова не выскочит в этот список, т.е. он как бы один для всех или каждому свой? |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Пт Янв 09 2009, 22:44 | Пт Янв 09 2009, 22:44 | |
| rquester Уже гараздей! Замечания: 1. Не ставить двойные ударения для ольги. - Цитата :
- зе' ^мли` с ме`ст^а п^ушк^у
У Ольги по определению не может быть два открытых звука! В словарьях это сплошь и рядом, но здесь не проходит. 2. Нельзя ли всётаки сделать " ' " такое ударение?! Это ведь не трудно. Попробовал со своей таблицей ударений для " ' " звучит гораздо лучьше. Пока не понял вчём дело - разбираусь. 3. Надо отфильтровывать "<<" и ">>", иначе в обработанном тексте остаётся < XXX >, воспринимается как тэг. 4. В описании не нашоел, что такое Olga Loguendo и Olga (с заменами). Никаких замен я не делал, но ошибок во втором случае меньше. 5. А Крафаген должен быть созжон! - Цитата :
- ^а тре' ^тий п^олет преврати' ^лся
Слово с двух сторон окруженно конкретизирующими совами, однако . . . |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Пт Янв 09 2009, 22:51 | Пт Янв 09 2009, 22:51 | |
| evilone_ - Цитата :
- т.е. можно прямо в этом окне редактировать и слово сохраниться в словарь и при следующем поиске будет ставить правильное ударение и не выскакивать при очередном поиске новых слов?
Да, по крайней мере должно. Если не будет работать - пишите, буду разбираться.
- Цитата :
- программе Говорящяя Мышь (ссылку я давал) тоже пишут, что применяют несколько сотен правил для разрешения омонимии, а рзультат один к однома как у Вас. Это говорит о том, что подход не верный!
Я несколько книг озвучивал с помощью моего алгоритма - число ошибок распознавания омонимов минимально (одна-две на весь файл, размером около 600К). Причем большинство ошибок - напрямую после глагола, над этим работаю... Остальные ошибки, в основном, это реальная неоднозначность, то есть проблема уже на смысловом уровне. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Пт Янв 09 2009, 23:05 | Пт Янв 09 2009, 23:05 | |
| lev55 - Цитата :
- Не ставить двойные ударения для ольги.
Вроде не должны ставиться, это, скорее всего, ошибка при конвертировании в формат Ольги, посмотрю. - Цитата :
- Нельзя ли всётаки сделать " ' " такое ударение?! Это ведь не трудно.
В программе конкретный символ много где используется, переделывать все сложно, а толку мало. Кстати ' используется в текстах достаточно часто - в именах типа О'Браен и иногда вместо обычных кавычек (особенно когда, скажем, название используется в прямой речи). - Цитата :
Надо отфильтровывать "<<" и ">>", иначе в обработанном тексте остаётся < XXX >, воспринимается как тэг
Посмотрю что можно сделать. - Цитата :
- В описании не нашоел, что такое Olga Loguendo и Olga (с заменами).
Никаких замен я не делал, но ошибок во втором случае меньше. Первый вариант - это тот, что был у меня раньше, а Olga (с заменами) - это тот алгоритм, который Вы приводили (который требует измененного реестра). - Цитата :
- ^а тре' ^тий п^олет преврати' ^лся
Слово с двух сторон окруженно конкретизирующими совами, однако .
Да, проблема, постараюсь исправить. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Пт Янв 09 2009, 23:15 | Пт Янв 09 2009, 23:15 | |
| lev55 Не знаю, у меня никаких проблем с << >> и лишними ударениями на указанных вами фразах. Вот что получилось: - Цитата :
в^от <<маши' ^на>> крут^а. в^от зе' ^мли с ме' ^ста пушк^у.
Может, конкретный файл (фрагмент файла) пришлете? |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Пт Янв 09 2009, 23:50 | Пт Янв 09 2009, 23:50 | |
| rquester
Бад Тук встретил Шиобэн, прилетевшую на «Комарове», как и раньше. - Цитата :
- Бад т^ук встре' ^тил Шиобэн, прилете' ^вшую н^а <камараве>, к^ак ^и р^аньше.
Роуз, порой вы разговариваете, как мой водопроводчик. «Вам крышка» – это неверно сказано. Очень важно верно подбирать слов^а. Это не мо^я проблема, а наша. Так что крышка всем нам. Бад Тук, глядевший на Шиобэн с другого софт-скрина, негромко рассмеялся.
- Цитата :
- р^оуз, пар^ой в^ы разгав^ариваете, к^ак м^ой вадаправ^одчик. <в^ам кр^ышка> - ^это неве' ^рно ск^азано. ^очень в^ажно ве' ^рно падбир^ать сл^ов^^а. ^это не` м^о^^я прабле' ^ма, ^а н^аша. т^ак шт^о кр^ышка все' ^м н^ам.
И нужна такая функция, сверьяться с неким txt файлом, где описаны слова в которых не надо ставить ударьения, т.е. те слове которые описанны sampo -й в системных словарьях.
P.S. С двойным ударением тема снята, сам дурак, прошу прощения! А скобочки стрелочки присутствуют. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Сб Янв 10 2009, 00:07 | Сб Янв 10 2009, 00:07 | |
| lev55 А с угловыми кавычами... А я проверял (как у Вас и было написано) с меньше/больше. Посмотрю. - Цитата :
- И нужна такая функция, сверьяться с неким txt файлом, где описаны слова в которых не надо ставить ударьения
Большой файл будет... А вообще сделать такое можно... |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Сб Янв 10 2009, 17:01 | Сб Янв 10 2009, 17:01 | |
| evilone - Цитата :
- другом тексте мне Петюнечка снова не выскочит в этот список, т.е. он как бы один для всех или каждому свой?
Так точно сударыня, для всьех-с, и даже для всех голосов. Всё пишется в easy.dic. rquester Пожелания, замечания: - Цитата :
- по которым = p@#kVt"or1m#
па которым = p"a#kVt"or1m# Такие подстановки под разговорную речь не допустимы!!! Движок сам корректно делает такую замену, а поэтому крайне необходим файл содержащий слова в которых не надо ставить ударения. Не только слова, но ирегулярные выражения, типа - *го (регулярного=регулярнова) Вот ещё примеры
- Цитата :
- защитного поля - защи' ^тнаво паля`
В последнем примере сразу две ошибки, но об этом потом.
- Цитата :
- но толпа почти не обращала на них внимания.
- Цитата :
- н^о талп^а пачти` не` абращ^ала н^а них< вним^ания.
. . . . . . . . После тега пропадает весь абзац! Коль ударения для Алёны и Ольги ставятся по < и > корректней делать подстановку как сделанно у Stroodder https://mytts.forum2x2.ru/forum-f12/tema-t165.htm Я уже писал об этом. Там есть такие сочитания: их<*=^их и их>^их, а у меня таких сочитаний нет, потому что они не нужны для " ' "! И вообще они отличаются. - Цитата :
- не подходят словари со звездочками и сочетаниями слов
(Причём здесь звёздочки и сочитания,звёздочки убрать, а слов там вообще нет. Надо сначала разобраться а потом писать!) От этого и наблюдаемые фифекты речи. Я не просто ведь ратую за " ' ", дело в том что существует некая специфика движков, проявляется она в том, что слово отредактированное в редакторе, допустим Балаболки, и звучащие там правильно, зачастую не правильно звучит в предложении и наоборот. А за счёт словарей замены ударений в подовляющем большинстве достигается положительный эффект, особенно с " ' " (полученно опытным путём). Тем более, что бинарник наверное имеет вид - Цитата :
- водка#во'дка,во'дки,во'дки,во'док,во'дке,во'дкам,во'дку,во'дки,во'дкой,во'дкою,во'дками,во'дке,во'дках
Утверждения - Цитата :
- Кстати ' используется в текстах достаточно часто - в именах типа О'Браен и иногда вместо обычных кавычек (особенно когда, скажем, название используется в прямой речи).
не состаятельны, ведь уши нам даны для слуха, а не для зрения, и какая стоит разметка ' XXXX ' или " XXXX ", по барабану, весь мусор длжен фильтровться на входе. В случае - Цитата :
- О'Браен
скорее ударение чем разделитель и нет механизмов озвучивания таких тяжолых случаев.
Теперь о синтаксическом анализе: - Цитата :
- родной звезды - радн^ой звё' ^зды ^
другой звезды - друг^ой звё' ^зды такие ошибки имеют регулярный характер, на странице 23 штуки, а не - Цитата :
- (одна-две на весь файл, размером около 600К)
В Балаболке это решается так *ой звезды=ой звезд^ы Не понятно, какие вообще правила работают у вас, их нет!!! (Начинаем всьё сначала) Поэтому такое предложение, вынести отдельным модулем грамматику и лучше сделать это на Прологе. Этот язык, как нельзя лучше подходит для этих целий, не даром подавляющее большинство грам. движков сделанно именно на нём. Дать открытый код или возможность внесения правил для заинтересованных людей. Не надо иметь семь пядей во лбу, чтобы написать правило на прологе! Что касается тезаоруса (понятно для чего), то создание его измеряется в человеко/часах, как ребята словари для Алёнки делают. Оформить это можно dll-кой. Если интересно то есть наработки, могу всё расписать и грам. движок тоже. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Сб Янв 10 2009, 18:06 | Сб Янв 10 2009, 18:06 | |
| - Цитата :
- Движок сам корректно делает такую замену, а поэтому крайне необходим файл содержащий слова в которых не надо ставить ударения
Уже сделал (правда, пока не выложил), правда без регулярных выражений. Будет неплохо, если Вы выложите реальный файл словаря (пробовал на маленьком файле - все работает, а на большом пока нет, а желательно)). - Цитата :
- Я не просто ведь ратую за " ' ", дело в том что существует некая специфика движков, проявляется она в том, что слово отредактированное в редакторе, допустим Балаболки, и звучащие там правильно, зачастую не правильно звучит в предложении и наоборот
Программа предназначена для универсальной работы с любыми программами синтеза, вся движкозависимая логика - только на самом последнем этапе, это основной принцип. Соответственно и символ должен быть один для всех движков. - Цитата :
- н^о талп^а пачти` не` абращ^ала н^а них< вним^ания
Это просто ошибка то ли в программе, то ли в словаре. Буду искать. С заменами это вообще никак не коррелирует.
- Цитата :
- Тем более, что бинарник наверное имеет вид
Цитата: водка#во'дка,во'дки,во'дки,во'док,во'дке,во'дкам,во'дку,во'дки,во'дкой,во'дкою,во'дками,во'дке,во'дках Нет, он имеет вид ближе к следующему: во+дка <тип склонения> <тип ударения> То есть слово во всех словоформах не хранится. - Цитата :
- скорее ударение чем разделитель и нет механизмов озвучивания таких тяжолых случаев.
Это не тяжелый случай, а стандартный для ирландских фамилий. - Цитата :
- такие ошибки имеют регулярный характер, на странице 23 штуки
Если вы специально искали ошибки в определении омонимии, и сделали файл только из сложных случаев - возможно. Но на обычных текстах ошибки именно единичные. По крайней мере, на тех, которые я пробовал. - Цитата :
- Не понятно, какие вообще правила работают у вас, их нет
Правила работают многие, но иногда возникает внутренний конфликт правил... - Цитата :
- Поэтому такое предложение, вынести отдельным модулем грамматику и лучше сделать это на Прологе.
Пролог - вообще мертвый язык, и делать что-то на нём - это выкидывать время в мусорную корзину. - Цитата :
- Дать открытый код или возможность внесения правил для заинтересованных людей.
А то, что я потратил кучу времени для его создания? Хотя если Вы готовы оплатить выкладывания свободного кода - я "за". Для оценки примерной суммы - прикиньте зарплату за год-два работы программиста высокого уровня... - Цитата :
- Что касается тезаоруса (понятно для чего), то создание его измеряется в человеко/часах, как ребята словари для Алёнки делают.
Так тезаурусы вроде есть, причем можно найти даже бесплатные... Или речь о каких-то специфических словарях? |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Сб Янв 10 2009, 18:27 | Сб Янв 10 2009, 18:27 | |
| rquester - Цитата :
- Это просто ошибка то ли в программе, то ли в словаре. Буду искать. С заменами это вообще никак не коррелирует.
Вы не поняли, в моей таблице замен нет могих сочитаний и программа не найдя сочитания ставит <. Искат ничего не надо, надо скачать отсюда https://mytts.forum2x2.ru/forum-f12/tema-t165.htm Я сотый раз пишу, а вы даже посмотреть не хотите! - Цитата :
- Программа предназначена для универсальной работы с любыми программами синтеза, вся движкозависимая логика - только на самом последнем этапе, это основной принцип. Соответственно и символ должен быть один для всех движков.
Зкамена ударений должна происходить не в вашей программе а допустим в Балаболке или ещё где, это принципиально!!! Иначе эффекта не будет, и от кортавости не избавиться. - Цитата :
- Это не тяжелый случай, а стандартный для ирландских фамилий.
Да хоть для африканской, как это со звуком связанно? - Цитата :
- Если вы специально искали ошибки в определении омонимии,
Обычный расказ Кларка "Солнечная буря". - Цитата :
- Хотя если Вы готовы оплатить выкладывания свободного кода
На этом форуме, уже надо платить? Одно из двух, или Вы издиваетесь, или кто-то здесь ненормальный, чувствую, что не я! |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Сб Янв 10 2009, 18:47 | Сб Янв 10 2009, 18:47 | |
| - Цитата :
- н^о талп^а пачти` не` абращ^ала н^а них< вним^ания.
Ошибка у меня, не у Вас, я попробовал у себя этот текст, и у "них" тоже ударение не правильное. Буду исправлять. Словари замен смотрел... - Цитата :
- Зкамена ударений должна происходить не в вашей программе а допустим в Балаболке или ещё где, это принципиально!!!
Иначе эффекта не будет, и от кортавости не избавиться. В каком смысле не будет? Сейчас конвертируешь текст в формате Николая - и Николай хорошо читает все. Для остальных движков, конечно, хуже, но это уже проблема движков... А если через неделю выйдет еще движок, то все словари переделывать? Если у движка проблема с какими-то определёнными словами - вариант со словарями "не простановки", конечно, возможен, но это - скорее исключения, чем правила. Иначе и поиск неизвестных слов работает не совсем правильно (по словарю программы+пользовательскому словарю), а не по словарю движка и т.д. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Сб Янв 10 2009, 19:04 | Сб Янв 10 2009, 19:04 | |
| Ошибку с "них<" исправил, когда выложу новую версию, все должно быть нормально. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Сб Янв 10 2009, 21:29 | Сб Янв 10 2009, 21:29 | |
| - Цитата :
- Обычный расказ Кларка "Солнечная буря".
Посмотрю. На тех текстах, на которых я тестировал ошибок было очень мало - Цитата :
- Цитата:
На этом форуме, уже надо платить?
За посещения форума вроде нет . А вот еслии хотите получить исходные тексты Книгодела - надо. Если они Вам действительно нужны. Так же если Вы активно будете пользоваться программой, желательно поддержать разработчика, чтобы у него был стимул ее дорабатывать (номера кошельков есть на сайте)... А интерфейсом все равно на всех не угодишь... Один любит скины, другой не любит, один любит пиктограммы - другой нет, один любит когда окошко кривое и розовое, другой терпеть не может... Поэтому если что-то конкретное требуется от интерфейса я и предложил доработать под условия заказчика на платной основе... |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Сб Янв 10 2009, 23:03 | Сб Янв 10 2009, 23:03 | |
| Рассказа "Солнечная буря" у Кларка не нашел, нашел роман. Посмотрел 1% текста (около двух страниц с одинарным интервалом и 12 пунктовым шрифтом). Ошибки: 1.пу<стынной - подправлю приоритет, а так практичски никакой разбор не даст правильного различия пу<стынный (от пустынь) и пусты<нный (от пустыня) 2.кулаком гла<за - этот вариант так же требует смыслового разбора - компьютер естественно не знает, что в состав глаза не входит кулак (у инопланетян, кстати, может входить). Если использовать так же глагол протёр, то, если бы была информации о то, какими падежами он управляет, то это можно было бы использовать, но это информации, по крайней мере, у меня нет. 3.на пару< размеров - вот это устойчивое сочетание, его можно исправить 4.что-то надорвалось в гру<ди у Бисезы - пожалуй, ошибка разбора 5.пропитанного пото<м песка - песок можно пото<м пропитать, без разбора смысла вряд ли что-то изменится 6.была вода с лу<ны - тут алгоритм дает сбой, признаю ошибку 7.на южном полюсе лу<ны - разобрать не учитывая контекст и смысл так же невозможно, если, конечно, не использовать то, что Луна написана с большой буквы (но это уже частное решение, которое, конечно, могу добавить) 8.через несколько ми<нут - ошибка, буду думать как исправить Итого на две страницы: 8 ошибок, из которых реально проблема разбора - 3. Конечно, это не три ошибки на весь текст (хотя на тех текстах, что я пробовал - примерно такое количество ошибок), но и не 23, которые вы указали (если укажете в каком именно месте такое количество ошибок, это поможет их исправить).
Еще можно посчитать ошибкой "жизнеобеспе<чение", но в словаре слово так и записано. Если нравится жизнеобеспече<ние, то можно просто добавить его в пользовательский словарь. |
|
| | | Leopold Интересующийся
Сообщений : 8
Репутация : 1
| Leopold | :: Сб Янв 17 2009, 23:39 | Сб Янв 17 2009, 23:39 | |
| Из приведенного вами списка слова допела, пела, ноздрей, переть, потереть, похлеще, припереть, прочесть, утереть читаются совершенно нормально (только что попробовал). Слова мел/мёл, мер/мёр, смел/смёл и шлем/шлём действительно проблемные (хотя вроде занеся в easy.dic можно заставить читать как хочется). Слова обрётшие, привёдшая, провёдшего действительно читаются с ё, но во-первых, не факт что этот вариант неправильный (вроде в словарях я именно такой вариант встречал), а во-вторых, вроде в программе эти слова как омонимы не обозначаются (в режиме только омонимов они не выводятся) - т.е. решить проблему можно с помощью easy.dic, занеся правильный (на ваш вкус) вариант туда. И, соответственно, это будет работать для всех движков... По поводу не и как-то, когда-то... - проблем не замечал, нормально все синтезируется (может, конечно, разные версии движка). Если что - можно использовать словарь исключений (вроде появился в версии 1.31, по крайней мере, на сайте сказано что появился), куда занести специально распознаваемые движком слова... |
|
| | | unknown V.I.P.
Сообщений : 73
Репутация : 11
| unknown | :: Ср Янв 21 2009, 16:08 | Ср Янв 21 2009, 16:08 | |
| rquester Спасибо за новую версию и новый подход.
Некоторые ошибки. хотели хотэ<ли хоте<ли хотелось хотэ<лось хоте<лось много мно<во мно<го плавно плавно< пла<вно вилку вилку< ви<лку было бы лучше разъяснил разъя<снил разъясни<л еды е<ды еды<
Некоторые пожелания. а<т винта атвинта< или отвинта< а<т сочу<ствия а<т сча<стья а<т все<х а<т батаре<й а<т лю<ка а<т бе<рега ... и другие подобные сочетания с частитецей "от" если невозможно сделать 2-й(атвинта<) или 3-й(отвинта<) вариант лучше оставить "от" Тоже самое и с частицей "по" па< восто<чному павоcто<чному или повосто<чному если не возможно, то лучше оставить "по" **************************** кого-то кого<то или ково<то ...и все слова с "-то" **************************** и на закуску
- Спойлер:
без всяких=безъвся<ких без всякого=безъвся<кого без всякой=безъвся<кой без злости=безъзло<сти без камней=безъкамне<й без меня=безъменя< без надобности=безъна<добности без него=безънево< без разбора=безъразбо<ра без слов=безъсло<в без сожаления=безъсожале<ния без сознания=безъсозна<ния без тебя=безътебя< без того=безътово< без труда=безътруда< без этого=безъэ<того вот что=вотшто всё равно=всеравно< не вело=невело< не видно=неви<дно не вовремя=нево<время не выдержал=невы<держал не высохнут=невы<сохнут не должен=недо<лжен не здоровается=нездоро<вается не казнили=неказни<ли не меньше=неме<ньше не мог=немо<г не может=немо<жет не надо=нена<до не обратит=необрати<т не пользуются=непо<льзуются не помогло=непомогло< не понадобятся=непона<добятся не понял=непо<нял не почувствовал=непочу<вствовал не превышала=непревыша<ла не привык=непривы<к не пригодится=непригоди<тся не придумаешь=неприду<маешь не придумал=неприду<мал не пруд=непру<д не расшибить=нерасшиби<ть не смеются=несмею<тся не смог=несмо<г не собирался=несобира<лся не совсем=несовсе<м не станет=неста<нет не сумеет=несуме<ет не так=нета<к не таким=нетаки<м не хотели=нехоте<ли не хотелось=нехоте<лось общем–то=о<бщемто он–то=о<нта что ли=что<ли не покажет=непока<жет не знаю=незна<ю не могу=немогу< не оставил=неоста<вил не стал=неста<л ...и другие подобные
Некоторые непонятки. Да и еще непонятно зачем проставляется ударения в: а<, за<, и<, не<, мы< и т.д., т.е. в простых односложных словах и частицах. Просто некоторые. Если вы готовы продолжать работать в этом направлении и дальше,то буду и дальще предлагать корректировки произношения и искать ошибки. Например много слов,где хотелось бы,чтобы "е" произносилось как "э",или слова с двойными согласными(например: автокоррекция,коррозионный),где для уха полезнне одна "р" Всё вышесказанное конечно же относиться к подготовке текста для Николая(mme или telecom). А вот rep.dic пока работает криво.Вы сами пробовали его в деле,хотя-бы с включёнными вами правилами? |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Ср Янв 21 2009, 16:50 | Ср Янв 21 2009, 16:50 | |
| slag - Цитата :
- Спасибо за новую версию и новый подход.
Так подход вроде тот же остался. Или Вы о диалоге настроек?
За найденные ошибки - спасибо, постараюсь исправить. С предлогами по и от (а так же не и же) - у меня даже сделан блок для этого, но он находится в блоке синтеза (если синтезировать своим движком это работает), но постараюсь перенести. - Цитата :
- а<, за<, и<, не<, мы< и т.д., т.е. в простых односложных словах и частицах.
Заодно... Кроме того, это полезно для встроенного синтезатора книгодела (некоторые алгоритмы проверки на это завязаны, не надо искать первый ударный слог...)
- Цитата :
- Если вы готовы продолжать работать в этом направлении и дальше,то буду и дальще предлагать корректировки произношения и искать ошибки.
Да, это будет полезно.
- Цитата :
- А вот rep.dic пока работает криво.Вы сами пробовали его в деле,хотя-бы с включёнными вами правилами?
Эти правила включены как пример. С конкретно этим вариантом не пробовал, но с другими правилами текстировал. А что не так? И учли что правила применяются на последнем этапе (перед преобразованием в формат движка), то есть должны задаваться с ударениями (+)? |
|
| | | unknown V.I.P.
Сообщений : 73
Репутация : 11
| unknown | :: Ср Янв 21 2009, 20:21 | Ср Янв 21 2009, 20:21 | |
| rquester Новый подход в этом - Цитата :
- ...чтобы помочь Николаю воспроизводить текст хоть немного приблеженным к нормальной человеческой речи при чтении вслух.
Мне импонирует,что вы в новой версии сделали шаг в эту сторону, кстати в этом и состоял мой воспрос -"будете ли вы дальше это развивать?" На мой взгляд это будет хорошей отличительной особенностью вашей программы. - Цитата :
-
- Цитата :
- Цитата:
а<, за<, и<, не<, мы< и т.д., т.е. в простых односложных словах и частицах. Заодно... Кроме того, это полезно для встроенного синтезатора книгодела (некоторые алгоритмы проверки на это завязаны, не надо искать первый ударный слог...) Про встроенный синтезатор ничего пока не скажу, однако Николай, и так не отличается плавностью речи, а эти ударения ёще больше делают её отрывистой. Можно для примера прослушать: - Код:
-
э<то же< хорошо< бы< за< собо<й. э<тоже хорошо<бы засобо<й.
но< я< не< могла< предста<вить. но я немогла< предста<вить. Но пока такие изменения нам недоступны в вашей программе, поэтому, можно предложить, после обработки текста, прогонять его ещё раз в Балаболке по CTRL+T со словарем .dic примерно следующего содердания: - Код:
-
* а< *= а * во< *= во * всё< *= всё * её< *= её * за< *= за * и< *= и * ли< *= ли< * на< *= на * не< *= не * но< *= но * ра<з *= раз * та<к *= так * я< *= я * мне< *= мне и т.д. Пробелы обязательны после звёздочки,перед следующей звёздочкой,и в заменах до и после слова.(Это прокатит если вы избавились от кавычек,скобок многоточий в тексте, и т.п., а если нет то надо создавать соответствующие правила замены).
Некоторые ошибки. тощая тоща<я то<щая(предпочтительнее) громко громко< гро<мко(предпочтительнее) столиком столи<ком сто<ликом(предпочтительнее) |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Чт Янв 22 2009, 00:40 | Чт Янв 22 2009, 00:40 | |
| - Цитата :
- Мне импонирует,что вы в новой версии сделали шаг в эту сторону, кстати в этом и состоял мой воспрос -"будете ли вы дальше это развивать?"
В принцип, это было и в предыдущих версиях (кое-что с недавних пор, а кое-что и давно), просто, так получилось, что для Николая этот режим не работал (так как он большинство слов сам корректно смягчает), в этой версии появилась опция, поэтому сделано чтобы меняло везде. - Цитата :
- На мой взгляд это будет хорошей отличительной особенностью вашей программы.
Так вроде и вообще толковой расстановки ударений с большим процентов различием омонимов нет... Если бы была - добавить все эти мелочи не очень трудно... - Цитата :
- Но пока такие изменения нам недоступны в вашей программе, поэтому, можно предложить, после обработки текста, прогонять его ещё раз в Балаболке по CTRL+T со словарем .dic примерно следующего содердания:
Насколько я знаю, если написать в словаре rep.dic а+=а во+=во ... то всё будет корректно работать (если целиком слово - звёздочек не надо, в программе проверяется на слово целиком если звёздочки нет с одной из сторон). Если не работает - напишите, я постараюсь исправить... То есть: приве+т=прю+вет Заменит все соответствующие целые слова *приве+т*=прю+вет все слова содержащие привет (выражение указывать тоже можно) приве+т*=прю+вет все слова начинащиеся с привет *приве+т=прю+вет все слова заканчивающиеся на это P.S.: правда, в текущей версии будет проблема если перед/после слова идёт нестандартный символ вроде двоеточия или скобки,в следующей версии планирую это исправить. P.P.S.: Также можно воспользоваться файлом noakc.dic, в котором перечислены те слова, которы нужно оставить без ударения. В этом файле слова должны быть отсортированы (стандартная сортировка строк, включая ударения, отсортировать можно досовской (есть и в Windows) sort с ключом /L "C"). То есть туда нужно занести: а+ во+ ... |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Чт Янв 22 2009, 06:15 | Чт Янв 22 2009, 06:15 | |
| Кстати, если написать rep.dic: по+ *=по не+ *=не без+ *=безъ *-то=то * же+=же ... то программа как раз сделает то, что Вы предложили... У меня, по крайней мере, работает...
P.S.: До выхода новой версии там же можно исправить "столиком", "тощая"... |
|
| | | ptoton Бывалый
Сообщений : 108
Репутация : 25
| ptoton | :: Чт Янв 22 2009, 11:32 | Чт Янв 22 2009, 11:32 | |
| Рассмотрите, пожалуйста, возможность исправить в следующей версии следующее:
- Спойлер:
это более зрелищно: когда клюшка на части< разлетается
Нужно только хоро<шенько стукнуть клюшкой по чему-нибудь
Найти кабинет Цунева оказалось несложно - бо<льшая табличка с его фамилией и должностью виднелась издалека
Конкретная ситуация та<кая: мы купили права< на трансляцию
нам ну<жны, в первую очередь, те, кто досмотрит матч до конца
Подобные схемы используют все< ко<му не лё<нь
между любыми спортивными играми можно найти обще<е
везде, есть победители и побежденные, везде есть судьи<
Цунев провел гостя< по коридорам телецентра
Вместо су<кна используется лед
Особенно, если шар при этом попа<дает в лузу
В качестве вспомогательных ша<ров используются сами игроки
подсчет забитых ша<ров сквозной
смо<трите трансляцию хоккейной игры<, само<й живой и динамичной разновидности бильярда, в следующее воскресенье
Сергей отда<л пропуск ва<хтеру (во все предыдущих случаях было "вахтёр")
|
|
| | | ptoton Бывалый
Сообщений : 108
Репутация : 25
| ptoton | :: Ср Янв 28 2009, 09:21 | Ср Янв 28 2009, 09:21 | |
| Новая версия стала лучше различать омонимы. - Спойлер:
В рассказе "Хоккей" остались только из замеченных мной с глазу< на глаз (но это можно исправить Балаболкой и) бо<льшая табличка (и не было обещано исправить)
Правда появилось новое:
Так вот, сейчас только-только закончился "Бильярд со звездами", поэтому зритель приме<т любую бильярдную передачу на ура.
Кроме того, не пойму почему стали заменяться такие слова как именно на и<мено общее на о<пщее без отметки "записывать слова как читаются".
Если можно, в режиме "Только омонимы [export]" желательно было бы убрать ударения в цифрах.
Напоследок несколько новый предложений:
- Спойлер:
Гулиа предсказывает маховикам то буд<ущее, которое стало реальностью совсем недавно. (для Алёны это слово изменяется на буДущее)
как бы<ло назва<но это новшество
Гулиа опубликовал сотни научно-популярных ста<тей практически во всех издаваемых в СССР, а пото<м в России массовых научно-популярных журналах.
По правде говоря, профессора< Гулиа я знал еще с детства, моего, разумеется.
С начала< семидеся<тых годов прошлого ве<ка (звучитто как - "прошлого ве<ка", как будто - "до на<шей эры"!) была чрезвычайно популярной научно-познавательная телепередача "Это вы можете!".
Вот таким я и запомнил профессора< Гулиа с экрана телевизора, и надо сказать, таким же он оказался и в жизни.
|
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Ср Янв 28 2009, 14:46 | Ср Янв 28 2009, 14:46 | |
| ptoton Спасибо за найденные ошибки. Постараюсь поправить. Но ошибки с общее, будущее и именно у меня не проявляются. Возможно, они в каком-то из Ваших словарей (rep.dic, fon.dic, easy.dic, словарях для читалки)? Если не найдёте в своих данных ошибки, укажите, точно при каких опциях выдаёт ошибочные данные и, если нетрудно, выложите ошибочный файл... P.S.: При включённой фонетике общее и именно действительно меняются, но вот при выключенной.... Со словом общее, в принципе, была ошибка, но не такая, как Вы описываете. Ту ошибку о которой я говорю (в некоторых случаях ставилось двойное ударение) я уже поправил, в новой версии должно быть нормально. |
|
| | | ptoton Бывалый
Сообщений : 108
Репутация : 25
| ptoton | :: Ср Янв 28 2009, 16:04 | Ср Янв 28 2009, 16:04 | |
| Распаковывал новую версию поверх старой. Сейчас удалил все файлы и распаковал на чистое место. Действительно "именно" и "общее" теперь не изменяются. Буду осторожнее.
Но "буд<ущее" получилось опять. Даю ссылку на файл.
http://webfile.ru/2592247 |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Ср Янв 28 2009, 19:18 | Ср Янв 28 2009, 19:18 | |
| ptoton Ошибку с "будущим" отловил и уже исправил. Спасибо. |
|
| | | ptoton Бывалый
Сообщений : 108
Репутация : 25
| ptoton | :: Чт Янв 29 2009, 09:08 | Чт Янв 29 2009, 09:08 | |
| Посмотрите, пожалуйста, отмеченные мной предложения в повести Вернора Винджа "Куки-монстр". Он был обработан Книгоделом 1.33b с опцией "только омонимы" (омографы). Потом в файле было отмечено, все что хотелось бы поправить.
Сразу оговорюсь, что все спорные по Вашему мнению случаи оставляю на Ваше усмотрение. Что-то наверное пропущено, что-то отмечено зря. Надеюсь, что это поможет в разаработке алгоритма и совершенствовании программы "Книгодел". Vindzh_Kuki-monstr.txt - исходный файл. Vindzh_Kuki-monstr_pre.doc - файл с отмеченными предложениями или словами.
http://webfile.ru/2594397 |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Чт Янв 29 2009, 17:57 | Чт Янв 29 2009, 17:57 | |
| ptoton Предыдущие ошибки уже исправил (кроме одной с профессором, она в ближайших версиях вряд ли будет исправлена - и неизвестное слово мешает алгоритму работать и расположение перед глаголом). Ударение на числах сделал отдельной опцией. Новые файлы посмотрю.
muk79 - Цитата :
Может стоит разделить тему на bugreport и wishlist а то уже такая каша в топике что разобрать может только тот кто читает с самого начала. А как их разделить-то? По сути, кроме информации об ошибке с длинными файлами всё что здесь указано - это именно wishlist, так как алгоритм различия омонимов в принципе не может давать 100% результат (даже люди иногда не способны выбрать правильный вариант, скажем во фразе "Продаётся замок. Дёшево."). Но, в какой-то мере, он и bugreport, конечно |
|
| | | ptoton Бывалый
Сообщений : 108
Репутация : 25
| ptoton | :: Пн Фев 02 2009, 17:06 | Пн Фев 02 2009, 17:06 | |
| Спасибо за новую версию. Посмотрите, подалуйста еще порцию предложений обработанных Книгоделом 1.34b (омонимы).
- Спойлер:
стены Там, где сходились стены<, была клумба гравия два на два метра. За картинами стены< были выложены слюдой, кварцем и волокном. все стены< были усеяны липучкой, которые наездники используют для колесной езды при нулевой гравитации.
полы Равна воспринимала сте<ны и по<лы как сло<женные из грубо тесанных тяжелых бревен.
брони Он не проплавил бы даже сталь бро<ни фрегата. При широком рассеянии луч был бессилен против бро<ни.
жила Ведь жи<ла же сила когда-то, а пото<м была приведена в ничто.
места Были ме<ста, куда мог добраться только Джефри. Панели выглядели как ме<ста отдыха для команды. ча<сти тела< занимали свои ме<ста. теперь можно было распознать ме<ста, которые они хотели видеть снова. здесь есть бесчисленные иные пути и ме<ста, куда никогда не попасть методом слепого поиска.
запахам Джоанна улыбнулась в ответ, почти загоревшись его энтузиазмом, вопреки старой рухляди, которая заменяла им оборудование, вопреки запа<хам двадцатидневного заключения в тесноте корабля.
леса травы Арне Олсндот сможет посадить ракету, никого не напугав и не повредив ничего, кроме ле<са и тра<вы. За северной стеной расстилались ле<са и долины, ведущие к Ледяным Клыкам. А этому Тиратекту, который теперь был тише воды<, ниже тра<вы, Джефри вообще никогда не доверял.
теней на одном острове стоял неправильный многоугольник стен и те<ней.
парили Теперь они па<рили почти неподвижно примерно в тысяче метров от вершины холма. Они па<рили в воздухе, иногда налетая на сте<ны, на сброшенную одежду, вплывая в капли слёз. Они несколько мину<т па<рили в молчании. Сейчас они па<рили на антиграве точно над Холмом Звездолета.
земли Были на све<те земли<, где никто не говорил ни на одном знакомом ему языке.
пятна снега волос Сейчас же от льда и снега< остались только неясные ду<ги на восточном горизонте и рассеянные по холмам пятна<. На плечах и на голове были заметны лишенные во<лос пятна< с черной кожей.
веками Он отвернулся от света, но тот все еще болезненно горел под закрытыми века<ми.
ярок луны краю свет был слишком яро<к. свет стал так яро<к, что одежда более не защищала. Этот водоворот в сумерках был не очень яро<к и вряд ли станет ярче этой ночью - низко на западном небе группа заводов сияла ярче любо<й лу<ны. он был не особенно яро<к, но зато казался краеугольным камнем всей тройки. Надо было сообразить сразу - лучшую лодку ставят в носовой ряд с краю<.
метров Мальчик прошел вдоль всей стены< - метро<в десять. - Это пятьсот двадцать три целых пятьсот девяносто восемь тысячных кубических сантиметро<в. Экспедиционный корпус Резчицы был не слишком велик, а леса< и долины тянулись на сотню с лишним километро<в до того ме<ста, где Ледяные Клыки загибались к мо<рю.
начало По Описателю расползалась глупая улыбка - до него нача<ло доходить, что и в са<мом деле может выйти. но до него нача<ло доходить, что было неверно.
бега Еще полмили бега<.
парами Не раз Вик видел и<здали, как он работал пара<ми с помощью каких-то странных инструментов. Некоторые, влетевшие в виде троек, отпо<лзали пара<ми или синглетами. Она выглядела точно как раньше, но Амди царапал ее пятью< пара<ми лап.
пары - Он присел, так что тем, кто внизу, были теперь видны< только две пары< глаз.
щели Странник зарылся поглубже в щели< и ды<ры, покрытые вереском.
шипы На лапах сверкали металлические ши<пы. Значит, шипастые - так назвала Джоанна их за ши<пы на когтях передних лап, ши<пы не давали кораблю подойти ближе чем на сто метров. Автоматика корабля следила за восстановлением, но точно можно будет узнать, только включив эти ши<пы в по<лете.
когти Клыки и когти<, ножи и рев. Чаще всего Стальные когти< казались ей чуждыми варварами, нечеловеческими по духу не менее, чем по форме.
лады Странник и Описатель обсуждали это на все ла<ды.
стороны луга Только если сильно сосредоточиться, мог он вспомнить, кто он такой и что он должен добраться до той стороны< луга<, не привлекая внимания.
нападавшего Странник бросился на напа<давшего. У напа<давшего были шипы< на лапах.
самого Викрэкшрам не знал его имени, но са<мого его помнил. Но Свежеватель запланировал такую тактику с са<мого нача<ла, предвидя сборку са<мого себя в более чем тысяче миль от Длинных Озер.
слуги Шрам выбросил два элемента слуги< за край тропы<.
стоят Но бывают призы, которые стоя<т такого риска. Те, что могут работать в Среднем Крае, не стоя<т хлопот. но результаты того стоя<т.
дорога Теперь дорога< была шире и кое-как вымощена. дорога< была и раньше, но узкая, и боковых подъездов было втрое меньше. Если судить по часам, обратная дорога< заняла у наездников полчаса. Но старая дорога< оказалась хуже, чем мне помнилось.
удалось Но лишь Республиканская Политическая Полиция сообщила, что уда<лось идентифицировать все тела< Свежевателя.
руки Эти действия были на удивление координированы, будто за его рубашку схватились две ру<ки человека.
души В худшем случае стая впадает в извращение, может стать лишенной ду<ши. Для создаваемой ду<ши процесс казался ментальным хаосом. Отличное было бы дело для последних лет моей ду<ши.
вести Я-то думала, мы обсуждаем хорошие вести<.
споров Из-за этих споро<в они и разошлись на несколько лет.
пикников Под ногами у себя она могла рассмотреть огни пи<кников и поля< для игр.
красив Организация Вриними немного времени проводила на планете, но мир этот был кра<сив. Склон Холма Звездолета был как никогда кра<сив.
ушла В ироническом жесте покаяния она развела руками и у<шла с доро<ги игрока.
примете Откровенно говоря, я не рассчитывал, что вы приме<те предложение.
корпуса Крупный план показал мелкую изрытость корпуса< - результат тысячелетней релятивистской эрозии. Он был вряд ли ярче, чем сияние, которое иногда видно вокруг корпуса< корабля на низких планетных орбитах.
надели На фигуру надели< меч и пулевой пистолет.
сбоя Иногда это случалось без предупреждения, иногда была видимость сбоя< компьютеров или грубой ошибки. - Тележка никогда не допустит такого сбоя<, уж по крайней мере не в разгар серьезной торговли. Глимфрель перехватил взгляд Свенсндота и показал на сигнал сбоя< на панели связи.
грани - Наверное, мы были точно на грани<, шатаясь где-то в районе коэффициента интеллекта 60. - И некоторые из них были на грани< или за гранью человеческой сложности. Жужжание на грани< восприятия человека охватило корпус.
живо Дело идет очень живо<.
горячей Равна ощутила прилив горяче<й ностальгии - как бывает, когда встретишь одноклассника в далеком городе.
органов В поведении некоторых официальных лиц Шифровальных орга<нов я сразу после победы Страума заметил реальную перемену.
петли В них есть капканы и петли<. ду<ги и петли< Контрмеры стали хрупкими и рассыпчатыми.
крови Воспоминания его, перепутанные и непонятные, о крови< и битве, о военной муштре до того.
пугало И это тоже пу<гало.
|
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вт Фев 03 2009, 01:11 | Вт Фев 03 2009, 01:11 | |
| ptoton - Цитата :
- Посмотрите, подалуйста еще порцию предложений обработанных Книгоделом 1.34b (омонимы).
Спасибо, постараюсь исправить (кое-что уже исправлено). |
|
| | | ptoton Бывалый
Сообщений : 108
Репутация : 25
| ptoton | :: Вт Фев 10 2009, 17:12 | Вт Фев 10 2009, 17:12 | |
| Предлагаю рассмотреть еще одну порцию предложений, обработанных версией 36
- Спойлер:
Это бы+ло так же мощно+, как пра+вильный расцвет, хотя и не столь тонко настроено.
доля+ секунды.
Странник зарылся поглубже в щели+ и ды+ры, покрытые вереском.
Это северные скиммеры, тут отво+дные панели, а за ними - тонкий корпус002E
Ветви сине+й Раковины с резким треском сомкнулись.
Двоих из этой троицы можно бы+ло принять за цве+ты в горшках или груженые телеги
Она махнула рукой в сторону туманных клу+бов звезд.
Перистая трава сбе+гала по холмам в город, папоротники лезли на вершину, вереск укрывал серые
кроны гор по ту сторону канала.
Свет низкого солнца вспыхивал на тысячах па+рящих в легком бризе пушинках - цукатах в
невидимом сиропе.
На закате, наступающем каждый день на несколько мину+т раньше, Тиратект обходила бастионы
крепо+стной стены+ Свежевателя.
Он и сейчас там стоял, но за оградой из камня и дерева+ - Булат стал стро+ить ее сразу по+сле
приземления.
Белым курткам, чтобы подойти ближе, приходилось надевать обмотанные тканью+ сапоги.
Но посреди всех этих шелковых свитков, как яйцо слоновой кости+ в гнезде, лежало радио чужака.
Я посылаю также информацию о строительстве кре+постей.
Равна видела, как включались другие перено+сные компьютеры.
Ветер ослабел, с гавани напо+лзал тяжелый туман, одевая старую стену будто медленной морской
пеной.
Наверное, как и движение глаз, речь была рефле+кторной.
Еще чуть-чуть информации от Амдиджефри - и он будет точно знать, что строи+ть.
даже по+сле смерти Описателя она могла эту стаю+ разве что терпеть.
- И сама конструкция очень изощренная, миледи, хотя функции ее про+сты.
голоса+ Равны и Фама гудели в стебле+, тихо спрашивая о башнях и строя предположения о
возможном назначении таких неустойчивых конструкций.
- Это действительно их чини+т?
Фам перебе+гал от долины к долине, маневрируя за наездником, который был дальше остальных.
По твоим словам выхо+дит, что они появились на сцене только по+сле стре+льбы, когда луна
наездников стала вопить про нас на всю систему.
Так много бы+ло этапов изготовления, столько непонятных обхо+дных путей.
какова+я является куда более серьезной угрозой
Зло, как утверждали авторы, есть понятие, применимое лишь в куда меньши+х масштабах: это вред,
который одни разумные существа причиняют другим.
Я видела, как ты часами просто смотришь на дисплеи слежения или пробе+гаешь материалы
библиотеки и групп новостей быстрее, че+м может сознательно читать человек.
- Я свои наиболее вероятные догадки о пути следования каждого флота отметил красным, сини+м и
зеленым.
профессионалы связи вряд ли удовлетворят ваш запрос на разговор, и вряд ли даже распознаю+т его
как таковой.
- отру+бите эту штуку!
Пациенты отпо+лзали от ме+ста действия.
Некоторые, влетевшие в виде троек, отпо+лзали па+рами или синглетами.
Казалось, еще ми+нута - и этот идиот перепрыгнет через изгородь.
Свет выхватывал его морду из тьмы, когда он пробе+гал мимо одной, а пото+м другой прорезанных
в бревнах узкой ще+ли.
Для демонстрации наше+й доброй воли мы дальше приводи+м оценки, имеющиеся у нас на данный
момент.
Быстро та+щите свои хвосты на мостик!
Он показал туман, который отпо+лзал в сторону от растущего узла света.
Местное тактическое окно показало, как рассы+пается рой, в котором разными цвета+ми были
обозначены "шершни", отстающие от "Ульвиры" и опережающие ее.
Приходилось все+ время стро+ить из себя добря+чка, будто это они правят им!
- Пойдем к коммуникатору. притво+римся, что пытаемся вызвать Равну.
Был момент, когда только хватка+ Фама на турели лучемета удержала его внутри машины.
Обе стаи припали+ к земле - бомба Резчицы разорвалась прямо пе+ред бастионом.
Секундой позже мальчик закашлялся, замахал руками, как ве+тряная мельница.
Три его элемента перебе+гали от лужи к луже, разглядывая плавающих в них созданий.
Они достигли пояса+ кораллов, изрытого дырами и впадинами глубиной в несколько сантиме+тров.
си+ла, погружённая в Медленность, больше уже+ не сила+ и вряд и вообще что-нибудь живое.
|
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Ср Фев 11 2009, 11:21 | Ср Фев 11 2009, 11:21 | |
| почему-то в 37й при Алена (со словарями омонимов)(с заменами) +омонимы экспорт ставит ударения - Код:
-
< или так и задумано? может просто убрать эту опцию совсем если она идентична Алена (со словарями омонимов)? и еще после замены вылазит слово - Код:
-
по+сле вместо - Код:
-
пОсле в уже финальном варианте т.е. остается "+" почему-то и кавычки в тексте после простановки ударений наоборот ставиться почему-то - Цитата :
- - Когда? - .не понял » грешник «.
- И чего стоИм? - развел руками » монолитчик «. - Двор чистый! в принципе не сильно важно но как-то необычно смотрится |
|
| | | ptoton Бывалый
Сообщений : 108
Репутация : 25
| ptoton | :: Ср Фев 11 2009, 12:26 | Ср Фев 11 2009, 12:26 | |
| 37-ая версия отлично справилась с почти всеми прислаными ранее предложениями. Остались только:
при 50 километрах в час колеса+ автобуса делают около 4,5 оборотов в секунду.
мне в глаза+ попала у+гольная пыль или сажа+ с паровоза.
чайки+ с диким мяуканьем пики+руют на меня |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Ср Фев 11 2009, 13:45 | Ср Фев 11 2009, 13:45 | |
| evilone_ - Цитата :
- почему-то в 37й при Алена (со словарями омонимов)(с заменами) +омонимы экспорт
ставит ударения < Была ошибка, исправил, в новой версии должно быть все нормально, скорее всего уже с заменами. Ошибку с после тоже исправил. С кавычками еще не смотрел, но вроде такого быть не должно, должно заменяться на обычные кавычки " текст ". Может это редактор так их показывает?
ptoton Ошибку с сажей исправил, в новой версии будет. А с остальными фразами - в принципе, могу искусственно исправить, заставив всегда вместо чайкИ писать чАйки.... Но тогда неправильно будет произноситься фраза "надоели все эти чайкИ!" |
|
| | | | Ошибки синтеза замены и ударения | |
| Ошибки синтеза замены и ударения |
---|
| |