|
| |
Автор | Сообщение | Книгодел |
---|
rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Ср Ноя 12 2008, 15:18 | Ср Ноя 12 2008, 15:18 | |
| http://www.bludnikov.ru
Программа книгодел занимается синтезом речи с помощью собственного движка. Пока синтез работает не идеально, но есть и плюсы:- Программа бесплатная
- Программа многоязычная, причем голос от изменения языка не меняется (то есть, можно использовать для синтеза смешанного текста). На данный момент поддерживаются русский, английский, испанский немецкий, итальянский, французский, украинский, белорусский, болгарский, татарский, китайский пининь, японский ромадзи, корейская официальная транслитерация, литовский, латышский, эстонский, шведский, финский, норвежский, венгерский, латынь, греческий, албанский, чешский, польский, словацкий, хорватский (латиница), сербский (кириллица), македонский, португальский, румынский, датский, голландский, африкаанс, турецкий. А так же искусственные языки эсперанто, эсперанто, идо, новиаль. Не все языки поддерживаются одинаково хорошо (для украинского, белорусского и болгарского, например, нет расстановки ударений), но постоянно происходит улучшение.
- Программа развивается
- Возможность быстро сделать много голосов (на данный момент представлено два голоса, но женский голос пока не развивается и остался на уровне первых версий программы)
- Программа использует ядро Ударятеля для расстановки ударений русского языка с учетом омонимов (и автоматической ё-фикации).
- Не ставится никаких модулей в Windows
- Поддерживается как синтез речи так и запись в wav, ogg, mp3.
- В будущем планируется программный интерфейс для использования синтеза речи в пользовательских программах.
В программе два разных алгоритма синтеза, переключается в настройке (по слогам/нет). По умолчанию слоговой синтез отключен, хотя он немного лучше (идет отладка именно неслогового варианта).
Книгодел 1.55b
Интересует ваше мнение, с конкретными замечаниями (список непонятных букв и т.д.).
| Если вы нашли ошибки замены и ударения дайте нам знать. Для этого отправьте пример текста с ошибочными ударениями через эту форму. Мы будем благодарны Вам за участие и помощь. | |
|
|
| | | unknown V.I.P.
Сообщений : 73
Репутация : 11
| unknown | :: Пн Ноя 24 2008, 22:45 | Пн Ноя 24 2008, 22:45 | |
| - Цитата :
- Программа использует ядро Ударятеля
Т.е. hash.dcp - 11 580 кб и MainDic.dzo - 4 478 кб это старые из ударятеля. Прогнав словарь 180 000 слов,ударятель нашел 65 000 новых,ну правда вы так и пишите в ридми - "... используя большой словарь ,больше 100000 слов...) Я так понимаю,что словарь это MainDic.dzo,а что такое hash.dcp. Книгодел пока не пробовал.Сейчас скачаю,гляну. |
|
| | | unknown V.I.P.
Сообщений : 73
Репутация : 11
| unknown | :: Вт Ноя 25 2008, 13:03 | Вт Ноя 25 2008, 13:03 | |
| В общем очень "сырой" книгодел еще. Если ударятель, чесно отрабатывал своё,то книгодел вообще не хочет ничего делать.Да и правая сторона очень раздражает. Вердикт-книгодел удалён и на время забыт. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Пт Ноя 28 2008, 23:18 | Пт Ноя 28 2008, 23:18 | |
| - Цитата :
- Т.е. hash.dcp - 11 580 кб и MainDic.dzo - 4 478 кб это старые
из ударятеля. Да, эти модули из Ударятеля. А алгоритмы немного усовершенствовались. - Цитата :
- Я так понимаю,что словарь это MainDic.dzo,а что такое hash.dcp.
Это временнный файл, используемый для ускорения загрузки. Если его удалить, он будет создан заново. - Цитата :
- В общем очень "сырой" книгодел еще.
Если ударятель, чесно отрабатывал своё,то книгодел вообще не хочет ничего делать. А что именно не хочет? Выбрать в настройках формат, куда конвертировать (для какого движка), нажать Ok и нажать Export. Спросит какой файл и все... У меня, по крайней мере, все работает (должен получиться файл с окончанием _pre). А синтезировать текст с помощью других движков система действительно не может - для этого лучше Ударятель использовать.
{quote]больше 100000 слов[/quote] Да, но слова со всеми словоформами, что перерастает в 2 млн. форм. А в Вашем словаре, видимо, были какие-то очень специфичные слова (если можно, приведите пример найденных Книгоделом новых слов). |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Ср Янв 07 2009, 22:18 | Ср Янв 07 2009, 22:18 | |
| lev55 Попробуйте заглянуть сюда, и, если позволит время, полистайте тему, начиная с первой страницы. |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Ср Янв 07 2009, 23:22 | Ср Янв 07 2009, 23:22 | |
| Stroodder Понял! |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Чт Янв 08 2009, 14:55 | Чт Янв 08 2009, 14:55 | |
| rquester Вы не обижайтесь, но попытайтесь ознакомиться с тем, что уже есть в сети, например это: - Цитата :
- [HKEY_LOCAL_MACHINE\SOFTWARE\Loquendo\LTTS7\default.session]
"SpellingLevel"="pronounse" Спасибо, помогло, нужно будет рекомендацию отключить эту опцию, в комплекте с программой поставлять, а, возможно, и reg-файл.... я выкладывал в архиве словарей-фильтров, включая регфайл. М/б рискнем рассуждать конструктивно, не распыляясь на саморекламу, а не мусолить и представлять как эврику оболочку-интерфейс к аот, который в свою очередь пользует премиального Зализняка, и, опять же, с которыми, по моему мнению, вряд ли что-либо было согласовано при разработке программы? Тогда и дело синтеза возможно сдвинется с точки. |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Чт Янв 08 2009, 16:50 | Чт Янв 08 2009, 16:50 | |
| rquester - Цитата :
- Тут все определяется корректно. И, по идее, в первых двух вариантах все однозначно.
не работает! Ну нету у Вас синтаксического анализа, всё заканчивается на морфологии по Зализняку и может быть некоторые согласования с непосредственно прилежащими словами. - Цитата :
- Используются словари со знаком + для ударения (файл easy.dic и он же в окне), кроме того не подходят словари со звездочками и сочетаниями слов...
Какая разница + или ещё чего, это словари написанные Stroodder для замены знака ударения и никаких словосочетаний там нет, там слоги!
Stroodder Присоединяюсь. - Цитата :
- представлять как эврику оболочку-интерфейс к аот
Это программа называется Говорящая Мышь для дома 5.0 написанная ещё в 95 году http://herald.starstage.net/srv_spmh.htm |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Чт Янв 08 2009, 21:56 | Чт Янв 08 2009, 21:56 | |
| Ticklish
- Цитата :
- Т.к. я совсем не программист, то абсолютно не представляю, как написать подобный парсер. Можете ли вы поделиться своей программкой? Пробовал пользоваться Ударятелем, но эффект все же хуже, чем при использовании словаря замен + соотв. лексикона (я пользуюсь Аленой). В любом случае, буду благодарен за ответ.
Беда в том, что я тоже не програмист! Мне сложно написать гафический интерфейс в приемлемой форме. Сейчас поставил Visual Studio 9.0, но разбираться наверное буду долго! Поэтому надеюсь, что кто нибудь владеющий искуством программирования, откликнится. Что касается парсера, то это даже не программа а несколько строк написанных на SP Forth http://www.forth.org.ru вызываюших те или иные нужные функции из программы Rml. Все происходит у меня в режиме интерпритации, так что никакого exe-шника нет (можно конечно скомпилировать но ...). Нужные адреса я искал трассировщиком. Rml - программа с ограниченным временем пользования (конечно я по определённым адресам обрашаюсь, библиотечные функции защищены, но синтаксический словарь тоже защищён -тоже надо вскрывать). Скажем так - это проба, экспиримент. С удовольствием поделился бы, но это не выход. Поэтому взываю к програмистам помогите, все явки и пароли есть! Исходники на сайте АОТ тоже есть(для свободного использования)! |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Пт Янв 09 2009, 00:03 | Пт Янв 09 2009, 00:03 | |
| Stroodder - Цитата :
- я выкладывал в архиве словарей-фильтров, включая регфайл.
Не все пользователи программы знакомы с этим форумом, поэтому необходимые изменения я предпочитаю включать в программу... - Цитата :
- а не мусолить и представлять как эврику оболочку-интерфейс к аот, который в свою очередь пользует премиального Зализняка, и, опять же, с которыми, по моему мнению, вряд ли что-либо было согласовано при разработке программы? Тогда и дело синтеза возможно сдвинется с точки.
Во-первых используется далеко не словарь Зализняка: а)Он значительно пополнен (например, именами и географическими названиями, которых у Зализняка в принципе нет, кроме того, значительно пополнен сам словарь - фантастические, компьютерные термины и т.д. (написан собственный редактор словоформ, правда, пока не особо удобный для конечных пользователей...). б) Используется совсем другая система для записи - у Зализняка все написано для печати в виде книги, для того, чтобы все это можно было вводить в компьютер, нужна существенная доработка (даже если не говорить о всяких цифрах в кружочках, которые нужно заменять). Очень многое в его книге указанно без подробностей и нужно выяснять все это на практике и т.д. По-сути, нужна полная переработка этого словаря. Очень много вещей изменилось, например, исключения записываются в другом виде (с другим количеством форм, чем у Зализняка). Я уж не говорю что в том же словаре хранится и дополнительная информация, которой у Зализняка просто не было... Грубо говоря, от словаря Зализняка там мало что осталось. lev55 - Цитата :
- не работает!
Вот это странно, я перед тем как писать пост проверил - все работает. По крайней мере, на той версии предложений, которую я тестировал. - Цитата :
- Ну нету у Вас синтаксического анализа, всё заканчивается на морфологии по Зализняку и может быть некоторые согласования с непосредственно прилежащими словами
Используются все слова из предложения, кроме того, для некоторых слов используется и весь контекст. Возможно, я не все вещи предусмотрел в своем синтаксическом анализаторе (вполне возможно), кроме того, некоторая нужная информация у меня отсутствует (например, какими падежами управляют глаголы (без предлога) (кроме винительного, тут все понятно), новый файл со списком глаголов управляющих без предлога творительным падежом пока не пробовал) и т.д. |
|
| | | Ticklish Новичок
Сообщений : 11
Репутация : 1
| Ticklish | :: Пт Янв 09 2009, 00:11 | Пт Янв 09 2009, 00:11 | |
| Присоединяюсь к просьбе lev55. И еще о расстановке ударений. Нашел тут программку http://bmyr.kiev.ua/Rhymes/rhymes.zip В комплекте идет масса баз данных, в том числе и словари Зализняка и Лопатина. Программа успешно расставляет ударения, если допускается не один вариант ударения, рядом в фигурных скобках указан другой вариант. Может кому-то пригодиться. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Пт Янв 09 2009, 00:26 | Пт Янв 09 2009, 00:26 | |
| lev55 - Цитата :
- Rml - программа с ограниченным временем пользования (конечно я по определённым адресам обрашаюсь, библиотечные функции защищены, но синтаксический словарь тоже защищён -тоже надо вскрывать).
Я программист, но не хакер... А использовать чужую программу, особенно платную, в своем продукте очень нежелательно (поэтому я и стараюсь заменить и звуковой движок)...
Ticklish - Цитата :
- http://bmyr.kiev.ua/Rhymes/rhymes.zip
Там порожденный словарь Зализняка, да еще без части информации - падежи вообще никак не выяснить... А словарь Лопатина, вообще для программ практически не пригоден (словоизменение там записано хрен знает как, в разных местах по разному) (а в этой программе еще и без словоизменения в каком-либо виде). |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Пт Янв 09 2009, 09:23 | Пт Янв 09 2009, 09:23 | |
| lev55 Ticklish Есть бесплатный инструмент (хотя, возможно, вы об этом знаете) для тех, у кого нет возможности ковыряться в языках программирования. Статья Вики тут, там и ссылка на сайт. Правда штука в плане работы небыстрая, но чем-то приходится жертвовать - закон сохранения энергии
rquester - Цитата :
- А словарь Лопатина, вообще для программ практически не пригоден
Имхо как раз наоборот - все на тарелочке выложено для нас ленивых. Насчет Зализняка. Напоминает высказывание одного человека, разработавшего, мягко говоря, неторопливую оболочку-декорацию под WinXP, который на полном серьезе опускал Гейтса. Вы ж неглупый человек: идеи есть, некоторые знания тоже, для чего дурака валять из форума в форум? |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Пт Янв 09 2009, 16:35 | Пт Янв 09 2009, 16:35 | |
| Stroodder - Цитата :
- Имхо как раз наоборот - все на тарелочке выложено для нас ленивых.
До того момента, как я узнал о словаре Зализняка, я как раз использовал словарь Лопатина (морфологию существительных практически полностью сделал на нём). Очень много неоднозначностей. Конечно, использовать за неимением другого варианта можно, но, по сути, приходиться каждый формат записи отдельно конвертировать и делать много совершенно лишней работы. И в результате получается что-то вроде словаря Зализняка .
- Цитата :
Насчет Зализняка. Напоминает высказывание одного человека, разработавшего, мягко говоря, неторопливую оболочку-декорацию под WinXP, который на полном серьезе опускал Гейтса У меня не одна оболочка, в программе сложная логика (морфология, синтаксический анализ, местами с учётом смысла). Если бы было все так просто, то это все встроили бы в движки А я в одиночку это несколько лет писал . Особо никого не ругаю (разве что кроме Майкрософтовского SAPI, где не указан символ для простановки ударений). Грамматического разбора даже такого уровня (с некоторыми ошибками) я ни в одной бесплатной программе не видел. Да и в платных не все корректно, особенно что касается не синтаксиса, а смысла.
evilone_ - Цитата :
это с настройками (Алена со словарями омонимов) много много лишних ударений (читает и так нормально аленка) штО тО тАм двА - это ж не омографы зачем оно нужно?
На данный момент проставляются все ударения (так как программа писалась, в первую очередь для своего голосового движка). В одной из следующих версий, возможно, будет сделано. - Цитата :
- можно ли как-то оставить только поиск омографов, замену Е=Ё и замену Е=Э там где пишется "е" а читается либо "ё" либо "э" без простановки ударений в тексте обычным словам?
В принципе, можно, но не в текущей версии.
- Цитата :
- и еще - как править или проставлять ударения для новых слов те которые выписываются в главное окно после поиска? прямо в окне ставить + и слово сохраниться в словарь и при следующем поиске будет ставить правильное ударение и не выскакивать при очередном поиске новых слов? или не так?
Да либо в формате Петю+нечка либо Петюнечка=Петю+нечка |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Пт Янв 09 2009, 20:51 | Пт Янв 09 2009, 20:51 | |
| rquester - Цитата :
- Вот это странно, я перед тем как писать пост проверил - все работает. По крайней мере, на той версии предложений, которую я тестировал.
Сейчас попробую новую версию, может быть я не прав.
- Цитата :
- Используются все слова из предложения, кроме того, для некоторых слов используется и весь контекст. Возможно, я не все вещи предусмотрел в своем синтаксическом анализаторе (вполне возможно),
В программе Говорящяя Мышь (ссылку я давал) тоже пишут, что применяют несколько сотен правил для разрешения омонимии, а рзультат один к однома как у Вас. Это говорит о том, что подход не верный! mia давала пример https://mytts.forum2x2.ru/forum-f28/tema-t183.htm как надо, - это АОТ, если надо могу дать десятка полтора ссылок от других авторов. Не на одном АОТ свет клином ... (С двумя авторами переписываюсь).
- Цитата :
- Я программист, но не хакер... А использовать чужую программу, особенно платную, в своем продукте очень нежелательно
Я писал к Ticklish, и не предлагаю Вам заниматься hack-ом, а причины почему я это делаю помоему понятны из письма. Для всех модулей RML есть исходники для свободного пользования, но я не могу получить обьектный код потому что я не програмист, тем бопее, что исходник заторен под пингвина. (Сейчас поставил Сygwin попробую компильнуть под windous легально). В solarix тоже есть исходники грамматического движка для свободного пользования. Много чего есть . . ., но надо быть программистом.
Stroodder Спасибо за ссылку! Не знал! Программированием лет 25 не занимался, в затёртые голы даже на asm -е писал. На тему синтеза на другом форуме - может пригодиться: В свё время делал синтезатор (не для голоса) таким образом - беруться 3-5 гармоник и для каждой задаётся своя огибающая. Для гармоник могут быть примененны генераторы (разумеется программные) для "ударника", сродни согласным - гнератор белого шума, тоже с огибающей. Похоже на фильтрацию, но немного другое. Результат был потрясающем. Понимаю, что голос это другое, но что-то в этом есть. Этоя так, кслову. Спасибо!
Ticklish Спасибо! Для меня, то что доктор прописал. |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Сб Янв 10 2009, 00:11 | Сб Янв 10 2009, 00:11 | |
| Stroodder
А как делается экспорт из Russian.rex, если не секрет? Ешё раз спасибо за ссылку, жить стало легче! |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Пн Янв 12 2009, 16:36 | Пн Янв 12 2009, 16:36 | |
| Исправил вышеупомянутые ошибки (те, которые можно исправить не разбирая смысла). В следующей версии (когда выложу), должно быть все нормально. |
|
| | | Leopold Интересующийся
Сообщений : 8
Репутация : 1
| Leopold | :: Сб Янв 17 2009, 18:20 | Сб Янв 17 2009, 18:20 | |
| Программа - супер. Процентов 90 омонимов правильно различает. А если текст с ё, то и все 95 (если не 99)! Наиболее частый затык на тексте без ё - все/всё. Лучшая программа для подготовки текста для чтения, что я встречал.
P.S.: А сама (встроенным голосом) читает пока не очень... Зато не требует установки движков, что иногда - большой плюс. |
|
| | | unknown V.I.P.
Сообщений : 73
Репутация : 11
| unknown | :: Сб Янв 17 2009, 21:09 | Сб Янв 17 2009, 21:09 | |
| Leopold
Понятно, ваше восхищение. Не спорю, достаточно быстро и относительно качественно, но... Когда вы наслушаетесь,таким способом подготовленные тексты, когда устанете от... ну пусть 10% неправильных омографов, когда вам по мозгам проедутся по нескольку раз слова типа: допе<ла, пе<ла, сме<л, ме<р, ноздре<й, обре<тшие, пере<ть, потере<ть, похле<ще, приве<дшая, припере<ть, прове<дшего, проче<сть, сопле<й, суета<-суе<т, утере<ть, шле<м,..., когда вы станете прислушиваться, и поймёте, что например частица "не" с глаголами(особенно начинающимися с согласной) звучит неестественно, так же как и слова типа "как-то, когда-то,кому-нибудь,кого-то и т.д", ну и тому подобное(очень многое можно подправить,было бы желание), вы обратите свой взор, на программы умеющие работать со словарями .dic, где всё это исправляется и речь(в данном случае Николая) приобретает похожесть на нормальное человеческое произношение. Всё это верно, до выхода качественного мужского голоса, но это уже отдельная тема. |
|
| | | unknown V.I.P.
Сообщений : 73
Репутация : 11
| unknown | :: Вс Янв 18 2009, 01:01 | Вс Янв 18 2009, 01:01 | |
| Leopold - Цитата :
- ...проблем не замечал, нормально все синтезируется...
Да не об этом речь, речь о том, чтобы помочь Николаю воспроизводить текст хоть немного приблеженным к нормальной человеческой речи при чтении вслух. А вообще ладно...проехали! Всему своё время.
p.s. Но дергание рекламы меня достаёт за 10 секунд, может автор лучше напихает ее на свой сайт, а из программы уберёт.
[тихо в сторону] а мы порежем её adblock+ |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Сб Янв 24 2009, 07:13 | Сб Янв 24 2009, 07:13 | |
| rquester & ALL "Книгодел" - судя по всему обычный хэшированный словарь. Омографы отлавливаются статьями словосочетаний, как это делается в читалках. Никакого алгоритма, а тем более алгоритма распознавания не наблюдается - вчера ради интереса проверил. Тут уж извините, но аргументированно доказать обратное Вы пока не можете. Что Вы сделаете для того чтобы исправить предложения, которые указал, например, ptoton ? Да очень просто: вобьете в словарь сочетания: "нам нужны = нам нужны<", ну м/б еще вставите "вам нужны = вам нужны<" и т.п. "все кому не лень = все кому< не ле<нь" и так далее. Введенный в заблуждение пользователь будет думать, что исправлены недочеты алгоритма и, благодаря найденным им ошибкам, программа стала "умнее"
Короче говоря, по всей видимости, используется словарь, по типу словаря словосочетаний омографов, которые разработаны для Николая и др. движков и представляется это как некий "уникальный алгоритм". Это ИМХО, но это имхо на 99,9% приблизилось к убеждению. |
|
| | | unknown V.I.P.
Сообщений : 73
Репутация : 11
| unknown | :: Сб Янв 24 2009, 12:49 | Сб Янв 24 2009, 12:49 | |
| Stroodder
Скорее вы правы на сто,чем нет. Прослушав несколько текстов, и несколько просто подготовил этой прогой и попытался проанализировать. Конечно используется словарь, по типу диков, который нам к сожалению не дано исправлять или редактировать.(к сожалению с доступными easy.dic и др. очень сильно падает скорость обработки,поэтому не пользую) Но на данном этапе, мне именно интересен последний вариант программы, как соответствующий моим предпочтениям в произношении Николая. После обработки, подготовленными несколькими . dic, в балаболке, текста сделанного книгоделом получается довольно неплохо. Если автор будет исправлять свой словарь, и двигаться в интересном мне направлении, то почему бы ему не помочь. А я буду потихонку делать свои дики для исправления сделанных книгоделом текстов и приведения их уже полность в интересующий меня вид для озвучивания. Пока на данном этапе для меня симбиоз балаболки и книгодела самый оптимальный вариант.(ещё и потому,что практическая необходимость exc_rus.txt сводится к нулю, что добавляет Николаю более плавное чтение и экономит время и силы затрачиваемые для ведения этого словаря.imho) |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Вс Янв 25 2009, 01:17 | Вс Янв 25 2009, 01:17 | |
| slag Ну каждый тратит свое свободное время как ему заблагорассудится, уважаю и Ваше и свое... М/б время "битья об стенку" со словарями рациональней потратить на изучение хотя бы того же VB или скриптов консоли - тогда на явную болтовню, как на истину, внимание перестанете обращать? Нет, ну если серьезно подумать, нужна расширенная база словаря. Словарь один - Зализняк (другого НЕТ), его и нужно развивать, а уж потом применять это к Коле-Оле-Алене, вот тогда будет некая унификация. Универсальный алгоритм фильтрации "лишних правил" для любого SAPI-движка до смешного прост (но не самый быстрый естественно), независимо от их SDK. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вс Янв 25 2009, 02:42 | Вс Янв 25 2009, 02:42 | |
| Stroodder - Цитата :
- "Книгодел" - судя по всему обычный хэшированный словарь.
Омографы отлавливаются статьями словосочетаний, как это делается в читалках. Никакого алгоритма, а тем более алгоритма распознавания не наблюдается - вчера ради интереса проверил. Тут уж извините, но аргументированно доказать обратное Вы пока не можете Алгоритм есть. Другое дело, что он далеко не во всех случаях помогает - для того, что не распознаётся в автоматическом режиме - действительно что-то вроде словаря сочетаний (но в некоторых случаях для выбора омонима используются более сложные алгоритмы, включая просмотр последних 100 слов и т.д....). Большинство омонимов русского языка - омонимия падежных форм, она вылавливается с помощью алгоритма. Так же с помощью алгоритма делается разбор все/всё и некоторые другие. А все возможные сочетания не забьешь... Вот то, что остаётся - да, с помощью сочетаний и добавления пометок в словарь... А других вариантов и нет... Если предложите универсальный способ различия омонимии каких-либо частей речи) - вполне возможно, что реализую... |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вс Янв 25 2009, 03:00 | Вс Янв 25 2009, 03:00 | |
| - Цитата :
- Словарь один - Зализняк (другого НЕТ),
В словаре Зализняка вообще нет имен и географических названий... И современных терминов. Так что его надо сильно пополнять... Если это делать без реализации словоизменения - очень запарит добавлять все варианты (для прилагательных - как минимум 28 форм, для глаголов со всеми причастиями - еще больше)... |
|
| | | Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Вс Янв 25 2009, 12:33 | Вс Янв 25 2009, 12:33 | |
| rquester Омонимия решается не падежами (это примитив и расширение словарной статьи опять же), а вероятностью, которую до сих пор никто вариативно не может решить. И не сможет, пока прогресс в сторону накопления образной базы искусственного интеллекта не сдвинется. Про Зализняка - ну поняли ж Вы все (если нет, то умываю руки), про ин. яз. словари тоже можно сказать, про частотные словари, про орфоэпические еще вспомнить и т.д. и выбросить этот словарь, т.к. он "неполный" )))) |
|
| | | unknown V.I.P.
Сообщений : 73
Репутация : 11
| unknown | :: Вс Янв 25 2009, 13:39 | Вс Янв 25 2009, 13:39 | |
| Stroodder На что вы злитесь? Рекомендуете что-то изучать, выбрасывать, и т.д. Всё что мне надо я изучу и применю для своих нужд. Не было бы балаболки, книгодела, нашёл бы замену и подстроил под себя. Выбрасывать? А замена есть? Если вы считаете, что знаете как, а главное можете это "как" воплотить в жизнь-сделайте(и желательно не примитив). Вас поблагодарят, а скорее всего нет, а будут также выискивать "блох". Пока есть добрые люди и пишут для нас проги, пользуемся, что не нравится исправляем доступными способами, уйдут эти добрые люди, будем искать замену и пользоваться. Если уж за столько лет tts комьюнити не сложилось, то и ожидать чуда не стоит. Каждый за себя, есть желание-делитесь, нет, и слава богу. Например меня совершенно сейчас не интересуют ни Алёна, ни Ольга. Кого-то впрочем, совершенно не интересует Николай. И мне совершенно не важно как автор книгодела реализует некоторые функции своей программы, меня это пока устраивает, я пользуюсь. Перестанет устраивать, ищу замену или творю её для себя, доступными мне способами. Словари это вообще необъятная тема, правда которую можно описать двуми словами, необъятная,но очень личная, а дополнить например Зализняка еще "лимоном" слов это не так уж и трудно, но надо ли это? Кому надо, наверняка уже сделал. |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Вс Янв 25 2009, 22:01 | Вс Янв 25 2009, 22:01 | |
| Ребята давайте жить дружно! Есть два подхода к проблемме: Утилитарный, т.е выбор программы, какая делает меньше ошибок и имеет маленькие или наоборот большие словари, быстро работает и т.д. Более удобна наконец пусть даже с ошибками. И академический, т.е. какой алгоритм более правильный, по какой мадели построена. . . Это две большие разницы!
КромеЗализняка, есть в десятки раз большие словари, например у поисковиков Рамблер или Nigma.ru. Только в определённом смысле они проблемы не решают. Панацеи пока нет. Такой пример: Навоял хакерским методом програмку на основе материалов АОТ, которая делала 3-6 ошибок на 8 книг (в основном фантастика). Сегодня попробовал обработать текст, в котором много подстрочных понятий и слова имеют двойное смысловое значение, так получилось до 30 ошибок на главу. Вывод нужны технологии И.И. Может быть даже с ипльзованием нейронных сетей с обучением, ведь тематика сродни распознаванию образов. Обучение (словарный запас в том числе) тоже имеет место быть. У меня много знакомых иностранцев, так двойной смысл того или иного высказывания понимают те, кто прожил достаточно в России. Русский язык совсем не западный. Вообще-то есть ветка "Общие разговоры про лингвистическую обработку текста", но она почему-то пустая (хочешь чтобы дело зегнулось - надо его легализовать и заадминистрировать). Stroodder По вопросам в ветке "Словари вопрос" отпишусь позже, пока ещё в процессе... |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Пн Янв 26 2009, 01:32 | Пн Янв 26 2009, 01:32 | |
| Stroodder - Цитата :
- Омонимия решается не падежами (это примитив и расширение словарной статьи опять же), а вероятностью, которую до сих пор никто вариативно не может решить.
Как раз очень большая часть решается на уровне падежных форм. Оставшиеся (кроме совсем устаревших форм, да и то, в принципе, при разборе старых текстов они могут понадобиться), на самом деле, тоже решаются, но сложнее. Человек же практически всегда понимает говорится про тесто или тЭст и т.д. И, в принципе, большую часть вполне реально решить... Какая-то часть останется, разумеется, на откуп вероятностям, но меньшая часть...
- Цитата :
- И не сможет, пока прогресс в сторону накопления образной базы искусственного интеллекта не сдвинется.
Вряд ли проблема ИИ сдвинется с места если ею не заниматься. Думаю, что на первых порах будут востребованы и алгоритмы распознавания изображений и голоса, и различия омонимов... Нейронные сети и т.п. сами по себе ничего не решат...
P.S.: lev55 - Цитата :
- КромеЗализняка, есть в десятки раз большие словари, например у поисковиков Рамблер или Nigma.ru.
Вряд ли их словари с ударениями - для поисковиков это не нужно.
- Цитата :
- Сегодня попробовал обработать текст, в котором много подстрочных понятий и слова имеют двойное смысловое значение, так получилось до 30 ошибок на главу
А что за текст, если не секрет? |
|
| | | SergeiSP Новичок
Сообщений : 19
Репутация : 0
| SergeiSP | :: Сб Мар 14 2009, 02:29 | Сб Мар 14 2009, 02:29 | |
| По книгоделу не знаю, как по мне, так программа по большой части не особо нужная. А вот Ударитель хорошая прога, но там глюк один есть, при большом колличестве текста программа вылетает. Что за глюк, как лечится? И почему тема про Ударитель закрыта? |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Сб Мар 14 2009, 19:01 | Сб Мар 14 2009, 19:01 | |
| SergeiSP - Цитата :
- А вот Ударитель хорошая прога, но там глюк один есть, при большом колличестве текста программа вылетает. Что за глюк, как лечится? И почему тема про Ударитель закрыта?
Тема закрыта потому, что на разработку той программы пока времени не хватает. Но, в принципе, планирую ее возможности добавить в Книгодел (чтение с помощью SAPI движков, озвучивание сценок и т.д.) - тогда и ошибка, скорее всего, будет исправлена. Но это планируется сделать несколько позже. А какими конкретно возможностями Ударятеля Вы пользуетесь? Озвучиваете сценки? |
|
| | | ptoton Бывалый
Сообщений : 108
Репутация : 25
| ptoton | :: Сб Мар 14 2009, 19:27 | Сб Мар 14 2009, 19:27 | |
| По 45 версии
- Спойлер:
Миссис Уинтертаун и сэр Уолтер выглядели так, будто за эту ночь посетили несколько потусторонних миров, такие серые и осунувшиеся были у них лица+
Когда я вышла, она спа+ла.
Сэр Уолтер намеревался вводить тему волшебства постепенно, чтобы приучить министров к са+мой мысли
Однако когда мистер Норрелл понял, О КОМ речь, он заметно приободрился и полюбопытствовал о состоянии ТЕЛА+.
Новость о появлении сотни британских кораблей казалась такой невероятной, что французские капитаны не поверили, пока сами ве+рхом или на лодке не добрались до Лошри
Кожа слуги+ была цвета+ кофейных зерен
в понедельник выглядел, как прочие, а теперь па+руса все в лохмотьях, бизань-мачты нет, а в борту+ зияет дыра.
А бушприт и утлегарь спо+лзают в воду.
Так как удивительные корабли продолжали сиять и сверкать изо всей мочи+, исследователи начали спорить, из чего они сделаны.
Возчики полезли в карету и начали трясти мистеру Норреллу руку, обдавая того па+рами хереса и заверяя, что ни минуты не мешкая расчистят дорогу
Британские торговые суда беспрепятственно выгружали кофе, хлопо+к и специи в Голландии и балтийских портах.
То ли сло+ва его оказались столь убедительны, то ли русалку поразила красота молодого лица+
Девушку обвивали жесткие складки темного материала, почти не касаясь ее тела+
Боюсь только, что я еще нескоро+ найду свободное время, чтобы осуществить этот замысел.
«Эдинбургское обозрение» славилось своими радикальными взглядами, критиковало правительство и выступало против во+йны с Францией
предсказания не хотели сбываться, а мистические экстазы были ложью от начала+ до конца.
предмет оказался маленькой металлической штуковиной, не более дюйма с половиной в длину - своего ро+да гу+бная гармоника
Не сознавая, что делает, мистер Норрелл у+молк и подался вперед.
Собрана адскими ризничими с запятнанной зе+мли.
Когда слуги+ услышали его причитания, они тут же явились, да, Лукас?
Магия - словно па+рение птиц в пустоте.
мальчик уже послужил предметом ожесточенного спора+ между Лоуренсом Стренджем и семьей его жены+.
В главе пя+той дано трагикомическое описание затянувшегося спора+ с конной гвардией, который начался в 1810 году+
дома+ здесь узкие и высокие - не ниже четырех этажей, окна+ идут ровными рядами
Мы сходили туда раза три или четыре, и в кратчайший срок до+лги капитана достигли... ну, мадам, не представляю, как он будет с ними расплачиваться!
Ласселлз заплатил мои до+лги и вызволил меня из тюрьмы+ суда королевской скамьи
La Justice - «Правосудие» (картинка изображала женщину в короне с мечом и весами в руках), и двойку Жезло+в. Жезлы+ перекрещивались и могли, кроме всего прочего, обозначать распутье.
Трапе+зная под открытым небом была лишена многих привычных удобств, а посреди нее уже успела вырасти молоденькая березка.
Пока волшебник сбе+гал за блюдо+м, пока выравнивал вмятину, оставленную осколком, сгорели все святые.
леди Уинзелл, отправилась в Бат и там на концерте итальянской музыки свела знакомство с некими дамами по фамилии Уинтертаун, вдо+вой и дочерью.
Я знаю, что значит жить под гнето+м гордецов англичан и выполнять унизительные обязанности!
Планы были не то чтобы ду+рны.
- На несколько квадратных дюймо+в обоев? - предположил сэр Уолтер.
Больше ничто не забавляло Стивена, ничто не казалось ему же+ланным.
Больше они ничего не умеют: не знают, как охотиться на бизонов или антилоп, как укрощать мустангов или строить жи+лище.
Одержимость и кровожадность адских созданий и придала их жиру+ неповторимый вкус и аромат.
бриллианты, рубины, ювелирные изделия, украшения из золота+ и серебра.
А он уже смотреть не мог на золото+ и серебро
Пастух поведал, какие животные охраняют Тома Голубое Седло во время сна: дикая свинья и еще более дикий ко+зёл.
Флора забралась в лодку и уселась на ко+рме.
- Интересно, были ли в прошлом поединки между волшебниками? Битвы между двумя колду+нами?
Даже самые заурядные деревенские колду+ны вынуждены были проявлять максимум осмотрительности
Их подход к безумию корё+нным образом отличался от нашего.
Так, если вы по+мните, звали лакея и кучера+.
Однако об изгнании Уиллисов, зачарованном лесе+ и невидимом флейтисте не произнес ни сло+ва.
Как писали впоследствии в «Современном чародее», мистер Сегундус использовал ложку+ и шпильку для воло+с, которые служанка ее светлости связала ленточкой.
Люди до сих пор с сожалением рассуждают о ма+стерских и мельницах, которые можно было бы построить на берегу+
На месте Англии были непроходимые леса+ и голые пустоши, когда мы в последний раз видели наших матё+рей и отцов.
Я не собираюсь больше действовать по указке этого мелочно+го человека.
Река струится сквозь него, холмы набу+хают меж пальцев.
Желтая занавеска, обра+мленная снизу жирной полосой гря+зи, служила дверью и одновременно извещала желающих о том, чем торгуют в здешнем балагане.
Слу+ги вытащили несчастного больного из посте+ли, одели+ его, впихнули поднос с овсянкой в негнущиеся ру+ки и вытолкнули в дверь.
Их бесконечные ссоры с годами становились все ожесточенне+е.
Ничего не могло быть определенне+й
Нет необходимости говорить, насколько этот портрет отличё+н от других изображений Стренджа.
Они заброшены и по+росли бурьяном.
К счастью, ответить мистер Норрелл не успел, так как появление шведского по+сла заставило министра умчаться прочь.
История поиско+в твоего имени.
Винкулюс опасливо кивнул - уж больно посетитель походил на судебного приста+ва.
Мистер Гатком, как деловой человек, захотел вернуть де+ньги и послал в Лондон судебных приста+вов.
У пристане+й капитан Гилби велел кучеру остановиться.
В конце концов он решил, что неплохо будет наслать на французскую армию грозы+ и проли+вные дожди.
смогут ли мосты через Стаур и Оруэлл выдержать те мощные потоки воды+, которые неизбежно принесет сезон проли+вных дождей.
Мы не имеем знать и проси+м вас пойти туда, герр доктор.
Юные ростки проты+кают его здесь и там, они прорастают сквозь тело, сквозь ру+ки и но+ги.
- Слишком пыльно+ в сушь и очень грязно в дождь, - возразил лорд Веллингтон.
Поразительно, что в таком юном существе так сильно развито+ сострадание.
Дизраели не смог бы стать членом Парламента, если бы много раньше его отец, рассори+вшись с лондонской синагогой, не крестил детей в англиканстве.
Его выбор пал на мистера Джеффри, редактора+ «Эдинбургского обозрения»
миссис Клермонт - на са+мом деле мисс Джейн (Клер) Клермонт, сводна+я сестра Мэри Шелли.
Однако слу+ги забыли, как, впрочем, и их хозяин, что новый слуга молод и си+лён
Маргарет Форд была женщиной жестокой, скоро+й на расправу.
Ничего совершенне+е мне видеть не доводилось.
Давайте я сыграю вам и спо+ю!
В толпе уже начались жаркие споры+ о том, что именно капитан корабля сделал не так и что следует делать теперь.
Хотя все дома+ в Венеции кажутся старыми и необычными, в гетто они еще старше и необычнее, как будто живущий здесь торгашеский люд специализируется на ста+рине и странности.
Начиналось всё прекрасно: от завтрака до обеда Стрендж просиживал в халате у маленького столи+ка и успевал исписать виршами несколько дюжин страниц форматом в четвёртую долю листа.
Книга ждет в библиотеке; глаза+ мысленно всё еще скользят по строка+м
Я был уверен, что вы струси+те.
Было холодно и сыро+, с мо+ря дул свежий бриз.
Он дернул головой, когда доктор нечаянно задел его по у+ху набалдашником трости+.
Сильная половина человечества уто+пала в клу+бах табачного дыма.
Весьма странное обстоятельство, однако, то, что за ним последовало, оказалось еще чу+днее.
|
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вс Мар 15 2009, 14:13 | Вс Мар 15 2009, 14:13 | |
| ptoton - Цитата :
- По 45 версии
Спасибо, посмотрю. |
|
| | | SergeiSP Новичок
Сообщений : 19
Репутация : 0
| SergeiSP | :: Вт Мар 17 2009, 17:58 | Вт Мар 17 2009, 17:58 | |
| - rquester пишет:
- SergeiSP
А какими конкретно возможностями Ударятеля Вы пользуетесь? Озвучиваете сценки? Расстановка ударений и поиск омонимов для Ольги. Как по мне, так программа намного лучше это делает, чем по словарю. Ну а все остальные возможности и уж тем более, что-либо озвучивать не требуется, да и зачем, когда есть коммерческие голосовые двиги для этих целей, более качественные. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вт Мар 17 2009, 21:28 | Вт Мар 17 2009, 21:28 | |
| SergeiSP - Цитата :
Расстановка ударений и поиск омонимов для Ольги. Как по мне, так программа намного лучше это делает, чем по словарю. Ну а все остальные возможности и уж тем более, что-либо озвучивать не требуется, да и зачем, когда есть коммерческие голосовые двиги для этих целей, более качественные.
А чем тогда Книгодел не подходит? В режиме Export он умеет делать то же самое (расставляет ударения), даже ещё лучше (так как алгоритм заметно новее). |
|
| | | vnb1953 Наблюдатель
Сообщений : 3
Репутация : 0
| vnb1953 | :: Вт Июн 30 2009, 13:40 | Вт Июн 30 2009, 13:40 | |
| Здравствуйте. Нельзя-ли в программу "Книгодел" добавить следующие возможности: - обработку в режиме Export группы файлов; - удаления входного файла (файлов) по завершению обработки (по желанию пользователя); - запуск программы с командной строки с параметрами: имя входного файла, режим (Export, Синтез и т.д), признак удаления входного файла . |
|
| | | | Книгодел |
---|
| |