TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  



Книгодел

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеКнигодел
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Ср Ноя 12 2008, 15:18
Ср Ноя 12 2008, 15:18


http://www.bludnikov.ru

Программа книгодел занимается синтезом речи с помощью собственного движка. Пока синтез работает не идеально, но есть и плюсы:
  • Программа бесплатная
  • Программа многоязычная, причем голос от изменения языка не меняется (то есть, можно использовать для синтеза смешанного текста). На данный момент поддерживаются русский, английский, испанский немецкий, итальянский, французский, украинский, белорусский, болгарский, татарский, китайский пининь, японский ромадзи, корейская официальная транслитерация, литовский, латышский, эстонский, шведский, финский, норвежский, венгерский, латынь, греческий, албанский, чешский, польский, словацкий, хорватский (латиница), сербский (кириллица), македонский, португальский, румынский, датский, голландский, африкаанс, турецкий. А так же искусственные языки эсперанто, эсперанто, идо, новиаль. Не все языки поддерживаются одинаково хорошо (для украинского, белорусского и болгарского, например, нет расстановки ударений), но постоянно происходит улучшение.
  • Программа развивается
  • Возможность быстро сделать много голосов (на данный момент представлено два голоса, но женский голос пока не развивается и остался на уровне первых версий программы)
  • Программа использует ядро Ударятеля для расстановки ударений русского языка с учетом омонимов (и автоматической ё-фикации).
  • Не ставится никаких модулей в Windows
  • Поддерживается как синтез речи так и запись в wav, ogg, mp3.
  • В будущем планируется программный интерфейс для использования синтеза речи в пользовательских программах.
В программе два разных алгоритма синтеза, переключается в настройке (по слогам/нет). По умолчанию слоговой синтез отключен, хотя он немного лучше (идет отладка именно неслогового варианта).

31 Книгодел 1.55b

Интересует ваше мнение, с конкретными замечаниями (список непонятных букв и т.д.).


Если вы нашли ошибки замены и ударения дайте нам знать. Для этого отправьте пример текста с ошибочными ударениями через эту форму. Мы будем благодарны Вам за участие и помощь.


Вернуться к началу Перейти вниз
unknown
V.I.P.


Сообщений : 73
Репутация : 11

 unknown :: Пн Ноя 24 2008, 22:45
Пн Ноя 24 2008, 22:45

Цитата :
Программа использует ядро Ударятеля

Т.е. hash.dcp - 11 580 кб и MainDic.dzo - 4 478 кб это старые
из ударятеля.
Прогнав словарь 180 000 слов,ударятель нашел 65 000 новых,ну правда вы так и пишите в ридми - "... используя большой словарь ,больше 100000 слов...)
Я так понимаю,что словарь это MainDic.dzo,а что такое hash.dcp.
Книгодел пока не пробовал.Сейчас скачаю,гляну.

Вернуться к началу Перейти вниз
unknown
V.I.P.


Сообщений : 73
Репутация : 11

 unknown :: Вт Ноя 25 2008, 13:03
Вт Ноя 25 2008, 13:03

В общем очень "сырой" книгодел еще.
Если ударятель, чесно отрабатывал своё,то книгодел вообще не хочет
ничего делать.Да и правая сторона очень раздражает.
Вердикт-книгодел удалён и на время забыт.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Пт Ноя 28 2008, 23:18
Пт Ноя 28 2008, 23:18

Цитата :
Т.е. hash.dcp - 11 580 кб и MainDic.dzo - 4 478 кб это старые
из ударятеля.
Да, эти модули из Ударятеля. А алгоритмы немного усовершенствовались.
Цитата :
Я так понимаю,что словарь это MainDic.dzo,а что такое hash.dcp.
Это временнный файл, используемый для ускорения загрузки. Если его удалить, он будет создан заново.
Цитата :
В общем очень "сырой" книгодел еще.
Если ударятель, чесно отрабатывал своё,то книгодел вообще не хочет
ничего делать.
А что именно не хочет? Выбрать в настройках формат, куда конвертировать (для какого движка), нажать Ok и нажать Export.
Спросит какой файл и все... У меня, по крайней мере, все работает (должен получиться файл с окончанием _pre).
А синтезировать текст с помощью других движков система действительно не может - для этого лучше Ударятель использовать.

{quote]больше 100000 слов[/quote]
Да, но слова со всеми словоформами, что перерастает в 2 млн. форм. А в Вашем словаре, видимо, были какие-то очень специфичные слова (если можно, приведите пример найденных Книгоделом новых слов).

Вернуться к началу Перейти вниз
Stroodder
V.I.P.


Сообщений : 98
Репутация : 7

 Stroodder :: Ср Янв 07 2009, 22:18
Ср Янв 07 2009, 22:18

lev55
Попробуйте заглянуть сюда, и, если позволит время, полистайте тему, начиная с первой страницы.

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Ср Янв 07 2009, 23:22
Ср Янв 07 2009, 23:22

Stroodder
Понял! ruku

Вернуться к началу Перейти вниз
Stroodder
V.I.P.


Сообщений : 98
Репутация : 7

 Stroodder :: Чт Янв 08 2009, 14:55
Чт Янв 08 2009, 14:55

rquester
Вы не обижайтесь, но попытайтесь ознакомиться с тем, что уже есть в сети, например это:
Цитата :
[HKEY_LOCAL_MACHINE\SOFTWARE\Loquendo\LTTS7\default.session]
"SpellingLevel"="pronounse"
Спасибо, помогло, нужно будет рекомендацию отключить эту опцию, в комплекте с программой поставлять, а, возможно, и reg-файл....
я выкладывал в архиве словарей-фильтров, включая регфайл. М/б рискнем рассуждать конструктивно, не распыляясь на саморекламу, а не мусолить и представлять как эврику оболочку-интерфейс к аот, который в свою очередь пользует премиального Зализняка, и, опять же, с которыми, по моему мнению, вряд ли что-либо было согласовано при разработке программы? Тогда и дело синтеза возможно сдвинется с точки.

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Чт Янв 08 2009, 16:50
Чт Янв 08 2009, 16:50

rquester
Цитата :
Тут все определяется корректно. И, по идее, в первых двух вариантах все однозначно.
не работает!
Ну нету у Вас синтаксического анализа, всё заканчивается на морфологии по Зализняку и может быть некоторые согласования с непосредственно прилежащими словами.
Цитата :
Используются словари со знаком + для ударения (файл easy.dic и он же в окне), кроме того не подходят словари со звездочками и сочетаниями слов...
Какая разница + или ещё чего, это словари написанные Stroodder для замены знака ударения и никаких словосочетаний там нет, там слоги!

Stroodder
Присоединяюсь.
Цитата :
представлять как эврику оболочку-интерфейс к аот
Это программа называется Говорящая Мышь для дома 5.0
написанная ещё в 95 году http://herald.starstage.net/srv_spmh.htm

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Чт Янв 08 2009, 21:56
Чт Янв 08 2009, 21:56

Ticklish

Цитата :
Т.к. я совсем не программист, то абсолютно не представляю, как написать подобный парсер. Можете ли вы поделиться своей программкой? Пробовал пользоваться Ударятелем, но эффект все же хуже, чем при использовании словаря замен + соотв. лексикона (я пользуюсь Аленой). В любом случае, буду благодарен за ответ.
Беда в том, что я тоже не програмист!
Мне сложно написать гафический интерфейс в приемлемой форме.
Сейчас поставил Visual Studio 9.0, но разбираться наверное буду долго!
Поэтому надеюсь, что кто нибудь владеющий искуством программирования, откликнится.
Что касается парсера, то это даже не программа а несколько строк написанных на SP Forth http://www.forth.org.ru вызываюших те или иные нужные функции из программы Rml.
Все происходит у меня в режиме интерпритации, так что никакого exe-шника нет (можно конечно скомпилировать но ...).
Нужные адреса я искал трассировщиком.
Rml - программа с ограниченным временем пользования (конечно я по определённым адресам обрашаюсь, библиотечные функции защищены, но синтаксический словарь тоже защищён -тоже надо вскрывать).
Скажем так - это проба, экспиримент.
С удовольствием поделился бы, но это не выход.
Поэтому взываю к програмистам помогите, все явки и пароли есть!
Исходники на сайте АОТ тоже есть(для свободного использования)!

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Пт Янв 09 2009, 00:03
Пт Янв 09 2009, 00:03

Stroodder
Цитата :
я выкладывал в архиве словарей-фильтров, включая регфайл.
Не все пользователи программы знакомы с этим форумом, поэтому необходимые изменения я предпочитаю включать в программу...
Цитата :
а не мусолить и представлять как эврику оболочку-интерфейс к аот, который в свою очередь пользует премиального Зализняка, и, опять же, с которыми, по моему мнению, вряд ли что-либо было согласовано при разработке программы? Тогда и дело синтеза возможно сдвинется с точки.
Во-первых используется далеко не словарь Зализняка:
а)Он значительно пополнен (например, именами и географическими названиями, которых у Зализняка в принципе нет, кроме того, значительно пополнен сам словарь - фантастические, компьютерные термины и т.д. (написан собственный редактор словоформ, правда, пока не особо удобный для конечных пользователей...).
б) Используется совсем другая система для записи - у Зализняка все написано для печати в виде книги, для того, чтобы все это можно было вводить в компьютер, нужна существенная доработка (даже если не говорить о всяких цифрах в кружочках, которые нужно заменять). Очень многое в его книге указанно без подробностей и нужно выяснять все это на практике и т.д. По-сути, нужна полная переработка этого словаря. Очень много вещей изменилось, например, исключения записываются в другом виде (с другим количеством форм, чем у Зализняка). Я уж не говорю что в том же словаре хранится и дополнительная информация, которой у Зализняка просто не было...
Грубо говоря, от словаря Зализняка там мало что осталось.
lev55
Цитата :
не работает!
Вот это странно, я перед тем как писать пост проверил - все работает. По крайней мере, на той версии предложений, которую я тестировал.
Цитата :
Ну нету у Вас синтаксического анализа, всё заканчивается на морфологии по Зализняку и может быть некоторые согласования с непосредственно прилежащими словами
Используются все слова из предложения, кроме того, для некоторых слов используется и весь контекст. Возможно, я не все вещи предусмотрел в своем синтаксическом анализаторе (вполне возможно), кроме того, некоторая нужная информация у меня отсутствует (например, какими падежами управляют глаголы (без предлога) (кроме винительного, тут все понятно), новый файл со списком глаголов управляющих без предлога творительным падежом пока не пробовал) и т.д.

Вернуться к началу Перейти вниз
Ticklish
Новичок


Сообщений : 11
Репутация : 1

 Ticklish :: Пт Янв 09 2009, 00:11
Пт Янв 09 2009, 00:11

Присоединяюсь к просьбе lev55. И еще о расстановке ударений. Нашел тут программку http://bmyr.kiev.ua/Rhymes/rhymes.zip
В комплекте идет масса баз данных, в том числе и словари Зализняка и Лопатина. Программа успешно расставляет ударения, если допускается не один вариант ударения, рядом в фигурных скобках указан другой вариант. Может кому-то пригодиться.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Пт Янв 09 2009, 00:26
Пт Янв 09 2009, 00:26

lev55
Цитата :
Rml - программа с ограниченным временем пользования (конечно я по определённым адресам обрашаюсь, библиотечные функции защищены, но синтаксический словарь тоже защищён -тоже надо вскрывать).
Я программист, но не хакер... А использовать чужую программу, особенно платную, в своем продукте очень нежелательно (поэтому я и стараюсь заменить и звуковой движок)...

Ticklish
Цитата :
http://bmyr.kiev.ua/Rhymes/rhymes.zip
Там порожденный словарь Зализняка, да еще без части информации - падежи вообще никак не выяснить... А словарь Лопатина, вообще для программ практически не пригоден (словоизменение там записано хрен знает как, в разных местах по разному) (а в этой программе еще и без словоизменения в каком-либо виде).

Вернуться к началу Перейти вниз
Stroodder
V.I.P.


Сообщений : 98
Репутация : 7

 Stroodder :: Пт Янв 09 2009, 09:23
Пт Янв 09 2009, 09:23

lev55 Ticklish
Есть бесплатный инструмент (хотя, возможно, вы об этом знаете) для тех, у кого нет возможности ковыряться в языках программирования. Статья Вики тут, там и ссылка на сайт. Правда штука в плане работы небыстрая, но чем-то приходится жертвовать - закон сохранения энергии Smile

rquester
Цитата :
А словарь Лопатина, вообще для программ практически не пригоден
Имхо как раз наоборот - все на тарелочке выложено для нас ленивых.
Насчет Зализняка. Напоминает высказывание одного человека, разработавшего, мягко говоря, неторопливую оболочку-декорацию под WinXP, который на полном серьезе опускал Гейтса.
Вы ж неглупый человек: идеи есть, некоторые знания тоже, для чего дурака валять из форума в форум?

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Пт Янв 09 2009, 16:35
Пт Янв 09 2009, 16:35

Stroodder
Цитата :
Имхо как раз наоборот - все на тарелочке выложено для нас ленивых.
До того момента, как я узнал о словаре Зализняка, я как раз использовал
словарь Лопатина (морфологию существительных практически полностью сделал на нём). Очень много неоднозначностей. Конечно, использовать за неимением другого варианта можно, но, по сути, приходиться каждый формат записи отдельно конвертировать и делать много совершенно лишней работы. И в результате получается что-то вроде словаря Зализняка Smile.

Цитата :

Насчет Зализняка. Напоминает высказывание одного человека, разработавшего, мягко говоря, неторопливую оболочку-декорацию под WinXP, который на полном серьезе опускал Гейтса
У меня не одна оболочка, в программе сложная логика (морфология, синтаксический анализ, местами с учётом смысла). Если бы было все так просто, то это все встроили бы в движки Smile А я в одиночку это несколько лет писал Smile.
Особо никого не ругаю (разве что кроме Майкрософтовского SAPI, где не указан символ для простановки ударений). Грамматического разбора даже такого уровня (с некоторыми ошибками) я ни в одной бесплатной программе не видел. Да и в платных не все корректно, особенно что касается не синтаксиса, а смысла.

evilone_
Цитата :

это с настройками (Алена со словарями омонимов)
много много лишних ударений (читает и так нормально аленка)
штО тО тАм двА - это ж не омографы зачем оно нужно?
На данный момент проставляются все ударения (так как программа писалась, в первую очередь для своего голосового движка). В одной из следующих версий, возможно, будет сделано.
Цитата :
можно ли как-то оставить только поиск омографов, замену Е=Ё и замену Е=Э там где пишется "е" а читается либо "ё" либо "э" без простановки ударений в тексте обычным словам?
В принципе, можно, но не в текущей версии.

Цитата :
и еще - как править или проставлять ударения для новых слов те которые выписываются в главное окно после поиска? прямо в окне ставить + и слово сохраниться в словарь и при следующем поиске будет ставить правильное ударение и не выскакивать при очередном поиске новых слов? или не так?
Да либо в формате
Петю+нечка
либо
Петюнечка=Петю+нечка

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Пт Янв 09 2009, 20:51
Пт Янв 09 2009, 20:51

rquester
Цитата :
Вот это странно, я перед тем как писать пост проверил - все работает. По крайней мере, на той версии предложений, которую я тестировал.
Сейчас попробую новую версию, может быть я не прав.

Цитата :
Используются все слова из предложения, кроме того, для некоторых слов используется и весь контекст. Возможно, я не все вещи предусмотрел в своем синтаксическом анализаторе (вполне возможно),


В программе Говорящяя Мышь (ссылку я давал) тоже пишут, что применяют несколько сотен правил для разрешения омонимии, а рзультат один к однома как у Вас. Это говорит о том, что подход не верный!
mia давала пример http://mytts.forum2x2.ru/forum-f28/tema-t183.htm как надо, - это АОТ, если надо могу дать десятка полтора ссылок от других авторов. Не на одном АОТ свет клином ... (С двумя авторами переписываюсь).

Цитата :
Я программист, но не хакер... А использовать чужую программу, особенно платную, в своем продукте очень нежелательно

Я писал к Ticklish, и не предлагаю Вам заниматься hack-ом, а причины почему я это делаю помоему понятны из письма.
Для всех модулей RML есть исходники для свободного пользования, но я не могу получить обьектный код потому что я не програмист, тем бопее, что исходник заторен под пингвина. (Сейчас поставил Сygwin попробую компильнуть под windous легально). В solarix тоже есть исходники грамматического движка для свободного пользования. Много чего есть . . ., но надо быть программистом.

Stroodder
Спасибо за ссылку! Не знал!
Программированием лет 25 не занимался, в затёртые голы даже на asm -е писал.
На тему синтеза на другом форуме - может пригодиться:
В свё время делал синтезатор (не для голоса) таким образом - беруться 3-5 гармоник и для каждой задаётся своя огибающая. Для гармоник могут быть примененны генераторы (разумеется программные) для "ударника", сродни согласным - гнератор белого шума, тоже с огибающей. Похоже на фильтрацию, но немного другое.
Результат был потрясающем. Понимаю, что голос это другое, но что-то в этом есть.
Этоя так, кслову.
Спасибо!

Ticklish
Спасибо!
Для меня, то что доктор прописал.

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Сб Янв 10 2009, 00:11
Сб Янв 10 2009, 00:11

Stroodder

А как делается экспорт из Russian.rex, если не секрет?
Ешё раз спасибо за ссылку, жить стало легче!

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Пн Янв 12 2009, 16:36
Пн Янв 12 2009, 16:36

Исправил вышеупомянутые ошибки (те, которые можно исправить не разбирая смысла). В следующей версии (когда выложу), должно быть все нормально.

Вернуться к началу Перейти вниз
Leopold
Интересующийся


Сообщений : 8
Репутация : 1

 Leopold :: Сб Янв 17 2009, 18:20
Сб Янв 17 2009, 18:20

Программа - супер. Процентов 90 омонимов правильно различает. А если текст с ё, то и все 95 (если не 99)! Наиболее частый затык на тексте без ё - все/всё. Лучшая программа для подготовки текста для чтения, что я встречал.

P.S.: А сама (встроенным голосом) читает пока не очень... Зато не требует установки движков, что иногда - большой плюс.

Вернуться к началу Перейти вниз
unknown
V.I.P.


Сообщений : 73
Репутация : 11

 unknown :: Сб Янв 17 2009, 21:09
Сб Янв 17 2009, 21:09

Leopold

Понятно, ваше восхищение. Не спорю, достаточно быстро и относительно качественно, но...
Когда вы наслушаетесь,таким способом подготовленные тексты, когда устанете от... ну пусть 10% неправильных омографов, когда вам по мозгам проедутся по нескольку раз слова типа:
допе<ла, пе<ла, сме<л, ме<р, ноздре<й, обре<тшие, пере<ть, потере<ть, похле<ще, приве<дшая, припере<ть, прове<дшего, проче<сть, сопле<й, суета<-суе<т, утере<ть, шле<м,...,
когда вы станете прислушиваться, и поймёте, что например частица "не" с глаголами(особенно начинающимися с согласной) звучит неестественно, так же как и слова типа "как-то, когда-то,кому-нибудь,кого-то и т.д", ну и тому подобное(очень многое можно подправить,было бы желание), вы обратите свой взор, на программы умеющие работать со словарями .dic, где всё это исправляется и речь(в данном случае Николая) приобретает похожесть на нормальное человеческое произношение.
Всё это верно, до выхода качественного мужского голоса, но это уже отдельная тема. Question

Вернуться к началу Перейти вниз
unknown
V.I.P.


Сообщений : 73
Репутация : 11

 unknown :: Вс Янв 18 2009, 01:01
Вс Янв 18 2009, 01:01

Leopold
Цитата :
...проблем не замечал, нормально все синтезируется...

Да не об этом речь, речь о том, чтобы помочь Николаю воспроизводить текст хоть немного приблеженным к нормальной человеческой речи при чтении вслух.
А вообще ладно...проехали! Всему своё время.

p.s. Но дергание рекламы меня достаёт за 10 секунд, может
автор лучше напихает ее на свой сайт, а из программы уберёт.

[тихо в сторону] а мы порежем её adblock+

Вернуться к началу Перейти вниз
Stroodder
V.I.P.


Сообщений : 98
Репутация : 7

 Stroodder :: Сб Янв 24 2009, 07:13
Сб Янв 24 2009, 07:13

rquester & ALL

"Книгодел" - судя по всему обычный хэшированный словарь.
Омографы отлавливаются статьями словосочетаний, как это делается в читалках. Никакого алгоритма, а тем более алгоритма распознавания не наблюдается - вчера ради интереса проверил. Тут уж извините, но аргументированно доказать обратное Вы пока не можете.
Что Вы сделаете для того чтобы исправить предложения, которые указал, например, ptoton ? Да очень просто: вобьете в словарь сочетания: "нам нужны = нам нужны<", ну м/б еще вставите "вам нужны = вам нужны<" и т.п. "все кому не лень = все кому< не ле<нь" и так далее. Введенный в заблуждение пользователь будет думать, что исправлены недочеты алгоритма и, благодаря найденным им ошибкам, программа стала "умнее" Smile

Короче говоря, по всей видимости, используется словарь, по типу словаря словосочетаний омографов, которые разработаны для Николая и др. движков и представляется это как некий "уникальный алгоритм". Это ИМХО, но это имхо на 99,9% приблизилось к убеждению.

Вернуться к началу Перейти вниз
unknown
V.I.P.


Сообщений : 73
Репутация : 11

 unknown :: Сб Янв 24 2009, 12:49
Сб Янв 24 2009, 12:49

Stroodder

Скорее вы правы на сто,чем нет. Прослушав несколько текстов, и несколько просто подготовил этой прогой и попытался проанализировать. Конечно используется словарь, по типу диков, который нам к сожалению не дано исправлять или редактировать.(к сожалению с доступными easy.dic и др. очень сильно падает скорость обработки,поэтому не пользую)
Но на данном этапе, мне именно интересен последний вариант программы, как соответствующий моим предпочтениям в произношении Николая.
После обработки, подготовленными несколькими . dic, в балаболке, текста сделанного книгоделом получается довольно неплохо.
Если автор будет исправлять свой словарь, и двигаться в интересном мне направлении, то почему бы ему не помочь. А я буду потихонку делать свои дики для исправления сделанных книгоделом текстов и приведения их уже полность в интересующий меня вид для озвучивания.
Пока на данном этапе для меня симбиоз балаболки и книгодела самый оптимальный вариант.(ещё и потому,что практическая необходимость exc_rus.txt сводится к нулю, что добавляет Николаю более плавное чтение и экономит время и силы затрачиваемые для ведения этого словаря.imho)

Вернуться к началу Перейти вниз
Stroodder
V.I.P.


Сообщений : 98
Репутация : 7

 Stroodder :: Вс Янв 25 2009, 01:17
Вс Янв 25 2009, 01:17

slag
Ну каждый тратит свое свободное время как ему заблагорассудится, уважаю и Ваше и свое... М/б время "битья об стенку" со словарями рациональней потратить на изучение хотя бы того же VB или скриптов консоли - тогда на явную болтовню, как на истину, внимание перестанете обращать? Нет, ну если серьезно подумать, нужна расширенная база словаря. Словарь один - Зализняк (другого НЕТ), его и нужно развивать, а уж потом применять это к Коле-Оле-Алене, вот тогда будет некая унификация. Универсальный алгоритм фильтрации "лишних правил" для любого SAPI-движка до смешного прост (но не самый быстрый естественно), независимо от их SDK.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Вс Янв 25 2009, 02:42
Вс Янв 25 2009, 02:42

Stroodder
Цитата :
"Книгодел" - судя по всему обычный хэшированный словарь.
Омографы отлавливаются статьями словосочетаний, как это делается в читалках. Никакого алгоритма, а тем более алгоритма распознавания не наблюдается - вчера ради интереса проверил. Тут уж извините, но аргументированно доказать обратное Вы пока не можете
Алгоритм есть. Другое дело, что он далеко не во всех случаях помогает - для того, что не распознаётся в автоматическом режиме - действительно что-то вроде словаря сочетаний (но в некоторых случаях для выбора омонима используются более сложные алгоритмы, включая просмотр последних 100 слов и т.д....).
Большинство омонимов русского языка - омонимия падежных форм, она вылавливается с помощью алгоритма. Так же с помощью алгоритма делается разбор все/всё и некоторые другие. А все возможные сочетания не забьешь...
Вот то, что остаётся - да, с помощью сочетаний и добавления пометок в словарь... А других вариантов и нет... Если предложите универсальный способ различия омонимии каких-либо частей речи) - вполне возможно, что реализую...

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Вс Янв 25 2009, 03:00
Вс Янв 25 2009, 03:00

Цитата :
Словарь один - Зализняк (другого НЕТ),
В словаре Зализняка вообще нет имен и географических названий... И современных терминов. Так что его надо сильно пополнять...
Если это делать без реализации словоизменения - очень запарит добавлять все варианты (для прилагательных - как минимум 28 форм, для глаголов со всеми причастиями - еще больше)...

Вернуться к началу Перейти вниз
Stroodder
V.I.P.


Сообщений : 98
Репутация : 7

 Stroodder :: Вс Янв 25 2009, 12:33
Вс Янв 25 2009, 12:33

rquester
Омонимия решается не падежами (это примитив и расширение словарной статьи опять же), а вероятностью, которую до сих пор никто вариативно не может решить. И не сможет, пока прогресс в сторону накопления образной базы искусственного интеллекта не сдвинется.
Про Зализняка - ну поняли ж Вы все (если нет, то умываю руки), про ин. яз. словари тоже можно сказать, про частотные словари, про орфоэпические еще вспомнить и т.д. и выбросить этот словарь, т.к. он "неполный" ))))

Вернуться к началу Перейти вниз
unknown
V.I.P.


Сообщений : 73
Репутация : 11

 unknown :: Вс Янв 25 2009, 13:39
Вс Янв 25 2009, 13:39

Stroodder
На что вы злитесь? Рекомендуете что-то изучать, выбрасывать, и т.д. Всё что мне надо я изучу и применю для своих нужд. Не было бы балаболки, книгодела, нашёл бы замену и подстроил под себя. Выбрасывать? А замена есть? Если вы считаете, что знаете как, а главное можете это "как" воплотить в жизнь-сделайте(и желательно не примитив).
Вас поблагодарят, а скорее всего нет, а будут также выискивать "блох".
Пока есть добрые люди и пишут для нас проги, пользуемся, что не нравится исправляем доступными способами, уйдут эти добрые люди, будем искать замену и пользоваться.
Если уж за столько лет tts комьюнити не сложилось, то и ожидать чуда не стоит.
Каждый за себя, есть желание-делитесь, нет, и слава богу.
Например меня совершенно сейчас не интересуют ни Алёна, ни Ольга. Кого-то впрочем, совершенно не интересует Николай. И мне совершенно не важно как автор книгодела реализует некоторые функции своей программы, меня это пока устраивает, я пользуюсь. Перестанет устраивать, ищу замену или творю её для себя, доступными мне способами.
Словари это вообще необъятная тема, правда которую можно описать двуми словами, необъятная,но очень личная, а дополнить например Зализняка еще "лимоном" слов это не так уж и трудно, но надо ли это? Кому надо, наверняка уже сделал.

Вернуться к началу Перейти вниз
lev55
Участник «online словари»
avatar


Сообщений : 384
Репутация : 45

 lev55 :: Вс Янв 25 2009, 22:01
Вс Янв 25 2009, 22:01

Ребята давайте жить дружно!
Есть два подхода к проблемме:
Утилитарный, т.е выбор программы, какая делает меньше ошибок и имеет маленькие или наоборот большие словари, быстро работает и т.д. Более удобна наконец пусть даже с ошибками.
И академический, т.е. какой алгоритм более правильный, по какой мадели построена. . .
Это две большие разницы!

КромеЗализняка, есть в десятки раз большие словари, например у поисковиков Рамблер или Nigma.ru.
Только в определённом смысле они проблемы не решают.
Панацеи пока нет. Такой пример:
Навоял хакерским методом програмку на основе материалов АОТ, которая делала 3-6 ошибок на 8 книг (в основном фантастика). Сегодня попробовал обработать текст, в котором много подстрочных понятий и слова имеют двойное смысловое значение, так получилось до 30 ошибок на главу.
Вывод нужны технологии И.И. Может быть даже с ипльзованием нейронных сетей с обучением, ведь тематика сродни распознаванию образов. Обучение (словарный запас в том числе) тоже имеет место быть.
У меня много знакомых иностранцев, так двойной смысл того или иного высказывания понимают те, кто прожил достаточно в России. Русский язык совсем не западный.
Вообще-то есть ветка "Общие разговоры про лингвистическую обработку текста", но она почему-то пустая (хочешь чтобы дело зегнулось - надо его легализовать и заадминистрировать).
Stroodder
По вопросам в ветке "Словари вопрос" отпишусь позже, пока ещё в процессе...

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Пн Янв 26 2009, 01:32
Пн Янв 26 2009, 01:32

Stroodder
Цитата :
Омонимия решается не падежами (это примитив и расширение словарной статьи опять же), а вероятностью, которую до сих пор никто вариативно не может решить.
Как раз очень большая часть решается на уровне падежных форм. Оставшиеся (кроме совсем устаревших форм, да и то, в принципе, при разборе старых текстов они могут понадобиться), на самом деле, тоже решаются, но сложнее. Человек же практически всегда понимает говорится про тесто или тЭст и т.д. И, в принципе, большую часть вполне реально решить... Какая-то часть останется, разумеется, на откуп вероятностям, но меньшая часть...

Цитата :
И не сможет, пока прогресс в сторону накопления образной базы искусственного интеллекта не сдвинется.
Вряд ли проблема ИИ сдвинется с места если ею не заниматься. Думаю, что на первых порах будут востребованы и алгоритмы распознавания изображений и голоса, и различия омонимов... Нейронные сети и т.п. сами по себе ничего не решат...

P.S.:
lev55
Цитата :
КромеЗализняка, есть в десятки раз большие словари, например у поисковиков Рамблер или Nigma.ru.
Вряд ли их словари с ударениями - для поисковиков это не нужно.

Цитата :
Сегодня попробовал обработать текст, в котором много подстрочных понятий и слова имеют двойное смысловое значение, так получилось до 30 ошибок на главу
А что за текст, если не секрет?

Вернуться к началу Перейти вниз
SergeiSP
Новичок


Сообщений : 19
Репутация : 0

 SergeiSP :: Сб Мар 14 2009, 02:29
Сб Мар 14 2009, 02:29

По книгоделу не знаю, как по мне, так программа по большой части не особо нужная. А вот Ударитель хорошая прога, но там глюк один есть, при большом колличестве текста программа вылетает. Что за глюк, как лечится? И почему тема про Ударитель закрыта?

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Сб Мар 14 2009, 19:01
Сб Мар 14 2009, 19:01

SergeiSP
Цитата :
А вот Ударитель хорошая прога, но там глюк один есть, при большом колличестве текста программа вылетает. Что за глюк, как лечится? И почему тема про Ударитель закрыта?
Тема закрыта потому, что на разработку той программы пока времени не хватает. Но, в принципе, планирую ее возможности добавить в Книгодел (чтение с помощью SAPI движков, озвучивание сценок и т.д.) - тогда и ошибка, скорее всего, будет исправлена. Но это планируется сделать несколько позже.
А какими конкретно возможностями Ударятеля Вы пользуетесь? Озвучиваете сценки?

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Сб Мар 14 2009, 19:27
Сб Мар 14 2009, 19:27

По 45 версии
Спойлер:
 

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Вс Мар 15 2009, 14:13
Вс Мар 15 2009, 14:13

ptoton
Цитата :
По 45 версии
Спасибо, посмотрю.

Вернуться к началу Перейти вниз
SergeiSP
Новичок


Сообщений : 19
Репутация : 0

 SergeiSP :: Вт Мар 17 2009, 17:58
Вт Мар 17 2009, 17:58

rquester пишет:
SergeiSP
А какими конкретно возможностями Ударятеля Вы пользуетесь? Озвучиваете сценки?

Расстановка ударений и поиск омонимов для Ольги. Как по мне, так программа намного лучше это делает, чем по словарю. Ну а все остальные возможности и уж тем более, что-либо озвучивать не требуется, да и зачем, когда есть коммерческие голосовые двиги для этих целей, более качественные.

Вернуться к началу Перейти вниз
rquester
V.I.P.


Сообщений : 137
Репутация : 16

 rquester :: Вт Мар 17 2009, 21:28
Вт Мар 17 2009, 21:28

SergeiSP
Цитата :

Расстановка ударений и поиск омонимов для Ольги. Как по мне, так программа намного лучше это делает, чем по словарю. Ну а все остальные возможности и уж тем более, что-либо озвучивать не требуется, да и зачем, когда есть коммерческие голосовые двиги для этих целей, более качественные.
А чем тогда Книгодел не подходит? В режиме Export он умеет делать то же самое (расставляет ударения), даже ещё лучше (так как алгоритм заметно новее).

Вернуться к началу Перейти вниз
vnb1953
Наблюдатель


Сообщений : 3
Репутация : 0

 vnb1953 :: Вт Июн 30 2009, 13:40
Вт Июн 30 2009, 13:40

Здравствуйте.
Нельзя-ли в программу "Книгодел" добавить следующие возможности:
- обработку в режиме Export группы файлов;
- удаления входного файла (файлов) по завершению обработки (по желанию пользователя);
- запуск программы с командной строки с параметрами: имя входного файла, режим (Export, Синтез и т.д), признак удаления входного файла .

Вернуться к началу Перейти вниз

Книгодел

Предыдущая тема Следующая тема Вернуться к началу
Книгодел
Страница 1 из 1Страница 1 из 1
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении