|
| |
Автор | Сообщение | Demagog (Демагог) |
---|
apokrif V.I.P.
Сообщений : 304
| apokrif | :: Ср Сен 09 2015, 17:32 | Ср Сен 09 2015, 17:32 | |
| - flegont пишет:
- Демагог не поддерживает epub. По сравнению с fb2 он малораспространен и я пока не решил, нужна ли его поддержка в Демагоге.
Да они вроде не сильно отличаются?
- flegont пишет:
- А чем не устраивает Балаболка? Она поддерживает epub и имеется консольная ее версия - работающая из командной строки. Вот Вам и готовый конвертер. Или я чего-то не понимаю?
Скорее я (не понимаю). Т.е. консольная Балаболка сделает из исходного epub-а epub с ударениями, а не wav или еще что-то?
|
|
| | | flegont V.I.P.
Сообщений : 355
Репутация : 476
| flegont | :: Ср Сен 09 2015, 19:54 | Ср Сен 09 2015, 19:54 | |
| - Цитата :
- Да они вроде не сильно отличаются?
Отличие большое. fb2 - это просто текст с разметкой, аналогичной html А epub - это zip-архив, внутри которого множество папок с разным содержимым: картинки там, оглавление здесь, шрифты еще где-то, а собственно текст книги - это xml-файлы, причем может быть один большой или куча мелких - по главам - в общем, морока еще та.
- Цитата :
- Скорее я (не понимаю). Т.е. консольная Балаболка сделает из исходного epub-а epub с ударениями, а не wav или еще что-то?
Обе программы: Демагог и Балаболка, кроме аудио-файлов, могут делать т.н. "измененный текст" - содержащий все словарные замены. Если применялся только словарь ударений - то будет текст с ударениями. НО... это будет обычный текст! Не epub, не fb2, не doc или rtf, а простой txt. Пригодный опять-таки для чтения вслух или записи аудио. Но уже со словарными поправками. Воссоздать текст в том же формате, который был изначально, ни Демагог, ни Балаболка не смогут. То есть, на выходе будет обычный банальный текст с ударениями, и всё. И опять-таки, если нужно таким способом обрабатывать именно формат epub, да еще из командной строки - то попробуйте Балаболку. В документации описана работа с ее консольной версией.
|
|
| | | apokrif V.I.P.
Сообщений : 304
Репутация : 85
| apokrif | :: Чт Сен 10 2015, 01:36 | Чт Сен 10 2015, 01:36 | |
| - flegont пишет:
- НО... это будет обычный текст! Не epub, не fb2, не doc или rtf, а простой txt.
Понятно. Вопросов нет. Я понимаю, что задача не простая... Похоже проще написать TTS proxy, кот. ест простой текст, применяет словарь ударений и отдаёт настоящему TTS. Понятно, что TTS и сам словари применять может, засада только с Ё и омографами. Собственно вопрос: могут Демагог и Балаболка проводить анализ текста, и распознавать Ё/омографы, чтобы TTS-у осталось только применить словарь?
|
|
| | | flegont V.I.P.
Сообщений : 355
Репутация : 476
| | | | apokrif V.I.P.
Сообщений : 304
Репутация : 85
| apokrif | :: Чт Сен 10 2015, 17:40 | Чт Сен 10 2015, 17:40 | |
| - flegont пишет:
- На Форуме в разделе "Тематические словари" есть Словарь замен для разрешения ё-омографов все/всё
И как же его прикрутить например к Андроиду? |
|
| | | apokrif V.I.P.
Сообщений : 304
Репутация : 85
| apokrif | :: Чт Сен 10 2015, 19:02 | Чт Сен 10 2015, 19:02 | |
| - flegont пишет:
- Он - эмпирический, составлен на основе некоторых обнаруженных закономерностей в русских текстах, и его эффективность ~ 50%. В среднем, половину омографов "все/всё" в любом тексте этот словарь найдет.
А алгоритм большой/сложный? Где-то можно его посмотреть? Есть его реализация на плюсах, чтобы TTS proxy написать?
|
|
| | | flegont V.I.P.
Сообщений : 355
Репутация : 476
| flegont | :: Чт Сен 10 2015, 21:13 | Чт Сен 10 2015, 21:13 | |
| - Цитата :
- А алгоритм большой/сложный?
Где-то можно его посмотреть? Сложный и запутанный. Составлял его я... и сам уже с трудом в нем разбираюсь Это просто набор правил, не имеющих под собой никакого теоретического обоснования. И оформленный сразу в виде словаря YOhmg.dic Например: $*... И все,=... И всё, Если некоторое предложение заканчивается многоточием, за которым идет словосочетание "И все" с запятой на конце, то слово "все" заменяется на "всё" все словно воды=2ъ 2ъ=все словно воды Если встретится словосочетание "все словно воды", то заменить его временно на "2ъ", чтобы оно не попало под ошибочную замену "все -> всё", а в конце вернуть обратно И так далее и тому подобное. Составлялось по принципу "лесом еду, лес пою"
Потом evilon_ и evmir_troll-hunter переписали этот словарь регулярными выражениями, чтобы он работал не только в Демагоге, но и в Балаболке. От этого он стал выглядеть еще страшнее Называется vse_vsyo.rex
При написании некоего автомата для разрешения омографа "все-всё" рекомендую использовать именно словарь vse_vsyo.rex. Потому что: 1) он уже проверен на практике; 2) готовые компоненты обработки регулярных выражений имеются и для C++ и для Delphi; 3) алгоритм работы словарей DIC в Демагоге отличается от классического, и сложен в реализации. |
|
| | | evmir_troll-hunter Admin
Сообщений : 616
Репутация : 208
| evmir_troll-hunter | :: Чт Сен 10 2015, 21:59 | Чт Сен 10 2015, 21:59 | |
| Вопрос ещё больше запутаю; evilon_ модифицировал YOhmg.dic и предложил мне проверить. Я сформировал несколько крупных сборников, и составил список из 5тыс. фраз с неправильной заменой все\всё.
После исправлений, ошибочных фраз стало 200(!) Результат меня и evilon_ удовлетворил... НО... я заметил, что без corector_alyona.rex словарь vse_vsyo.rex использовать бессмысленно - много ошибок. Т.е. очевидно для точности замен все\всё в корректор Алёны было добавлено какое-то правило(а).
Я спрашивал evilon_ об этом, но ответа нет и его самого очень долго нет. Т.о. я и не знаю нужен ли корректор, что там за правило и есть ли оно ещё... По .epub; данный формат очень красив в визуальном представлении книги. Как по мне, наилучше отображается в Firefox... |
|
| | | flegont V.I.P.
Сообщений : 355
Репутация : 476
| flegont | :: Чт Сен 10 2015, 22:51 | Чт Сен 10 2015, 22:51 | |
| Я пробовал поискать в Инете: не достигнуто ли какого прогресса в вопросе разрешения Ё-омографов? Увы, пока ничего нового.
А формат ePub постепенно распространяется... становится популярным. В следующей версии Демагога будет добавлено распознавание формата ePub. |
|
| | | apokrif V.I.P.
Сообщений : 304
Репутация : 85
| apokrif | :: Пт Сен 11 2015, 00:25 | Пт Сен 11 2015, 00:25 | |
| - evmir_troll-hunter пишет:
- что без corector_alyona.rex словарь vse_vsyo.rex использовать бессмысленно - много ошибок.
Да засада... Прогонять вагон регексов для каждого предложения на мобиле - это просто высаживать батарею... Получается, более правильно сам epub обрабатывать, что тоже совсем не просто. Предлагаю закрыть вопрос до лучших времен...
|
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| | | | apokrif V.I.P.
Сообщений : 304
Репутация : 85
| apokrif | :: Сб Сен 19 2015, 18:41 | Сб Сен 19 2015, 18:41 | |
| - evilone_ пишет:
- неужели на смартфоне так удобно возиться со всеми этими словарями и заменами? не проще ли все сделать на компьютере и потом перекинуть готовое?
Чтобы не потерять разметку (например fb2) - похоже что не проще... |
|
| | | evmir_troll-hunter Admin
Сообщений : 616
Репутация : 208
| evmir_troll-hunter | :: Чт Окт 27 2016, 19:13 | Чт Окт 27 2016, 19:13 | |
| Формат *.dxt удобный и практичный: a. все закладки, картинки\таблицы, выделение шрифтом и цветом сохраняются. Можно подготовить список слов\фраз, выделить проблемные моменты, проиллюстрировать скринами, и переслать другу.
b. уменьшение размера больших сборников в 1.5-3 раза. |
|
| | | flegont V.I.P.
Сообщений : 355
Репутация : 476
| flegont | :: Чт Окт 27 2016, 21:55 | Чт Окт 27 2016, 21:55 | |
| СтОит упомянуть, что именно evmir_troll-hunter более года назад (или даже раньше) предложил мне подумать над собственным форматом Демагога и назвать его DXT - Demagog teXT. Пусть бы в нем вместе с текстом хранились и закладки. Потому что банальное хранение их в настроечном файле - это не самый лучший метод. Я далеко не сразу воспринял эту мысль. "Всё и так нормально, всё и так сойдет..."
А когда, случайно удалив файл настроек Демагога, потерял тем самым все закладки в важных для меня текстах, то задумался... Пришло в голову, что и импортированные картинки лучше не сваливать в многочисленных автоматически создаваемых папках, а хранить т.с. "поближе к телу", в том же dxt-файле... Впоследствии evmir_troll-hunter серьезно помог с тестированием нового формата, за что ему спасибо. |
|
| | | | Demagog (Демагог) |
---|
| |