语音合成技术和文本语音转换 - Synthetic voice and Text to Speech technology - Синтетический голос и технологии преобразования текста в речь
 
TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  

Demagog (Демагог)

Предыдущая тема Следующая тема Перейти вниз
На страницу : Предыдущий  1, 2, 3, 4, 5
АвторСообщениеDemagog (Демагог)
apokrif
V.I.P.


Сообщений : 304

 apokrif :: Ср Сен 09 2015, 17:32
Ср Сен 09 2015, 17:32

flegont пишет:
Демагог не поддерживает epub. По сравнению с fb2 он малораспространен и я пока не решил, нужна ли его поддержка в Демагоге.
Да они вроде не сильно отличаются?

flegont пишет:
А чем не устраивает Балаболка? Она поддерживает epub и имеется консольная ее версия - работающая из командной строки. Вот Вам и готовый конвертер. Или я чего-то не понимаю?
Скорее я (не понимаю). Т.е. консольная Балаболка сделает из исходного epub-а epub с ударениями, а не wav или еще что-то?

Вернуться к началу Перейти вниз
flegont
V.I.P.
avatar


Сообщений : 355
Репутация : 476

 flegont :: Ср Сен 09 2015, 19:54
Ср Сен 09 2015, 19:54

Цитата :
Да они вроде не сильно отличаются?
Отличие большое. fb2 - это просто текст с разметкой, аналогичной html
А epub - это zip-архив, внутри которого множество папок с разным содержимым: картинки там, оглавление здесь, шрифты еще где-то, а собственно текст книги - это xml-файлы, причем может быть один большой или куча мелких - по главам - в общем, морока еще та.

Цитата :
Скорее я (не понимаю). Т.е. консольная Балаболка сделает из исходного epub-а epub с ударениями, а не wav или еще что-то?
Обе программы: Демагог и Балаболка, кроме аудио-файлов, могут делать т.н. "измененный текст" - содержащий все словарные замены. Если применялся только словарь ударений - то будет текст с ударениями. НО... это будет обычный текст! Не epub, не fb2, не doc или rtf, а простой txt.
Пригодный опять-таки для чтения вслух или записи аудио. Но уже со словарными поправками. Воссоздать текст в том же формате, который был изначально, ни Демагог, ни Балаболка не смогут. То есть, на выходе будет обычный банальный текст с ударениями, и всё.
И опять-таки, если нужно таким способом обрабатывать именно формат epub, да еще из командной строки - то попробуйте Балаболку. В документации описана работа с ее консольной версией.



Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 304
Репутация : 85

 apokrif :: Чт Сен 10 2015, 01:36
Чт Сен 10 2015, 01:36

flegont пишет:
НО... это будет обычный текст! Не epub, не fb2, не doc или rtf, а простой txt.
Понятно. Вопросов нет. Я понимаю, что задача не простая...
Похоже проще написать TTS proxy, кот. ест простой текст, применяет словарь ударений и отдаёт настоящему TTS.
Понятно, что TTS и сам словари применять может, засада только с Ё и омографами.
Собственно вопрос: могут Демагог и Балаболка проводить анализ текста, и распознавать Ё/омографы, чтобы TTS-у осталось только применить словарь?

Вернуться к началу Перейти вниз
flegont
V.I.P.
avatar


Сообщений : 355
Репутация : 476

 flegont :: Чт Сен 10 2015, 09:23
Чт Сен 10 2015, 09:23

Цитата :
могут Демагог и Балаболка проводить анализ текста, и распознавать Ё/омографы
На Форуме в разделе "Тематические словари" есть Словарь замен для разрешения ё-омографов все/всё
Он - эмпирический, составлен на основе некоторых обнаруженных закономерностей в русских текстах, и его эффективность ~ 50%. В среднем, половину омографов "все/всё" в любом тексте этот словарь найдет.

Этот словарь в 2-х вариантах: DIC - только для Демагога и альтернативный типа REX, для Демагога и Балаболки.

Для остальных Ё-омографов словарей нет, увы Sad (Т.к. алгоритм полного разрешения Ё-омографов в русском языке до сих пор лингвистами не найден).

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 304
Репутация : 85

 apokrif :: Чт Сен 10 2015, 17:40
Чт Сен 10 2015, 17:40

flegont пишет:
На Форуме в разделе "Тематические словари" есть Словарь замен для разрешения ё-омографов все/всё
И как же его прикрутить например к Андроиду?

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 304
Репутация : 85

 apokrif :: Чт Сен 10 2015, 19:02
Чт Сен 10 2015, 19:02

flegont пишет:
Он - эмпирический, составлен на основе некоторых обнаруженных закономерностей в русских текстах, и его эффективность ~ 50%. В среднем, половину омографов "все/всё" в любом тексте этот словарь найдет.
А алгоритм большой/сложный?
Где-то можно его посмотреть?
Есть его реализация на плюсах, чтобы TTS proxy написать?

Вернуться к началу Перейти вниз
flegont
V.I.P.
avatar


Сообщений : 355
Репутация : 476

 flegont :: Чт Сен 10 2015, 21:13
Чт Сен 10 2015, 21:13

Цитата :
А алгоритм большой/сложный?
Где-то можно его посмотреть?
Сложный и запутанный. Составлял его я... и сам уже с трудом в нем разбираюсь drinking
Это просто набор правил, не имеющих под собой никакого теоретического обоснования.
И оформленный сразу в виде словаря YOhmg.dic
Например:
$*... И все,=... И всё,
Если некоторое предложение заканчивается многоточием, за которым идет словосочетание "И все" с запятой на конце, то слово "все" заменяется на "всё"
все словно воды=2ъ
2ъ=все словно воды

Если встретится словосочетание "все словно воды", то заменить его временно на "2ъ", чтобы оно не попало под ошибочную замену "все -> всё", а в конце вернуть обратно
И так далее и тому подобное. Составлялось по принципу "лесом еду, лес пою" Wink

Потом evilon_ и evmir_troll-hunter переписали этот словарь регулярными выражениями, чтобы он работал не только в Демагоге, но и в Балаболке. От этого он стал выглядеть еще страшнее Sad
Называется vse_vsyo.rex

При написании некоего автомата для разрешения омографа "все-всё" рекомендую использовать именно словарь vse_vsyo.rex. Потому что: 1) он уже проверен на практике; 2) готовые компоненты обработки регулярных выражений имеются и для C++ и для Delphi; 3) алгоритм работы словарей DIC в Демагоге отличается от классического, и сложен в реализации.

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 616
Репутация : 208

 evmir_troll-hunter :: Чт Сен 10 2015, 21:59
Чт Сен 10 2015, 21:59

Вопрос ещё больше запутаю; evilon_ модифицировал YOhmg.dic и предложил мне проверить.
Я сформировал несколько крупных сборников, и составил список из 5тыс. фраз с неправильной заменой все\всё.

После исправлений, ошибочных фраз стало 200(!) Результат меня и evilon_ удовлетворил... НО... я заметил, что без corector_alyona.rex словарь vse_vsyo.rex использовать бессмысленно - много ошибок.
Т.е. очевидно для точности замен все\всё в корректор Алёны было добавлено какое-то правило(а).

Я спрашивал evilon_ об этом, но ответа нет и его самого очень долго нет.
Т.о. я и не знаю нужен ли корректор, что там за правило и есть ли оно ещё...
По .epub; данный формат очень красив в визуальном представлении книги. Как по мне, наилучше отображается в Firefox...

Вернуться к началу Перейти вниз
flegont
V.I.P.
avatar


Сообщений : 355
Репутация : 476

 flegont :: Чт Сен 10 2015, 22:51
Чт Сен 10 2015, 22:51

Я пробовал поискать в Инете: не достигнуто ли какого прогресса в вопросе разрешения Ё-омографов? Увы, пока ничего нового.

А формат ePub постепенно распространяется... становится популярным. В следующей версии Демагога будет добавлено распознавание формата ePub.

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 304
Репутация : 85

 apokrif :: Пт Сен 11 2015, 00:25
Пт Сен 11 2015, 00:25

evmir_troll-hunter пишет:
что без corector_alyona.rex словарь vse_vsyo.rex использовать бессмысленно - много ошибок.
Да засада...
Прогонять вагон регексов для каждого предложения на мобиле - это просто высаживать батарею...
Получается, более правильно сам epub обрабатывать, что тоже совсем не просто.
Предлагаю закрыть вопрос до лучших времен...

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 859
Репутация : 317

 evilone_ :: Сб Сен 19 2015, 10:53
Сб Сен 19 2015, 10:53

да вроде бы там ничего особенного, corector_alyona.rex форматирует текст до замены и его наличие для работы vse_vsyo.rex необязательное Suspect
на счет ошибок можете сравнить ваш текст с ним и без него, думаю отличие будет видно сразу

apokrif, неужели на смартфоне так удобно возиться со всеми этими словарями и заменами? не проще ли все сделать на компьютере и потом перекинуть готовое?

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 304
Репутация : 85

 apokrif :: Сб Сен 19 2015, 18:41
Сб Сен 19 2015, 18:41

evilone_ пишет:
неужели на смартфоне так удобно возиться со всеми этими словарями и заменами? не проще ли все сделать на компьютере и потом перекинуть готовое?
Чтобы не потерять разметку (например fb2) - похоже что не проще...

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 616
Репутация : 208

 evmir_troll-hunter :: Чт Окт 27 2016, 19:13
Чт Окт 27 2016, 19:13

Формат *.dxt удобный и практичный:
a. все закладки, картинки\таблицы, выделение шрифтом и цветом сохраняются.
Можно подготовить список слов\фраз, выделить проблемные моменты, проиллюстрировать скринами, и переслать другу.

b. уменьшение размера больших сборников в 1.5-3 раза.

Вернуться к началу Перейти вниз
flegont
V.I.P.
avatar


Сообщений : 355
Репутация : 476

 flegont :: Чт Окт 27 2016, 21:55
Чт Окт 27 2016, 21:55

СтОит упомянуть, что именно evmir_troll-hunter более года назад (или даже раньше) предложил мне подумать над собственным форматом Демагога и назвать его DXT - Demagog teXT. Пусть бы в нем вместе с текстом хранились и закладки. Потому что банальное хранение их в настроечном файле - это не самый лучший метод.
Я далеко не сразу воспринял эту мысль. "Всё и так нормально, всё и так сойдет..."

А когда, случайно удалив файл настроек Демагога, потерял тем самым все закладки в важных для меня текстах, то задумался... Пришло в голову, что и импортированные картинки лучше не сваливать в многочисленных автоматически создаваемых папках, а хранить т.с. "поближе к телу", в том же dxt-файле...
Впоследствии evmir_troll-hunter серьезно помог с тестированием нового формата, за что ему спасибо.

Вернуться к началу Перейти вниз
Спонсируемый контент




 Спонсируемый контент ::


Вернуться к началу Перейти вниз

Demagog (Демагог)

Предыдущая тема Следующая тема Вернуться к началу
Demagog (Демагог)
Страница 5 из 5Страница 5 из 5На страницу : Предыдущий  1, 2, 3, 4, 5
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении
Создать форум | © phpBB | Бесплатный форум поддержки | Сообщить о нарушении | Blog2x2