语音合成技术和文本语音转换 - Synthetic voice and Text to Speech technology - Синтетический голос и технологии преобразования текста в речь
 
TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  

Программа для расстановки ударений на основе АОТ

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеПрограмма для расстановки ударений на основе АОТ
Dmtr
Интересующийся


Сообщений : 6
Репутация : 0

 Dmtr :: Вс Дек 22 2013, 19:19
Вс Дек 22 2013, 19:19

Нужна ли кому-нибудь такая программа? Консольный интерфейс; расставляет ударения в русскоязычном тексте, используя для этого библиотеки АОТ. Работает, но немного не доделана. Если кому-то нужно, то доделаю за вознаграждение. В общем, пишите.

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Чт Дек 26 2013, 01:32
Чт Дек 26 2013, 01:32

Цитата :
расставляет ударения в русскоязычном тексте, используя для этого библиотеки АОТ.
Очень мутно.
В каких словах - омографах?
В неправильно произносимых, то для какого голоса?
Или во всех подряд?
Уже пробовали библиотеки АОТ, они не очень подходят- быстродействие, а главное большое количество ошибок в предложениях с омонимами и омографами.
Цитата :
Если кому-то нужно, то доделаю за вознаграждение.
Шутка?

Вернуться к началу Перейти вниз
Dmtr
Интересующийся


Сообщений : 6
Репутация : 0

 Dmtr :: Чт Дек 26 2013, 02:44
Чт Дек 26 2013, 02:44

Цитата :
Или во всех подряд?
Да. Указываете обычный текстовый файл, она расставляет ударения во всём тексте. На данный момент, переводит каждое слово в нижний регистр, а ударную гласную переводит в верхний регистр. Т.е, например, было "молоко", стало "молокО". Но, конечно, можно сделать по другому, как захотите.

Цитата :
Уже пробовали библиотеки АОТ, они не очень подходят- быстродействие
Вы имеете в виду на форуме? Что-то не нашёл сразу, можно ссылочку?

Разве что Лемматизатор, но там, как я понял (сам не пробовал), используется "online база":
muk79 пишет:
Сделать можно, но все дело в том, что используются online базы и есть вероятность что сервер не выдержит нагрузки. Эта программа задумывалась для удобного и быстрого поиска небольших объемов слов при поиске ошибок произношения. Для больших списков лучше всего использовать набор статических библиотек + бинарные словари.

У меня же используются библиотеки на локальной машине, т.е подключение к интернету не требуется и скорость выше.

И, кстати, какую скорость (слов в секунду) считаете медленной, а какую быстрой?

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Чт Дек 26 2013, 12:36
Чт Дек 26 2013, 12:36

Вопрос " Или во всех подряд?" подразумевал следующее:
Во всех словах предложения?
Если нет, то по какому принципу делается выбор?
Если идея заключается в том, что можно взять эти ударения из словаря Зализняка, или подобного, то это принципиально не правильно по многим причинам.
Таких причин, минимум., как три.
1. Почитайте ветку - Программа для чтения "Книгодел".
2. На заре создания словарей, во всяком случае для голоса "Ольга" , был портирован и отфильтрован словарь Зализняка.
Почитайте посты Stroodder. Теперь от него (словаря) остались - рожки да ножки. Чего от него осталось можно посмотреть здесь называется - 3Olgazalizn_olga.vcb и до сих пор продолжается чистка.
3. Одним словарем не обойтись.
4. Каким образом будут обрабатываться омографы?
Путь только один, синтаксический разбор предложения. Таких программ не много, да и те давно изъяты, в том числе и с сайта АОТ.
На АОТ уже нет: - Графематический модуль, Синтаксический и пост морфологический модули для русского языка, Исходники словарей и Рабочее место лингвиста (ознакомительный пакет со всеми возможностями. Пакет содержит морфологию, синтаксис и семантику.) В основном весь анализ делался на Прологе, не помню на каком, но очень старом. Поэтому программы не блещут быстродействием.
Цитата :
как я понял (сам не пробовал), используется "online база":

Об этом и речи быть не может!
Был еще один сайт с программой DictaScope, но по моему проект закрыт.
Вот можно посмотреть, я делал показуху для другого сайта на этом движке.
Медленно, и ошибок не меньше, чем на программах с сайта АОТ, разумеется речь идет о омографах.
Более-менее шустрый движок и малым числом ошибок Cognitive Dwarf, сайт тоже прикрыли.
Немного переделанный движок применен в программке по самой первой ссылке.
Но и там не все гладко, даже с теорией, а вот совсем переделанный вроде бы работает правильно.
Конечно это только демонстрация поиска и анализа подчиненных и сочиненных слов и их морфологии.
В новогодние праздники думаю переделать редактор ударений с новым движком, интерфейсом и словарем.
Причем без вознаграждения.
А вы как хотели все это сделать, было бы интересно?
Только не общими фразами, саму суть, но обстоятельно. Интересен сам алгоритм синтаксического разбора и алгоритм поиска с хешированием или бинарный?
Цитата :
И, кстати, какую скорость (слов в секунду) считаете медленной, а какую быстрой?
Как у Демагога и Балаболки, это хорошая скорость.

Вернуться к началу Перейти вниз
Dmtr
Интересующийся


Сообщений : 6
Репутация : 0

 Dmtr :: Сб Дек 28 2013, 11:34
Сб Дек 28 2013, 11:34

Цитата :
4. Каким образом будут обрабатываться омографы?
Они у меня не обрабатываются.
Т.е моя программа не является законченным решением для расстановки ударений "одной кнопкой". Я её делал для себя, в омографах предполагалось расставлять ударения вручную. И подумал, что возможно кому-то будут интересны ударения именно из словарей AOT (плюс быстродействие, при статической линковке "Войну и мир" сейчас обрабатывает на моей машине со скоростью около 140 тысяч слов в секунду, если я правильно измерил её; ещё, возможно, получится собрать всё это под Linux при желании).

Цитата :
Во всех словах предложения?
Да, во всех.
(Но в моих исходниках есть возможность поставить ударение в отдельном слове или просто получить номер символа в слове, на который падает ударение).

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Сб Дек 28 2013, 13:20
Сб Дек 28 2013, 13:20

Цитата :
Войну и мир" сейчас обрабатывает на моей машине со скоростью около 140 тысяч слов в секунду
А произведения Джека Лондона, или Артура Кларка с другой скоростью?
Это любопытно!
Цитата :
подумал, что возможно кому-то будут интересны ударения именно из словарей AOT
Для чего? В словаре AOT может ударение падать на другой слог, нежели чем в других словарях?
Прежде всего надо быть в теме.
Тогда не возникнет желания собрать всё это под Linux.

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Сб Дек 28 2013, 16:35
Сб Дек 28 2013, 16:35

Во многих компаниях ведущие программисты не знают не одного языка (программирования) - они математики, потому что иначе " за тремя соснами, и леса не видно", или менеджеры - хитрость с элементами математики, психологии и беспардонности.
Начертать пару 'формул', каждый должен уметь, сейчас это азбука, а не заслуга.

Вернуться к началу Перейти вниз
telo
Участник


Сообщений : 58
Репутация : 25

 telo :: Сб Дек 28 2013, 22:12
Сб Дек 28 2013, 22:12


Привет Лёва!
Обязательно отвечать человеку с сарказмом и издёвкой?
Себя считаешь большим специалистом? Ну-ну.
Ты глубоко не в теме.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 859
Репутация : 317

 evilone_ :: Вс Дек 29 2013, 00:38
Вс Дек 29 2013, 00:38

просто ударения применительно к последним голосам которые "понимают" только фонемные лексиконы бесполезны, но возможно пригодится для чего-то другого...
самый большой интерес, на мой взгляд, сейчас представляют именно омографы - расстановка ударения в таких словах, поэтому действительно если бы там был синтаксический разбор предложения... хотя и он не всегда помогает Crying or Very sad

а программа умеет\сможет правильно определить и расставить букву ё в словах например: низведет, одногнездная, застолблен и т.п.?

Вернуться к началу Перейти вниз
telo
Участник


Сообщений : 58
Репутация : 25

 telo :: Вс Дек 29 2013, 03:38
Вс Дек 29 2013, 03:38

Уважаемая evilone!
Ваш пост обращён ко мне или к Dmtr?
Если ко мне,то полностью с Вами согласен.

Вернуться к началу Перейти вниз
Dmtr
Интересующийся


Сообщений : 6
Репутация : 0

 Dmtr :: Вс Дек 29 2013, 08:49
Вс Дек 29 2013, 08:49

Цитата :
а программа умеет\сможет правильно определить и расставить букву ё в словах например: низведет, одногнездная, застолблен и т.п.?
Если в словаре эти слова есть (с проставленной буквой "ё"), то можно будет сделать.
Например, как-то так:
слово "елка": заменяем "е" на "ё" и ищем полученное слово "ёлка" в словаре; если найдено, то заменяем "елка" на "ёлка" в обрабатываемом файле, а если нет, то оставляем как есть. Если в исходном слове несколько букв "е", то тоже самое, но перебираем возможные варианты. Может быть я чего-то не учёл, но должно получится.

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Вс Дек 29 2013, 13:12
Вс Дек 29 2013, 13:12

telo
Цитата :
Обязательно отвечать человеку с сарказмом и издёвкой?
А это нечего, что человек не удосужился понять, какие способы коррекции применимы к тому, или иному голосовому движку, хотя-бы прочитать всю кухню, а уже хочет получить вознаграждение?
Ну и откровенные глупости, не связанные, с темой, - коробят.
Цитата :
Войну и мир" сейчас обрабатывает на моей машине со скоростью около 140 тысяч слов в секунду
Такие перлы, достойны пера Михаила Николаевича Задорнова.
Цитата :
Ты глубоко не в теме.
Из чего это следует?
Полно Вам писать глупости.
Дальше эту тему развивать не имеет смысла.

Вернуться к началу Перейти вниз
Dmtr
Интересующийся


Сообщений : 6
Репутация : 0

 Dmtr :: Вс Дек 29 2013, 14:13
Вс Дек 29 2013, 14:13

Лёва, каждый сам решит для себя, интересна ли моя программа ему (ей) или нет.
Если вам она не нужна, то просто пройдите мимо и не пишите оффтоп.

Вернуться к началу Перейти вниз
telo
Участник


Сообщений : 58
Репутация : 25

 telo :: Вс Дек 29 2013, 15:05
Вс Дек 29 2013, 15:05

Лёва!
Перлы начинают мерещиться, когда читаешь задом наперёд.
"Война и мир" упомянута, что-бы была понятна сложность
и объём текста, на котором замерялась скорость обработки.
Не вижу, где тебе предлагают обсудить "способы коррекции".
Читай внимательно о чём тема.
Чё ты лезешь в каждую тему со своими омографами.
В своей теме объясняй страждущим, как глубоко ты познал омографы.

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Вс Дек 29 2013, 16:07
Вс Дек 29 2013, 16:07

telo
Вы много на грудь приняли?
Вроде бы еще не новый год.
Цитата :
"Война и мир" упомянута, что-бы была понятна сложность
и объём текста, на котором замерялась скорость обработки.
Как скорость может зависеть от объема?
И чего тут сложного, если не применяются правила? Это не зависит от текста.
Dmtr
Всё можно выразить одной фразой, - не надо наступать на одни и те же грабли дважды.
Если бы Вы удосужились почитать форум, то заметили бы то, что вы предлагаете, уже было предложено не одним человеком и в разных формах, в том числе и один к одному как и Вы.
А Вы считаете что открыли Америку, её до Вас открыли чукчи, викинги и бог знает кто.
Пусть я вам не приятен, но и других Вы в грош не ставите.
А в основном:
Цитата :
доделаю за вознаграждение.
За одно это, поганой метлой с форума!

Вернуться к началу Перейти вниз
Dmtr
Интересующийся


Сообщений : 6
Репутация : 0

 Dmtr :: Вс Дек 29 2013, 17:24
Вс Дек 29 2013, 17:24

Цитата :
Как скорость может зависеть от объема?
Почитайте про вычислительную сложность алгоритмов.
Время выполнения алгоритма зависит от объёма входных данных и иногда (в зависимости от алгоритма) от самих данных. (возможны, вы видели, что иногда указывают временную сложность: "в лучшем случае", "среднем" и "худшем"). Т.е, например, в одном тексте n слов, в другом тоже n, но объём в байтах разный, скорость будет отличаться. И даже при одинаковом объёме в байтах (в зависимости от алгоритма или словаря) одно слово может быть найдено за меньшее время, а другое за большее.
Потому я и привёл книгу на которой замерял скорость.
Цитата :
Если бы Вы удосужились почитать форум, то заметили бы то, что вы предлагаете, уже было предложено не одним человеком и в разных формах, в том числе и один к одному как и Вы.
Конкретно на основе библиотек и словарей AOT я поиском не нашёл (см. выше). Вы тоже ссылок не дали. Так что не нужно говорить "один к одному". Повторюсь: вам мою программу никто не навязывает, но, возможно, другим людям она будет полезна.
Цитата :
но и других Вы в грош не ставите
Не надо делать таких заявлений, пожалуйста!
Цитата :
За одно это, поганой метлой с форума!
И, вообще, что вы так взъелись то, а? Предлагаю закончить этот бессмысленный разговор.

Вернуться к началу Перейти вниз
telo
Участник


Сообщений : 58
Репутация : 25

 telo :: Вс Дек 29 2013, 17:55
Вс Дек 29 2013, 17:55

Лёва!
Автор темы попросил тебя не флудить.
Но ты не слышыш? Тебе плевать? Ведь ты Великий Лёва?
Автор темы не просил у тебя советов.
Ты упорно продолжаеш давать советы, поучать,
делая это с пренебрежением к оппоненту.
Автор попросил тебя пройти мимо.
Чё тебе не идётся мимо?
Почитай себя:
"Дальше эту тему развивать не имеет смысла."
"поганой метлой с форума!"
Cчитаешь что модераторы не справляются со своей работой?
Лёва, ты заслуженно уважаемый человек на этом форуме.
Но некоторые твои поты читать неприятно.
От этого страдает твой имидж.

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Вс Дек 29 2013, 19:06
Вс Дек 29 2013, 19:06

Dmtr
По моему Вы так и не поняли. При чем здесь вычислительная сложность алгоритмов?
Просто, когда указывается объем, тогда уместно время.
Фраза:
Цитата :
Войну и мир" сейчас обрабатывает на моей машине со скоростью около 140 тысяч слов в секунду

В высшей степени безграмотна!
О другом я говорить не буду, а то это не закончится никогда.

Вернуться к началу Перейти вниз
telo
Участник


Сообщений : 58
Репутация : 25

 telo :: Вт Дек 31 2013, 01:00
Вт Дек 31 2013, 01:00

Привет Dmtr!

Здесь не твоя целевая аудитория. Сам подумай. Кто твой покупатель?
Форумчане? Вряд-ли.Здесь собрались люди, которые пользуются определёнными голосовыми движками. Любой голосовой движок сам расставляет ударения с тем или иным успехом. Ошибки корректируют словарями. Качественный "модуль расстановки ударений" может понадобиться "разработчику движка". Ты видишь здесь "разработчика"? Я-нет. Да и потом, "разработчик" имеет своих программистов, а библиотеки АОТ в свободном доступе. "разработчик" сам сделает себе всё
что нужно. Ну? Кто твой покупатель? Где он? Ты взял то, что лежит свободно и пытаешься это продать. Ты написал кусочек кода? Здесь есть люди которые способны написать подобный кусочек кода и выложить это в свободный доступ. Именно этим ценен и славен этот форум. Здесь люди бескорыстно делятся друг с другом своими наработками. Именно поэтому удалось проделать такую огромную работу по созданию имеющихся словарей. В одиночку проделать такую работу малореально.

Я не считаю, что данная ветка бесполезна. Из обсуждения становится понятно, что очень остро стоит проблема омографов. Было мнение по решению проблемы омографов: "Путь только один, синтаксический разбор предложения." Ну чё. Смело заявлено.

Лёва, только не подумай, что я хочу поругаться с тобой. Ни в коем случае. Просто меня умиляют и веселят любые безапелляционные высказывания от имени всего человечества. Уж прости меня, Лёва, но ты этим немного грешен. По существу вопроса: по большому счёту, я в общем-то согласен, что это единственный путь. Просто я не верю, что это путь будет пройден. Проблема слишком глобальна. По моему мнению, лучшая предобработка текста на данный момент у ЦРТ. Блестяще. Близко к идеалу.
Не знаю что за люди там работают. Могу лишь предполагать. Думаю, там есть хорошие специалисты. Но, проблему омографов даже им не удалось решить до конца. А может быть всё совсем наоборот. Проблему потому и не решили, что нет специалистов соответствующего уровня. Всяко бывает. В действительности всё не так, как на самом деле. Ведь правда?

Если проблему нельзя решить, её нужно минимизировать. (Повторюсь, то что проблема не решаема - это всего лишь моё скромное мнение.) А вот тут открывается несметное количество путей. Это к вопросу о единственном пути. Я тоже пытаюсь решить эту проблему. Сразу оговорюсь, всерьёз обсуждать проблему омографов с кем либо в данный момент я не готов и не буду. Но свой путь вижу очень отчетливо и ясно. Он точно есть.

Если честно, я сам не понимаю, зачем влез в обсуждение. Особой смысловой нагрузки мои посты не несут. Ну да ладно. Влез, так влез.

Лёва!
Не держи на меня зла.

Dmtr!
В любом случае желаю тебе удачи. Рано или поздно каждый человек должен найти то, что ищет.

Вернуться к началу Перейти вниз
telo
Участник


Сообщений : 58
Репутация : 25

 telo :: Вт Дек 31 2013, 01:16
Вт Дек 31 2013, 01:16


Кривовато получилось.
Строки съехали.
Моск не позволяет отредактировать.

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 304
Репутация : 85

 apokrif :: Вт Дек 31 2013, 08:12
Вт Дек 31 2013, 08:12

telo пишет:
В дейсвительности всё не так, как на самом деле. Ведь правда?
Угу. Там всё совсем по другому! @

Вернуться к началу Перейти вниз
telo
Участник


Сообщений : 58
Репутация : 25

 telo :: Вт Дек 31 2013, 09:04
Вт Дек 31 2013, 09:04

apokrif!
Красиво сказал.
Рассмешил.

Вернуться к началу Перейти вниз
Tom d`Cat
Наблюдатель
avatar


Сообщений : 1
Репутация : 0

 Tom d`Cat :: Вс Сен 07 2014, 19:30
Вс Сен 07 2014, 19:30

Да, омографы - морока...
Я решал задачку попроще - расстановка ударений в стихах.
За два прохода что-то получается (при условии, что удаётся определить стихотворный размер).
А иначе - ручками...
Если кому интересно - программка в свободном доступе: http://www.ritminme.ru/o-programme/kratkoe

Вернуться к началу Перейти вниз
Спонсируемый контент




 Спонсируемый контент ::


Вернуться к началу Перейти вниз

Программа для расстановки ударений на основе АОТ

Предыдущая тема Следующая тема Вернуться к началу
Программа для расстановки ударений на основе АОТ
Страница 1 из 1Страница 1 из 1
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении
Создать форум | © phpBB | Бесплатный форум поддержки | Сообщить о нарушении | Blog2x2.ru