|
| Программа для расстановки ударений на основе АОТ | |
| |
Автор | Сообщение | Программа для расстановки ударений на основе АОТ |
---|
Dmtr Интересующийся
Сообщений : 6
Репутация : 0
| Dmtr | :: Вс Дек 22 2013, 19:19 | Вс Дек 22 2013, 19:19 | |
| Нужна ли кому-нибудь такая программа? Консольный интерфейс; расставляет ударения в русскоязычном тексте, используя для этого библиотеки АОТ. Работает, но немного не доделана. Если кому-то нужно, то доделаю за вознаграждение. В общем, пишите. |
|
| | | Лёва V.I.P.
Сообщений : 134
Репутация : 173
| Лёва | :: Чт Дек 26 2013, 01:32 | Чт Дек 26 2013, 01:32 | |
| - Цитата :
- расставляет ударения в русскоязычном тексте, используя для этого библиотеки АОТ.
Очень мутно. В каких словах - омографах? В неправильно произносимых, то для какого голоса? Или во всех подряд? Уже пробовали библиотеки АОТ, они не очень подходят- быстродействие, а главное большое количество ошибок в предложениях с омонимами и омографами. - Цитата :
- Если кому-то нужно, то доделаю за вознаграждение.
Шутка? |
|
| | | Dmtr Интересующийся
Сообщений : 6
Репутация : 0
| Dmtr | :: Чт Дек 26 2013, 02:44 | Чт Дек 26 2013, 02:44 | |
| - Цитата :
- Или во всех подряд?
Да. Указываете обычный текстовый файл, она расставляет ударения во всём тексте. На данный момент, переводит каждое слово в нижний регистр, а ударную гласную переводит в верхний регистр. Т.е, например, было "молоко", стало "молокО". Но, конечно, можно сделать по другому, как захотите.
- Цитата :
- Уже пробовали библиотеки АОТ, они не очень подходят- быстродействие
Вы имеете в виду на форуме? Что-то не нашёл сразу, можно ссылочку?
Разве что Лемматизатор, но там, как я понял (сам не пробовал), используется "online база": - muk79 пишет:
- Сделать можно, но все дело в том, что используются online базы и есть вероятность что сервер не выдержит нагрузки. Эта программа задумывалась для удобного и быстрого поиска небольших объемов слов при поиске ошибок произношения. Для больших списков лучше всего использовать набор статических библиотек + бинарные словари.
У меня же используются библиотеки на локальной машине, т.е подключение к интернету не требуется и скорость выше.
И, кстати, какую скорость (слов в секунду) считаете медленной, а какую быстрой? |
|
| | | Лёва V.I.P.
Сообщений : 134
Репутация : 173
| Лёва | :: Чт Дек 26 2013, 12:36 | Чт Дек 26 2013, 12:36 | |
| Вопрос " Или во всех подряд?" подразумевал следующее: Во всех словах предложения? Если нет, то по какому принципу делается выбор? Если идея заключается в том, что можно взять эти ударения из словаря Зализняка, или подобного, то это принципиально не правильно по многим причинам. Таких причин, минимум., как три. 1. Почитайте ветку - Программа для чтения "Книгодел". 2. На заре создания словарей, во всяком случае для голоса "Ольга" , был портирован и отфильтрован словарь Зализняка. Почитайте посты Stroodder. Теперь от него (словаря) остались - рожки да ножки. Чего от него осталось можно посмотреть здесь называется - 3Olgazalizn_olga.vcb и до сих пор продолжается чистка. 3. Одним словарем не обойтись. 4. Каким образом будут обрабатываться омографы? Путь только один, синтаксический разбор предложения. Таких программ не много, да и те давно изъяты, в том числе и с сайта АОТ. На АОТ уже нет: - Графематический модуль, Синтаксический и пост морфологический модули для русского языка, Исходники словарей и Рабочее место лингвиста (ознакомительный пакет со всеми возможностями. Пакет содержит морфологию, синтаксис и семантику.) В основном весь анализ делался на Прологе, не помню на каком, но очень старом. Поэтому программы не блещут быстродействием. - Цитата :
- как я понял (сам не пробовал), используется "online база":
Об этом и речи быть не может! Был еще один сайт с программой DictaScope, но по моему проект закрыт. Вот можно посмотреть, я делал показуху для другого сайта на этом движке. Медленно, и ошибок не меньше, чем на программах с сайта АОТ, разумеется речь идет о омографах. Более-менее шустрый движок и малым числом ошибок Cognitive Dwarf, сайт тоже прикрыли. Немного переделанный движок применен в программке по самой первой ссылке. Но и там не все гладко, даже с теорией, а вот совсем переделанный вроде бы работает правильно. Конечно это только демонстрация поиска и анализа подчиненных и сочиненных слов и их морфологии. В новогодние праздники думаю переделать редактор ударений с новым движком, интерфейсом и словарем. Причем без вознаграждения. А вы как хотели все это сделать, было бы интересно? Только не общими фразами, саму суть, но обстоятельно. Интересен сам алгоритм синтаксического разбора и алгоритм поиска с хешированием или бинарный? - Цитата :
- И, кстати, какую скорость (слов в секунду) считаете медленной, а какую быстрой?
Как у Демагога и Балаболки, это хорошая скорость. |
|
| | | Dmtr Интересующийся
Сообщений : 6
Репутация : 0
| Dmtr | :: Сб Дек 28 2013, 11:34 | Сб Дек 28 2013, 11:34 | |
| - Цитата :
- 4. Каким образом будут обрабатываться омографы?
Они у меня не обрабатываются. Т.е моя программа не является законченным решением для расстановки ударений "одной кнопкой". Я её делал для себя, в омографах предполагалось расставлять ударения вручную. И подумал, что возможно кому-то будут интересны ударения именно из словарей AOT (плюс быстродействие, при статической линковке "Войну и мир" сейчас обрабатывает на моей машине со скоростью около 140 тысяч слов в секунду, если я правильно измерил её; ещё, возможно, получится собрать всё это под Linux при желании).
- Цитата :
- Во всех словах предложения?
Да, во всех. (Но в моих исходниках есть возможность поставить ударение в отдельном слове или просто получить номер символа в слове, на который падает ударение). |
|
| | | Лёва V.I.P.
Сообщений : 134
Репутация : 173
| Лёва | :: Сб Дек 28 2013, 13:20 | Сб Дек 28 2013, 13:20 | |
| - Цитата :
- Войну и мир" сейчас обрабатывает на моей машине со скоростью около 140 тысяч слов в секунду
А произведения Джека Лондона, или Артура Кларка с другой скоростью? Это любопытно! - Цитата :
- подумал, что возможно кому-то будут интересны ударения именно из словарей AOT
Для чего? В словаре AOT может ударение падать на другой слог, нежели чем в других словарях? Прежде всего надо быть в теме. Тогда не возникнет желания собрать всё это под Linux. |
|
| | | Лёва V.I.P.
Сообщений : 134
Репутация : 173
| Лёва | :: Сб Дек 28 2013, 16:35 | Сб Дек 28 2013, 16:35 | |
| Во многих компаниях ведущие программисты не знают не одного языка (программирования) - они математики, потому что иначе " за тремя соснами, и леса не видно", или менеджеры - хитрость с элементами математики, психологии и беспардонности. Начертать пару 'формул', каждый должен уметь, сейчас это азбука, а не заслуга. |
|
| | | telo Участник
Сообщений : 58
Репутация : 25
| telo | :: Сб Дек 28 2013, 22:12 | Сб Дек 28 2013, 22:12 | |
| Привет Лёва! Обязательно отвечать человеку с сарказмом и издёвкой? Себя считаешь большим специалистом? Ну-ну. Ты глубоко не в теме. |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Вс Дек 29 2013, 00:38 | Вс Дек 29 2013, 00:38 | |
| просто ударения применительно к последним голосам которые "понимают" только фонемные лексиконы бесполезны, но возможно пригодится для чего-то другого... самый большой интерес, на мой взгляд, сейчас представляют именно омографы - расстановка ударения в таких словах, поэтому действительно если бы там был синтаксический разбор предложения... хотя и он не всегда помогает
а программа умеет\сможет правильно определить и расставить букву ё в словах например: низведет, одногнездная, застолблен и т.п.? |
|
| | | telo Участник
Сообщений : 58
Репутация : 25
| telo | :: Вс Дек 29 2013, 03:38 | Вс Дек 29 2013, 03:38 | |
| Уважаемая evilone! Ваш пост обращён ко мне или к Dmtr? Если ко мне,то полностью с Вами согласен. |
|
| | | Dmtr Интересующийся
Сообщений : 6
Репутация : 0
| Dmtr | :: Вс Дек 29 2013, 08:49 | Вс Дек 29 2013, 08:49 | |
| - Цитата :
- а программа умеет\сможет правильно определить и расставить букву ё в словах например: низведет, одногнездная, застолблен и т.п.?
Если в словаре эти слова есть (с проставленной буквой "ё"), то можно будет сделать. Например, как-то так: слово "елка": заменяем "е" на "ё" и ищем полученное слово "ёлка" в словаре; если найдено, то заменяем "елка" на "ёлка" в обрабатываемом файле, а если нет, то оставляем как есть. Если в исходном слове несколько букв "е", то тоже самое, но перебираем возможные варианты. Может быть я чего-то не учёл, но должно получится. |
|
| | | Лёва V.I.P.
Сообщений : 134
Репутация : 173
| Лёва | :: Вс Дек 29 2013, 13:12 | Вс Дек 29 2013, 13:12 | |
| telo - Цитата :
- Обязательно отвечать человеку с сарказмом и издёвкой?
А это нечего, что человек не удосужился понять, какие способы коррекции применимы к тому, или иному голосовому движку, хотя-бы прочитать всю кухню, а уже хочет получить вознаграждение? Ну и откровенные глупости, не связанные, с темой, - коробят. - Цитата :
- Войну и мир" сейчас обрабатывает на моей машине со скоростью около 140 тысяч слов в секунду
Такие перлы, достойны пера Михаила Николаевича Задорнова. - Цитата :
- Ты глубоко не в теме.
Из чего это следует? Полно Вам писать глупости. Дальше эту тему развивать не имеет смысла. |
|
| | | Dmtr Интересующийся
Сообщений : 6
Репутация : 0
| Dmtr | :: Вс Дек 29 2013, 14:13 | Вс Дек 29 2013, 14:13 | |
| Лёва, каждый сам решит для себя, интересна ли моя программа ему (ей) или нет. Если вам она не нужна, то просто пройдите мимо и не пишите оффтоп. |
|
| | | telo Участник
Сообщений : 58
Репутация : 25
| telo | :: Вс Дек 29 2013, 15:05 | Вс Дек 29 2013, 15:05 | |
| Лёва! Перлы начинают мерещиться, когда читаешь задом наперёд. "Война и мир" упомянута, что-бы была понятна сложность и объём текста, на котором замерялась скорость обработки. Не вижу, где тебе предлагают обсудить "способы коррекции". Читай внимательно о чём тема. Чё ты лезешь в каждую тему со своими омографами. В своей теме объясняй страждущим, как глубоко ты познал омографы. |
|
| | | Лёва V.I.P.
Сообщений : 134
Репутация : 173
| Лёва | :: Вс Дек 29 2013, 16:07 | Вс Дек 29 2013, 16:07 | |
| telo Вы много на грудь приняли? Вроде бы еще не новый год. - Цитата :
- "Война и мир" упомянута, что-бы была понятна сложность
и объём текста, на котором замерялась скорость обработки. Как скорость может зависеть от объема? И чего тут сложного, если не применяются правила? Это не зависит от текста. Dmtr Всё можно выразить одной фразой, - не надо наступать на одни и те же грабли дважды. Если бы Вы удосужились почитать форум, то заметили бы то, что вы предлагаете, уже было предложено не одним человеком и в разных формах, в том числе и один к одному как и Вы. А Вы считаете что открыли Америку, её до Вас открыли чукчи, викинги и бог знает кто. Пусть я вам не приятен, но и других Вы в грош не ставите. А в основном: - Цитата :
- доделаю за вознаграждение.
За одно это, поганой метлой с форума! |
|
| | | Dmtr Интересующийся
Сообщений : 6
Репутация : 0
| Dmtr | :: Вс Дек 29 2013, 17:24 | Вс Дек 29 2013, 17:24 | |
| - Цитата :
- Как скорость может зависеть от объема?
Почитайте про вычислительную сложность алгоритмов. Время выполнения алгоритма зависит от объёма входных данных и иногда (в зависимости от алгоритма) от самих данных. (возможны, вы видели, что иногда указывают временную сложность: "в лучшем случае", "среднем" и "худшем"). Т.е, например, в одном тексте n слов, в другом тоже n, но объём в байтах разный, скорость будет отличаться. И даже при одинаковом объёме в байтах (в зависимости от алгоритма или словаря) одно слово может быть найдено за меньшее время, а другое за большее. Потому я и привёл книгу на которой замерял скорость. - Цитата :
- Если бы Вы удосужились почитать форум, то заметили бы то, что вы предлагаете, уже было предложено не одним человеком и в разных формах, в том числе и один к одному как и Вы.
Конкретно на основе библиотек и словарей AOT я поиском не нашёл (см. выше). Вы тоже ссылок не дали. Так что не нужно говорить "один к одному". Повторюсь: вам мою программу никто не навязывает, но, возможно, другим людям она будет полезна. - Цитата :
- но и других Вы в грош не ставите
Не надо делать таких заявлений, пожалуйста! - Цитата :
- За одно это, поганой метлой с форума!
И, вообще, что вы так взъелись то, а? Предлагаю закончить этот бессмысленный разговор. |
|
| | | telo Участник
Сообщений : 58
Репутация : 25
| telo | :: Вс Дек 29 2013, 17:55 | Вс Дек 29 2013, 17:55 | |
| Лёва! Автор темы попросил тебя не флудить. Но ты не слышыш? Тебе плевать? Ведь ты Великий Лёва? Автор темы не просил у тебя советов. Ты упорно продолжаеш давать советы, поучать, делая это с пренебрежением к оппоненту. Автор попросил тебя пройти мимо. Чё тебе не идётся мимо? Почитай себя: "Дальше эту тему развивать не имеет смысла." "поганой метлой с форума!" Cчитаешь что модераторы не справляются со своей работой? Лёва, ты заслуженно уважаемый человек на этом форуме. Но некоторые твои поты читать неприятно. От этого страдает твой имидж. |
|
| | | Лёва V.I.P.
Сообщений : 134
Репутация : 173
| Лёва | :: Вс Дек 29 2013, 19:06 | Вс Дек 29 2013, 19:06 | |
| Dmtr По моему Вы так и не поняли. При чем здесь вычислительная сложность алгоритмов? Просто, когда указывается объем, тогда уместно время. Фраза: - Цитата :
- Войну и мир" сейчас обрабатывает на моей машине со скоростью около 140 тысяч слов в секунду
В высшей степени безграмотна! О другом я говорить не буду, а то это не закончится никогда. |
|
| | | telo Участник
Сообщений : 58
Репутация : 25
| telo | :: Вт Дек 31 2013, 01:00 | Вт Дек 31 2013, 01:00 | |
| Привет Dmtr!
Здесь не твоя целевая аудитория. Сам подумай. Кто твой покупатель? Форумчане? Вряд-ли.Здесь собрались люди, которые пользуются определёнными голосовыми движками. Любой голосовой движок сам расставляет ударения с тем или иным успехом. Ошибки корректируют словарями. Качественный "модуль расстановки ударений" может понадобиться "разработчику движка". Ты видишь здесь "разработчика"? Я-нет. Да и потом, "разработчик" имеет своих программистов, а библиотеки АОТ в свободном доступе. "разработчик" сам сделает себе всё что нужно. Ну? Кто твой покупатель? Где он? Ты взял то, что лежит свободно и пытаешься это продать. Ты написал кусочек кода? Здесь есть люди которые способны написать подобный кусочек кода и выложить это в свободный доступ. Именно этим ценен и славен этот форум. Здесь люди бескорыстно делятся друг с другом своими наработками. Именно поэтому удалось проделать такую огромную работу по созданию имеющихся словарей. В одиночку проделать такую работу малореально.
Я не считаю, что данная ветка бесполезна. Из обсуждения становится понятно, что очень остро стоит проблема омографов. Было мнение по решению проблемы омографов: "Путь только один, синтаксический разбор предложения." Ну чё. Смело заявлено.
Лёва, только не подумай, что я хочу поругаться с тобой. Ни в коем случае. Просто меня умиляют и веселят любые безапелляционные высказывания от имени всего человечества. Уж прости меня, Лёва, но ты этим немного грешен. По существу вопроса: по большому счёту, я в общем-то согласен, что это единственный путь. Просто я не верю, что это путь будет пройден. Проблема слишком глобальна. По моему мнению, лучшая предобработка текста на данный момент у ЦРТ. Блестяще. Близко к идеалу. Не знаю что за люди там работают. Могу лишь предполагать. Думаю, там есть хорошие специалисты. Но, проблему омографов даже им не удалось решить до конца. А может быть всё совсем наоборот. Проблему потому и не решили, что нет специалистов соответствующего уровня. Всяко бывает. В действительности всё не так, как на самом деле. Ведь правда?
Если проблему нельзя решить, её нужно минимизировать. (Повторюсь, то что проблема не решаема - это всего лишь моё скромное мнение.) А вот тут открывается несметное количество путей. Это к вопросу о единственном пути. Я тоже пытаюсь решить эту проблему. Сразу оговорюсь, всерьёз обсуждать проблему омографов с кем либо в данный момент я не готов и не буду. Но свой путь вижу очень отчетливо и ясно. Он точно есть.
Если честно, я сам не понимаю, зачем влез в обсуждение. Особой смысловой нагрузки мои посты не несут. Ну да ладно. Влез, так влез.
Лёва! Не держи на меня зла.
Dmtr! В любом случае желаю тебе удачи. Рано или поздно каждый человек должен найти то, что ищет. |
|
| | | telo Участник
Сообщений : 58
Репутация : 25
| telo | :: Вт Дек 31 2013, 01:16 | Вт Дек 31 2013, 01:16 | |
| Кривовато получилось. Строки съехали. Моск не позволяет отредактировать. |
|
| | | apokrif V.I.P.
Сообщений : 304
Репутация : 85
| apokrif | :: Вт Дек 31 2013, 08:12 | Вт Дек 31 2013, 08:12 | |
| - telo пишет:
- В дейсвительности всё не так, как на самом деле. Ведь правда?
Угу. Там всё совсем по другому! |
|
| | | telo Участник
Сообщений : 58
Репутация : 25
| telo | :: Вт Дек 31 2013, 09:04 | Вт Дек 31 2013, 09:04 | |
| apokrif! Красиво сказал. Рассмешил. |
|
| | | Tom d`Cat Наблюдатель
Сообщений : 1
Репутация : 0
| Tom d`Cat | :: Вс Сен 07 2014, 19:30 | Вс Сен 07 2014, 19:30 | |
| Да, омографы - морока... Я решал задачку попроще - расстановка ударений в стихах. За два прохода что-то получается (при условии, что удаётся определить стихотворный размер). А иначе - ручками... Если кому интересно - программка в свободном доступе: http://www.ritminme.ru/o-programme/kratkoe |
|
| | | | Программа для расстановки ударений на основе АОТ | |
| Программа для расстановки ударений на основе АОТ |
---|
| |