Ударятель

V.I.P. Сообщений : 137 Репутация : 16

Ударятель
Программа ударятель расставляет ударения вне зависимости от движка, при этом специализируется на различии омонимов русского языка (хотя, разумеется, может использоваться для синтеза речи и других языков). Ударения расставляются в формате Digalo Nikolai (SAPI 4) или Realspeak Katerina. В программу достаточно легко может быть добавлен любой другой русскоязычный движок, необходимое условие - возможность ставить ударение в тексте.
Помимо этого есть возможность синтеза несколькими движками (по ролям).
- Программа бесплатная.
- Читает текст (с помощью установленных в системе движков SAPI4 и SAPI5)
- Записывает файл (mp3)
- Можно использовать только для расстановки ударений (как вспомогательный инструмент).

V.I.P. Сообщений : 184 Репутация : 7

Очень интересная программа.

Есть пару вопросов, есть ли возможность добавить в ударятель:

простановку ударений в виде нОги/ногИ т.е. не < заглавной буквой
возможность простановки ударений из окна программы не открывая файл с текстом
возможность сохранения только списка слов с проставленными ударениями без форматирования
после поиска омографов выписывать этот список с частотой и к-во словоформ
что-то будет\было про простановку только логическое ударение в предложении?
поддержка внешних словарей в т.ч. dic

для поиска омографа - если найден и идет слово рядом с ним (указать к-во слов для словоформы или микросинтагмы
Формирование микро-синтагмы зависит от количества полных ударений в орфографической синтагме. Если количество полных ударений меньше или равно четырем, орфографическая синтагма остается без изменений. Если количество полных ударений больше четырех, необходимо разбить синтагму на микро-синтагмы. Первым информативным маркером для членения являются союзы и, или. Если данные союзы присутствуют в синтагме, тогда перед ними синтагма разделяется. После этого определяется количество полных ударений в каждой из синтагм. Если в какой-либо синтагме количество полных ударений превышает четырех, необходимо расчленить синтагму. Для этого вначале расставляются маркеры, где слова не могут быть разделены. К классу таких слов относятся прилагательные.
Тип слова определяется через базу ударения. Если в базе ударения отсутствует информация о типе слова, тогда прилагательное определяется с большой степенью вероятности по окончанию (ая, ее, его, ей, ему, ею, ие, ий, ими, их, ою, ого, ое, ой, ому, ою, ую, ый, ые, ым, ыми, ых, юю, яя).
После того как расставлены маркеры неделимых слов, происходит формирование микросинтагм. Конец первой синтагмы ставится после третьего слова с полным ударением, если за ним не стоит маркер неделимости. В случае, если маркер стоит, конец синтагмы ставится после второго слова, и так же проверяется на наличие после него маркера неделимости. Данный цикл происходит итерационно до тех пор, пока в синтагме не останется меньше четырех полных ударений.

Код:: к-во слов 2
1. открытый замОк
2. длинной ногИ
....
к-во слов 3
1. увидел открытый замОк
2. вдоль длинной ногИ
....

и сортировку по частоте в тексте.

имхо программу лучше позиционировать только для обработки текста а не записи текста голосом, сейчас единицы умеют достойно работать с голосовыми движками, да и то не русскоговорящие, а вот подготовка текста под словарь была бы очень интересной.

mia
Попробовал отредактировать текст этой программой и пихнуть в балаболку для голоса Ольга - очень даже ничего.
Чтобы Ольга понимала "<" нужны фильтры от Stroodder, он выкладывал:
http://www.vector-ski.ru/vecs/govorilka/dic.htm
Для Алёны нужно написать такие же, т.е.
а<=А
е<=Е
и т.д. весь алфит гласных.
Сам еще не делал для Алены, но думаю работать должно.

V.I.P. Сообщений : 137 Репутация : 16

Цитата :: простановку ударений в виде нОги/ногИ т.е. не < заглавной буквой

Сделать, чтобы программа ставила ударение с помощью большой буквы мне не сложно. Скорее всего, это будет сделано в следующей версии Книгодела (просто там, на данный момент, версия движка новее, а редактировать сразу несколько программ сложнее, хоть большая часть кода и общая)...

Цитата :: возможность простановки ударений из окна программы не открывая файл с текстом

Вот это пока вряд ли будет - имеющееся окно ввода предназначено для неизвестных слов, а вводить еще и второе - загромождается интерфейс. Но, в принципе, если говорить о достаточно далеком будущем, то это сделать можно.

Цитата :: возможность сохранения только списка слов с проставленными ударениями без форматирования

Немножко не понял, что имеется ввиду.

Цитата :: после поиска омографов выписывать этот список с частотой и к-во словоформ

На данный момент выводится список неизвестных слов с частотой, с омонимами это толком не понятно как делать, и главное, зачем - каждой форме омонима обычно соответствуют разные падежи и просто информация нОги - 24 раза, ногИ - 23 мало что даст.

Цитата :: что-то будет\было про простановку только логическое ударение в предложении?

В смысле логическое? Интонация что ли? В смысле слово, которое произносится чуть громче чем остальные и т.д.? Это моя программа не поддерживает, так как известные мне движки не поддерживают....

Цитата :: поддержка внешних словарей в т.ч. dic

Поддерживается словарь собственного формата (обычный текстовый файл), файл easy.dic в директории программы (пример можно посмотреть если задать поиск неизвестных слов). Ударение ставится плюсом. Формат записи - либо просто слово с ударением, либо слово=сло+во. В принципе, не уверен, что пользовательские словари необходимы - ведь есть поиск неизвестных слов. А фамилии и т.п. вещи редко повторяются.

Выписывание всех вариантов, в которых встречаются омографы с данным ударением бессмысленно - этих вариантов очень много (грубо говоря, десять в двенадцатой степени, миллион в квадрате) и смысла, на мой взгляд, делать этот режим нет. Чуть другой контекст - и слово уже произносится иначе.

С микросинтагмами не понял, но попробую разобраться. В принципе, информация о частях речи есть (кроме пользовательских слов), так что это не проблема. Но, на мой взгляд, приведенный алгоритм не совсем соответствует правилам разговорного русского языка, если и делается пауза в речи, то она определяется более сложно, на смысловом уровне).

V.I.P. Сообщений : 184 Репутация : 7

Цитата :: Скорее всего, это будет сделано в следующей версии Книгодела

Это было бы замечательно. Просто немного сбило с толку встроенный голос программы - хотелось бы иметь возможность простого форматирования текста без записи голосом.

Цитата :: В смысле логическое? Интонация что ли? В смысле слово, которое произносится чуть громче чем остальные и т.д.? Это моя программа не поддерживает, так как известные мне движки не поддерживают....

Этот момент уже решили, тут к не к программе задача.

Цитата :: Поддерживается словарь собственного формата (обычный текстовый файл), файл easy.dic в директории программы (пример можно посмотреть если задать поиск неизвестных слов). Ударение ставится плюсом. Формат записи - либо просто слово с ударением, либо слово=сло+во. В принципе, не уверен, что пользовательские словари необходимы - ведь есть поиск неизвестных слов.

Тут хотелось бы уточнить. Имеется ли возможность использовать свои словари не только для замены вида слово=сло+во а и простых замен, замен по маске, по регистру и т.д. Есть ли возможность сделать что-то на подобии ф-ции использования "словаря замен" тот что сейчас есть для некоторых движков и используется в балаболке и других читалках? И если да то какой порядок замены будет если слова перекрываются, например если в словарь добавить слова=сло+ва то всегда, и при поиске омографов будет ставиться сло+ва даже там где раньше ставилось слов<а?

На счет синтагм имелось в виду возможность сохранять найденные в тексте, внешние - , в виде отдельного словаря, в программе иногда встречаются ошибки определения синтаксической омонимии и такой словарь значительно бы улучшил поиск омографов.

V.I.P. Сообщений : 137 Репутация : 16

Цитата :: Это было бы замечательно. Просто немного сбило с толку встроенный голос программы - хотелось бы иметь возможность простого форматирования текста без записи голосом.

Там есть кнопка Export - вот она и служит для конвертирования. А способ расстановки ударения меняется в настройках.

Цитата :: Тут хотелось бы уточнить. Имеется ли возможность использовать свои словари не только для замены вида слово=сло+во а и простых замен, замен по маске, по регистру и т.д.

Замена по регистру, насколько я помню, есть (если начинается с большой буквы, то и слово требуется с большой буквы), а вот замен по маске нет. И не уверен что этот вариант нужен - если будет много слов с расставленным ударением, то алгоритм различия омонимов будет работать хуже (так как для неизвестных программе слов не известны части речи и падежи).

Цитата :: Есть ли возможность сделать что-то на подобии ф-ции использования "словаря замен" тот что сейчас есть для некоторых движков и используется в балаболке и других читалках? И если да то какой порядок замены будет если слова перекрываются, например если в словарь добавить слова=сло+ва то всегда, и при поиске омографов будет ставиться сло+ва даже там где раньше ставилось слов<а?

Да, если слово занесено в словарь, то оно заменяет встроенный вариант. Правда, для некоторых слов, которые заменяются на раннем этапе, это правило не выполняется.

Цитата :: На счет синтагм имелось в виду возможность сохранять найденные в тексте, внешние - , в виде отдельного словаря, в программе иногда встречаются ошибки определения синтаксической омонимии и такой словарь значительно бы улучшил поиск омографов.

Понятно, но, боюсь, что добавление этого метода, только ухудшит работу программы - на данный момент, алгоритм использует все предложение и, иногда, даже весь текст.
Если есть конкретные слова или выражения, на которых получаются ошибки, лучше напишите их здесь и, если возможно, я их попробую исправить.

V.I.P. Сообщений : 184 Репутация : 7

Цитата :: Да, если слово занесено в словарь, то оно заменяет встроенный вариант. Правда, для некоторых слов, которые заменяются на раннем этапе, это правило не выполняется.

Вот сейчас в словаре easy.dic строка

Код:: 2002 года=две тысячи второго го+да

текст

Код:: 01.01.2002 года

после замены текст

Код:: 01.01.2002 го<да

есть ли возможнось сделать чтобы было

Код:: две тысячи второго го<да

По поводу словаря и пересечения с основными правилами поиска омографов, а что если сделать замену по словарю (пользовательскому) последней, после простановки основных вариантов ударений программой? Это будет максимально корректно.
Хорошо было бы иметь возможность использовать в словаре замены вида

Цитата :: *чие места=чие мЕста
*чие моря=чие мОря
*чие ноги=чие ногИ

Просто есть уже довольно неплохой словарь замен который значительно улучшит текст для чтения.
А какие символы для словаря рабочие т.е. какими нельзя пользоваться? "+" или есть еще какие-то. Как реагирует программа на знаки типа

Код:: { | \ | ~ `' ^ # &

и т.д.?

В ударятеле настройка для поиска только ударений и только омонимии были разделены а в книгоделе они объединены уже в одну? Есть ли возможность как-то разделить? Просто дело в том что в 80% того где николаю и катерине нужны ударения аленка и так читает правильно и лишние простановки ударения в словах (если все правильно будет то в виде заглавной буквы) будут только делать хуже. Для этого голоса важно по-моему только правильно определить омограф в тексте и проставить замены там где они нужны для правильного чтения определенных слов и словоформ, что связано с внутренними особенностями голосового движка.

V.I.P. Сообщений : 137 Репутация : 16

Цитата :: есть ли возможнось сделать чтобы было
две тысячи второго го<да

На данный момент - нет но, в принципе, сделать можно.
Правда, сейчас уже написан код для правильного чтения чисел (в том числе и почти корректного угадывания их падежа) и, скорее всего, в ближайшее время будет добавлен в программу.

Цитата :: По поводу словаря и пересечения с основными правилами поиска омографов, а что если сделать замену по словарю (пользовательскому) последней, после простановки основных вариантов ударений программой? Это будет максимально корректно

В принципе, сделать можно. Просто сейчас времени для этого не хватает, а так - вполне реализуемо.

Цитата :: А какие символы для словаря рабочие т.е. какими нельзя пользоваться? "+" или есть еще какие-то.

В принципе, нельзя пользоваться только + и =. Но нужно учитывать, что заменяются именно слова, а не подстроки, соответственно, если в слове будет пробел или, скажем, запятая то до этой проверки все равно не дойдет. Чтобы заменять части текста, нужен отдельный словарь.

Цитата :: В ударятеле настройка для поиска только ударений и только омонимии были разделены а в книгоделе они объединены уже в одну?

Пока да, в силу специфики программы - если Ударятель предназначался именно для обработки текста, то Книгодел предназначен, в первую очередь, для озвучивания текста собственным движком. Но, возможно, в скором времени для экпорта добавлю настройку для определения только омонимов, просто пока руки не доходят...

V.I.P. Сообщений : 137 Репутация : 16

Вышла новая версия Книгодела (там учтены многие упомянутые здесь пожелания) ссылка - в соседнем разделе.