|
| Пожелания по развитию программы | |
| |
Автор | Сообщение | Пожелания по развитию программы |
---|
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Пн Янв 12 2009, 18:03 | Пн Янв 12 2009, 18:03 | |
| добавьте если не сложно в следующей версии возможность расстановки для Аленки "только омографов и Е=Э Е=Ё" без поиска ударений в простых словах пасиб |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вт Янв 13 2009, 18:31 | Вт Янв 13 2009, 18:31 | |
| evilone_ - Цитата :
- добавьте если не сложно в следующей версии возможность расстановки для Аленки "только омографов и Е=Э Е=Ё" без поиска ударений в простых словах
Добавил. Правда, "не омонимы", где меняется е на э (например, свитер) вывести не удалось - там есть сложности с алгоритмом (на разных стадиях делается). Сделать это, в принципе, можно, но усилия непропорциональны пользе - таких слов немного и их все можно занести в словарь (тем более, учитывая что некоторые, возможно, Аленка сама правильно ставит) (пользовательский словарь при такой конвертации используется). С "ё" все нормально. Пока версия не выложена, но уже сделана (хочу кое-что еще подправить). |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Вс Янв 18 2009, 03:42 | Вс Янв 18 2009, 03:42 | |
| Спасибо за новую версию! Намного лучше стало хотя и есть недочеты:- Спойлер:
- Цитата :
- ...так сильно любит нас, что гОтов был отдать...
- Цитата :
- ...как ему следовало вЕсти себя в подобной ситуации.
- Цитата :
- Не думая о нуждах своей жЁны, ...
- Цитата :
- Это на самОм деле так.
- Цитата :
- Когда зазвонил телефон, я был в отЁле в своей комнате.
- Цитата :
- Принцип освобождения (мОя терминология) - один из наиболее сильных принципов,
- Цитата :
- Один мужчина написал мне, что у него и его жЁны нет проблем,
- Цитата :
- нАчал Билл, когда он и Джен сЕли на тахту в моей комнате в отЁле тем вечером.
и очень много ошибок все\всё а так более менее. а будет ли все-таки воможность в будущем в программе использовать свой словарь замен вида - Цитата :
- *бит/с=бит в секунду
|
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Пн Янв 19 2009, 16:56 | Пн Янв 19 2009, 16:56 | |
| evilone_, Спасибо за отзыв, за найденные ошибки. В новой версии будут поправлены все, кроме: - Цитата :
- Один мужчина написал мне, что у него и его жЁны нет проблем,
его жены+/его жёны одинаково правильно звучат. И для разбора контекст не очень помогает.
- Цитата :
- и очень много ошибок все\всё а так более менее.
В текущей версии вообще слово "все" не трогается, остаётся неизменным. В новой версии устанавливается отдельно опция "агрессивное ёфицирование" и, соответственно, если включена - будет меняться "все" на "всё" (по алгоритму, который правилен процентов в 95 случаев, по крайней мере, на тестовых файлах. - Цитата :
- а будет ли все-таки воможность в будущем в программе использовать свой словарь замен вида *бит/с=бит в секунду
Скорее всего, будет в ближайшей версии. Хотя, в принципе, лучше делать такой разбор в программе - тогда можно такие вещи согласовывать с ближайшим числительным, учитывать падеж... |
|
| | | acadfan Новичок
Сообщений : 21
Репутация : 6
| acadfan | :: Пн Янв 19 2009, 18:13 | Пн Янв 19 2009, 18:13 | |
| Уважаемый автор! Можно ли использовать вашу программу для подготовки текста для голоса Elan Speech Cube Nikolai v.5.1? |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вт Янв 20 2009, 13:13 | Вт Янв 20 2009, 13:13 | |
| slag - Цитата :
- мел/мёл, мер/мёр, смел/смёл и шлем/шлём
По поводу этих слов в новой (еще не выложенной версии) сделаны кое-какие улучшения, думается, не хуже словарей замен.
Leopold Спасибо.
acadfan - Цитата :
- Можно ли использовать вашу программу для подготовки текста для голоса Elan Speech Cube Nikolai v.5.1?
Конкретно на этой версии не проверял, но если алгоритм простановки ударений не изменили - должна работать. Возможно, придется в программе-читалке выбрать режим чтения SAPI4 (в SAPI5 больше вероятность проблем с ударением по методу Николая). |
|
| | | goga Наблюдатель
Сообщений : 1
Репутация : 0
| goga | :: Чт Янв 22 2009, 11:30 | Чт Янв 22 2009, 11:30 | |
| Есть ли в программе возможность записи текста с паузами в аудиофайл. Например:предложение1- пауза 10с-предложение2-пауза10с и т.д.? Просто неохота зря скачивать и устанавливать программу.А нужна именно такая возможность. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Сб Янв 24 2009, 03:27 | Сб Янв 24 2009, 03:27 | |
| goga - Цитата :
- Есть ли в программе возможность записи текста с паузами в аудиофайл. Например:предложение1- пауза 10с-предложение2-пауза10с и т.д.? Просто неохота зря скачивать и устанавливать программу.А нужна именно такая возможность.
В Книгоделе нет, а в Ударятеле вроде делал. В режиме чтения сцен - точно есть. Но, если не ошибаюсь, не только... Кажется {!#1000} для паузы величиной в секунду. В Книгодел пока этот режим не перенесён...
ptoton Спасибо, постараюсь исправить. По крайней мере, большинство. Со словом бОльшая большАя - вряд ли, для этого нужно смысл распознавать. Не зря даже в книгах в подобных местах обычно ударение стоит... |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Чт Фев 05 2009, 01:36 | Чт Фев 05 2009, 01:36 | |
| Вышла новая версия 1.35. Там исправлены большинство тех ошибок в распознавании омонимов, о которых здесь говорилось, и добавились новые опции (для чтения бОльшой как бо+льшой, только для ёфикации, расстановка ударений плюсами (можно использовать для первого прогона - при повторном запуске программа корректно поймет все исправленные ударения). |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Пн Фев 09 2009, 05:41 | Пн Фев 09 2009, 05:41 | |
| rquester чет запутались если не сложно про настройки (что какая делает): Алена (со словарями омонимов) Алена (со словарями омонимов)(с заменами) +(для повторного запуска после коррекции) и как они будут сочетаться с включенной опцией "Только омонимы(export)"
и еще такой вопрос добавляем в rep.dic - Код:
-
*ч 41 мин=часов 41 мину+та ставим Алена (со словарями омонимов)(с заменами) после экспорта текста - Код:
-
2 ч 41 мин получаем - Код:
-
двА ч сОрок одИн мИн а надо - Код:
-
два часов сОрок один минута как это сделать правильно? |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Пн Фев 09 2009, 14:15 | Пн Фев 09 2009, 14:15 | |
| evilone_ - Цитата :
чет запутались если не сложно про настройки (что какая делает): Алена (со словарями омонимов) Алена (со словарями омонимов)(с заменами) +(для повторного запуска после коррекции) и как они будут сочетаться с включенной опцией "Только омонимы(export)"
А в новой версии еще одна появится . Подставляющая транскрипции прямо в тексте (работает в SpeechPad в режиме с включенным тэгами, по идее должна работать и в других SAPI4 программах с включенной этой опцией, как сделать, чтобы работала везде - не знаю). Главный ее плюс - не нужно добавлять в словари движка каждое слово. С опцией "Только омонимы" работают все режимы.
Алена (со словарями омонимов) Алена (со словарями омонимов)(с заменами)
Между этими вариантами отличий практически нет, планировалась какая-то замена неподдерживаемой комбинации в варианте "с заменами", но, кажется, до нее еще руки не дошли... Сейчас можно пользоваться любым вариантом.
+(для повторного запуска после коррекции)
А вот эта функция - совсем другого рода, она генерирует файл, который можно подать на вход программе. То есть, например файл "он повернул руки". Запускается программа с опцией "Только омонимы" и режимом "+(для повторного запуска после коррекции)". Получается файл "он повернул ру+ки". Этот файл можно вручную подправить, проверить правильность омонимов, подкорректировать неправильные. А потом запустить программу уже в обычном режиме, чтобы получить "Он повернУл рУки" (или в другом формате, в зависимости от движка).
- Цитата :
- и еще такой вопрос
добавляем в rep.dic Код: *ч 41 мин=часов 41 мину+та Поскольку эти замены выполняются в конце, когда ударения уже расставлены, то слово "мин" будет уже с ударением (форма слова "мина"). Поэтому правильный вариант: *ч 41 ми+н=часов 41 мину+та |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| | | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Пн Фев 09 2009, 17:24 | Пн Фев 09 2009, 17:24 | |
| evilone_ - Цитата :
- ой так это ж плохо а можно будет замены в будущем чтобы отрабатывались перед расстановкой ударений? хотим адаптировать аленкин словарь замен для работы с книгоделом.
Думаю, что проще просто игнорировать при сравнении знак ударения - скорее всего это будет сделано в одной из ближайших версий. Просто если делать до - то алгоритму будет сложнее работать. И я бы не рекомендовал злоупотреблять словарями - если слов там будет очень много,то возможны конфликты (когда правильно определённый программой омоним будет изменен на неправильный словарём...)...
- Цитата :
- и еще... если в тексте например у слова уже явно будет указано ударение (например если по словарю замен сделать чтобы его замены шли первыми) то эти слова уже в дальнейшем не будут обрабатываться?
Да, слова с плюсами (как расставленными автоматически, так и вручную), имеют больший приоритет, выскакивать другой вариант не должен. |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Вт Фев 10 2009, 10:07 | Вт Фев 10 2009, 10:07 | |
| еще вопрос есть три словаря easy fon rep какая их очередность и при какой схеме какой включается? т.е. rep включается только при схеме Алена (со словарями омонимов)(с заменами) а остальные всегда или есть варианты? что получится по схеме "Алена (со словарями омонимов)(с заменами)"+"только омографы (export)"? - Цитата :
- Думаю, что проще просто игнорировать при сравнении знак ударения - скорее всего это будет сделано в одной из ближайших версий. Просто если делать до - то алгоритму будет сложнее работать.
с этим уже разобрались все отлично работает наверно смысла менять пока нету. - Цитата :
- И я бы не рекомендовал злоупотреблять словарями
там кстати очень много всплыло ошибок определения омографов программой если сравнить результат со словарем и без, попозже выложим самые основные. но с дополнительным словарем ошибок почти нет т.е. где-то 98-99% попадание в простых текстах, пока что лучший результат но словарь еще нужно будет обкатать.
и планируется ли в будущем поддержка командной строки что-то на подобии
knigodel text.txt -a-b-c где параметрами задавать синтез или экспорт и их настройки (голос режим простановка ударений и т.д.) |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Вт Фев 10 2009, 18:27 | Вт Фев 10 2009, 18:27 | |
| rquester...и да что-то Ё как-то маловато будет есть предложение добавить слова с Ё из словаря - Цитата :
- недонаселенностях недокаленными и т.д.
и римские числители IV VII XII и т.д. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Вт Фев 10 2009, 19:22 | Вт Фев 10 2009, 19:22 | |
| evilone_ - Цитата :
- еще вопрос есть три словаря easy fon rep какая их очередность и при какой схеме какой включается?
Все словари используются со всеми голосовыми движками. fon - самый последний и только когда включен пункт чтения по фонетическим правилам. То есть, там нужно делать замены, которые именно с чтением связаны, а не с простановкой ударений. Перед ним работает rep, он, в общем и целом аналогичен словарям замен других движков. Словарь easy - это словарь, в который автоматически добавляются неизвестные слова (если нажать "Неизвестные слова"). У него приоритет самый высокий, фактически, он выполняется в первую очередь. Но заменяет он только целые слова - сочетание подправить так не получится. - Цитата :
- там кстати очень много всплыло ошибок определения омографов программой если сравнить результат со словарем и без, попозже выложим самые основные. но с дополнительным словарем ошибок почти нет т.е. где-то 98-99% попадание в простых текстах, пока что лучший результат но словарь еще нужно будет обкатать.
Да, выложить будет неплохо, так как частые ошибки, по возможности, лучше исправлять в программе.
- Цитата :
- и планируется ли в будущем поддержка командной строки что-то на подобии
В принципе, планируется, но не в ближайших версиях - когда более-менее все опции устоятся и т.д..
- Цитата :
- есть предложение добавить слова с Ё из словаря
Постараюсь.
- Цитата :
- и римские числители IV VII XII и т.д.
Так вроде есть... Проверьте, стоит ли галочка "Транслитерировать римские цифры".
ptoton Спасибо, посмотрю. |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Ср Фев 11 2009, 03:15 | Ср Фев 11 2009, 03:15 | |
| - Цитата :
- Да, выложить будет неплохо, так как частые ошибки, по возможности, лучше исправлять в программе.
Вот, там много есть также просто замен частично есть неправильные словоформы с омографами и окончаниями и немного числителей
только если что-то добавите просьба как-то отметить чтобы потом можно было легко их найти и удалить из rep.dic чтобы небыло дублей |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Ср Фев 11 2009, 07:00 | Ср Фев 11 2009, 07:00 | |
| evilone_ - Цитата :
- только если что-то добавите просьба как-то отметить чтобы потом можно было легко их найти и удалить из rep.dic чтобы небыло дублей
Вся проблема в том, что многие слова уже исправлены. Более того, я не всегда могу точно определить какие конкретно слова поменяются - например если меняю алгоритм выбора части речи при омонимии определённого вида... Большинство слов и сочетаний из этого словаря вроде бы должны распознаваться корректно... Этот файл мне мало что даёт - лучше конкретные примеры ошибочных фраз, примерно в том формате, как делает ptoton. Файл замен при этом лучше переименовать, чтобы получить именно ошибки программы... Например, можно запустить преобразование со словарём замен, потом без него (в обоих случаях - с одинаковыми опциями), а потом сравнить файлы (например, командой fc - она выдаст список различающихся фраз, конкретно формат этой команды fc file1.txt file2.txt >out.txt), out.txt - это файл различий, в нем как раз и будут видны ошибки программы/словарей. |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Ср Фев 11 2009, 10:19 | Ср Фев 11 2009, 10:19 | |
| - Цитата :
- Если не трудно, потестируйте новый режим Книгодела для Алёны (работает в SpeechPad с включеной опцией Tagget text), пока режим экспериментальный, нужно выяснить как улучшить фонетическую транскрипцию. Может подскажете, что именно плохо звучит. Речь не о конкретных словах, а, скажем "окончание ую во всех словах звучит плохо, лучше так", "ударное я везде не очень, лучше так"...
rquester это очень интересно обязательно проверим т.е. получается возможность жестко привязать нужную (правильную) фонетическую транскрипция для разных частей слова (слов)? например - Цитата :
- слова:
слОва - \Prn=s l o1 v @2 \ словА - \Prn=s l V2 v A1 \ т.е. для заданной последовательности свой вариант транскрипции... если это получится то звучание может значительно улучшится |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Ср Фев 11 2009, 11:49 | Ср Фев 11 2009, 11:49 | |
| можно ли попросить копию +(для повторного запуска после коррекции) только со словарем замен и уже простановки ударений т.е. не - Цитата :
- "он повернул руки"->"он повернул ру+ки"
а - Цитата :
- "он повернул руки"-> "он повернул рУки"
получается таже только ударения ставиться не "+" а как положено и работает словарь замен
если чесно то подключение словаря лучше было бы вынести за режим как-то, что-то в виде галочки или тип того чтобы его можно было вкл\выкл в любом режиме это сделало бы более гибкой настройку и уменьшило варианты режимов, например "только Ё и замена" "только омографы и замена" "обычная и замена" и т.д.
и можно чуть подробнее про флаги в словаре и режим "...слова как читаются" какие в нем делаются изменения? с "i" все понятно а вот с "а" не совсем не учитывать ударение? т.е. не ставить в этом слове ударение? а зачем тогда словарь noakc.dic или как-то по-другому?
формат словаря теперь должен быть в таком виде - Код:
-
=i=слово=слово =i=слово=слово =i=слово=слово ==Слово=слово =i=слово=слово ==Слово=слово =i=слово=слово или если перед заменой нету ничего то это равносильно "=="? |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Ср Фев 11 2009, 14:05 | Ср Фев 11 2009, 14:05 | |
| - Цитата :
- получается таже только ударения ставиться не "+" а как положено и работает словарь замен
А чем вариант с просто Алёной не подходит? Этот режим и так только способом простановки ударений и отличается...
- Цитата :
- если чесно то подключение словаря лучше было бы вынести за режим как-то, что-то в виде галочки или тип того чтобы его можно было вкл\выкл в любом режиме это сделало бы более гибкой настройку и уменьшило варианты режимов, например "только Ё и замена" "только омографы и замена" "обычная и замена" и т.д.
Не очень понял. Все равно нужно будет выбирать движок для которого конвертируется и с омонимами или без...
- Цитата :
- и можно чуть подробнее про флаги в словаре и режим "...слова как читаются" какие в нем делаются изменения?
В режиме "Слова как читаются" меняется е на э в некоторых слова (типа свитер), смягчаются окончания (ться, ого...) и используется словарь fon.dic. Все остальное также.
В режиме по умолчанию (без флагов) можно ставить или не ставить ударения. Регистр не важен. Если же вы решаете указать флаги, то автоматически требуется полная идентичность, если не указана опции. Т.е.:
==бРе+д=Брее+д Требует полного совпадения текста, вплоть до регистра. =a=бред=Брее+д Позволяет заменять текст с ударением или без, но регистр должен соответствовать. А если в этих примерах добавить i, то уже не важен и регистр.
- Цитата :
а зачем тогда словарь noakc.dic или как-то по-другому?
Это словарь, куда можно поместить все слова (с ударениями), которые движок произносит правильно и без программы, в некоторых случаях это может улучшить результат...
- Цитата :
- или если перед заменой нету ничего то это равносильно "=="?
Нет, это равносильно =ia=
- Цитата :
т.е. для заданной последовательности свой вариант транскрипции... если это получится то звучание может значительно улучшится На входе - слово. На выходе - транскрипция. Между ними - некий алгоритм получения правильной записи. Алгоритм может быть почти любой, но без частных случаев (слово пингвин записывается так, а кактус так...). Вариант с окончанием или началом слова, в принципе, может указываться отдельно. Сейчас я, экспериментальным путем, нашел вариант, который мне кажется неплохим, но вполне возможно что существуют и лучшие варианты. |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Ср Фев 11 2009, 16:04 | Ср Фев 11 2009, 16:04 | |
| - Цитата :
- А чем вариант с просто Алёной не подходит?
а этот вариант ставит ударения в простых словах, а хотелось бы только в тех где возможны варианты (омографы) остальные слова чтобы были без изменений тот самый "только омографы" которого сейчас нету. - Цитата :
- Все равно нужно будет выбирать движок для которого конвертируется и с омонимами или без
движок само собой а использовать или нет словарь замен лучше развязать с общими настройками чтобы можно было вкл\выкл не зависимо от режима и движка
т.е. флаг =a= получается делает замену для слова без ударения т.е. "до прогонки через общий словарь"? т.е. получается 1. идет замена по словарю замен с флагом =a= 2. простановка общих ударений 3. снова словарь замен но уже по тегам =i= и == ?
какая очередность всех словарей по отношению к общему модулю который проставляет ударения в тексте соответственно заданной схеме? просто пока что не до конца ясно в какой словарь что добавлять например есть замена - Код:
-
к 1938 г=к 1938 году в rep.dic тогда возможны около 4 а то и больше вариантов для разных схем и флагов с =а= и без =а=!!! это по-моему перебор и можно запутаться другими словами нужно замену по rep.dic поставить до простановки ударений общим модулем программы и чтобы слова которые по нему заменяются дальше уже не менялись а использовать rep.dic или нет отделить от схем и вынести отдельной опцией вкл\выкл это по-моему будет самый удачный и простой вариант а то сейчас сильно как-то все закручено - Код:
-
ТЕКС1----rep.dic----ТЕКСТ2----общие ударения+easy.dic+fon.dic-----ТЕКСТ3 |---------------------------------------------------------------------------ТЕКСТ2
- Цитата :
- На входе - слово. На выходе - транскрипция. Между ними - некий алгоритм получения правильной записи. Алгоритм может быть почти любой, но без частных случаев (слово пингвин записывается так, а кактус так
тогда не совсем понятно зачем оно нужно? движок и так сам строит транскрипции и с доп.лексиконами довольно не плохо с этим справляется |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Ср Фев 11 2009, 16:48 | Ср Фев 11 2009, 16:48 | |
| - Цитата :
- а этот вариант ставит ударения в простых словах, а хотелось бы только в тех где возможны варианты (омографы) остальные слова чтобы были без изменений тот самый "только омографы" которого сейчас нету.
Должен быть. При поставленной галочке "Только омографы" должен работать. Если не работает это ошибка. Проверю, но, скорее всего, все работает.
- Цитата :
- т.е. флаг =a= получается делает замену для слова без ударения т.е. "до прогонки через общий словарь"?
Нет, он работает так же после, просто сравниваются "с точностью до знака ударения".
к 1938 г=к 1938 году Добавляется в rep.dic именно в таком виде. Вообще вид без флагов - самый универсальный и простой.
- Цитата :
- тогда не совсем понятно зачем оно нужно? движок и так сам строит транскрипции и с доп.лексиконами довольно не плохо с этим справляется
Плюс в том, что не надо в несколькихместах добавлять. Если программа знает слово - она его читает. Нет - добавить в easy.dic (автоматически Поиск новых слов с последующей простановкой ударений) и так же будет читать. Сейчас же если слова нет в лексиконе - оно не прочитается с правильным ударением. А если учесть необходимость добавлять в лексикон всех словоформ, которые у программы и так есть... |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Ср Фев 11 2009, 18:39 | Ср Фев 11 2009, 18:39 | |
| - Цитата :
- Добавляется в rep.dic именно в таком виде. Вообще вид без флагов - самый универсальный и простой.
а как быть если вкл. режим замена чисел буквами или простановка ударений в замене чисел буквами и т.д.?
- Цитата :
- Сейчас же если слова нет в лексиконе - оно не прочитается с правильным ударением. А если учесть необходимость добавлять в лексикон всех словоформ, которые у программы и так есть...
это да, но тогда получается привязка только к спичьпаду только в нем можно читать такие транскрипции |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Чт Фев 12 2009, 00:08 | Чт Фев 12 2009, 00:08 | |
| - Цитата :
- а как быть если вкл. режим замена чисел буквами или простановка ударений в замене чисел буквами и т.д.?
Если ссылается на цифру, то, конечно, работать не будет, а если на соответствующее слово - нормально. А вот с ударениями проблем быть не должно (если опции не ставить). - Цитата :
- это да, но тогда получается привязка только к спичьпаду только в нем можно читать такие транскрипции
Насколько я понимаю, для любой SAPI4 программы не сложно сделать поддержку этих тэгов (один параметр заменить с 0 на 1). Кажется Говорилка тэги поддерживала, если не ошибаюсь. Кроме того, скорее всего, что-то подобное и в SAPI5 поддерживается, только почему-то не описано.... |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Чт Фев 12 2009, 03:52 | Чт Фев 12 2009, 03:52 | |
| - Цитата :
- Если ссылается на цифру, то, конечно, работать не будет, а если на соответствующее слово - нормально. А вот с ударениями проблем быть не должно (если опции не ставить).
так я про это и говорю что нужен только один универсальный вариант замены т.е. чтобы словарь замен работал до общей простановки ударений программой. или это сложно сделать? - Цитата :
- Насколько я понимаю, для любой SAPI4 программы не сложно сделать поддержку этих тэгов (один параметр заменить с 0 на 1).
в балаболке алена в sapi4 не работает и в sapi5 эти теги увы тоже не читаются.
- Цитата :
- Должен быть. При поставленной галочке "Только омографы" должен работать. Если не работает это ошибка. Проверю, но, скорее всего, все работает.
вот кусок текста после замены с настройками- Спойлер:
- Цитата :
- Настолько быстро, что силуэт его, казалось, размазывался в воздухе. как бУтто он сам опережал свой зрительный образ.
Журналист запрыгнул на сложЁнную из мешков стенку и выпростал из-под плаща левую конечность. А в следующую секунду Журналист выбросил пЕред собой правую руку с растопыренными и слегка согнутыми Возле балки » тридцать четыре « Гупи скинул прыгнувшего на него сверху пса и, .не останавливаясь, на бегУ перерЕзал ему глОтку. Если бы не скафандр, пес первым добрАлся бы до горла сталкера. Слева на грудИ эмблема - две скрещенные молнии и ядерный » гриб « над ними - и, чуть нИже _ число » четырнадцать «. и т.д. и т.д. и т.д. и т.д...... это все не омографы и ударения или большие буквы в них не нужны, это ошибка из-за этого при чтении слышутся небольшие поддергивания в интонации и портится вся картина.
другими словами две вещи в программе пока что заставляют пользоваться обычными словарями замен перед автоматическим поиском имхо: -отсутствие чистого поиска только омографов в тексте -отсутствие обработки текста словарем замен до общей простановки ударений
если доработать эти два пункта то думаю можно смело пересаживаться на автомаический поиск омографов книгоделом |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Чт Фев 12 2009, 05:32 | Чт Фев 12 2009, 05:32 | |
| - Цитата :
- так я про это и говорю что нужен только один универсальный вариант замены т.е. чтобы словарь замен работал до общей простановки ударений программой. или это сложно сделать?
Если это делать на раннем этапе, то потом никако эвристический алгоритм ничего не даст. Особенно с такими гигантскими словарями как в присланном примере. Если хочется вручную заменять числа - можно просто отключить соответствующую опцию, соответственно, те правила, которые указаны для чисел будут работать при отключенных "транслитерировать числа", а при включенных - будет работать программный различитель (который в ближайшей версии будет, кстати, усовершентвован). Со всем остальным проблем вообще нет, по крайней мере, я их не вижу.
- Цитата :
- в балаболке алена в sapi4 не работает и в sapi5 эти теги увы тоже не читаются.
Есть много программ, которые работают под sapi4 - Говорилка, CoolReader (насколько помню), Ударятель. Думаю, что-нибудь подходящее найдем (дойдут руки - подправлю Ударятель и перенесу некоторые его функции в Книгодел). Кроме того, остальные варианты же остаются...
В вашем примере приведены именно омографы и омографы с точность до ё/е. Конкретно - сложЁнную/слОженную перед/перёд добрАлся/добралсЯ (последний вариант - разговорный, но в некоторых текстах может использоваться). Слова ниже и будто - нужно смотреть, возможно какая-то старая форма затесалась (если совсем неупотребимая, то уберу, не будут выводиться). |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Чт Фев 12 2009, 06:31 | Чт Фев 12 2009, 06:31 | |
| Посмотрел у ниже действительно была форма нижЕ (не знаю такого слова, либо ошибка, либо совсем устаревшая форма). Слова бутто вообще нет в словаре (есть будто), может это из пользовательского словаря? Тогда оно, конечно, выводится, так как программа ничего об этом слове не знает. Может, Вам просто не добавлять слова? Тогда только омографы в результирующем тексте и будут... Все-равно для Алёны нужно слова вводить в лексикон... Выбираете "Поиск новых слов", добавили их в лексикон и удалили. Все равно программа для Алёны ударения поставить не может... |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Чт Фев 12 2009, 06:33 | Чт Фев 12 2009, 06:33 | |
| - Цитата :
- Слова ниже и будто - нужно смотреть, возможно какая-то старая форма затесалась
если бы только эти слова их гораздо больше свЯто, сАмое, дЕньги и т.д. и т.п. просмотрите внимательно свои словари омографов а про "разговорный" добралсЯ и т.д. лично я первый раз такие слова вижу это же не русское слово совсем получается? такие "разговорные" лучше уже куда-то в fon.dic или в режим "как читается" засунуть хотя о том нужно ли такое "чудо" там еще можно поспорить
- Цитата :
- Если это делать на раннем этапе, то потом никако эвристический алгоритм ничего не даст. Особенно с такими гигантскими словарями как в присланном примере.
ну вот и нужно подумать как оптимизировать ваш алгоритм, есть над чем работать, создавать два разных варианта и затем их сравнивать с приоритетом или как-то еще, потому что после прогонки через общий модуль простановки ударений чтобы использовать словарь замен нужно создавать по несколько вариантов одной и той же замены чтобы угадать где какая получиться и получится ли вообще...это не есть хорошо |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Чт Фев 12 2009, 06:39 | Чт Фев 12 2009, 06:39 | |
| в любом случае у аленки есть Лексикон для словаря замен лучше свериться с ним а тех слов которых в нем нету выписать отдельно для проверки, это будет самый удачный вариант проверки |
|
| | | lev55 Участник «online словари»
Сообщений : 384
Репутация : 45
| lev55 | :: Чт Фев 12 2009, 16:50 | Чт Фев 12 2009, 16:50 | |
| evilone - Цитата :
- это все не омографы и ударения или большие буквы в них не нужны
Приведённые Вами сова существуют в различных формах ударения. Ксожалению в Зализняке "надписно = надписнО, насадим= насадИм" таких форм придостаточно и все такие формы входят во все академические словари омонимов - омографов. Для словаря "Ольга" я вычистил таких слов из Зализняка около 18.000, но их гораздо больше! Иногда кажется, что Зализняк сам конструировал слова.
p.s. Думаю что использоване словаря частоупотребимых форм омографов а не Зализняка (омографов) даст хороший эффект. |
|
| | | ptoton Бывалый
Сообщений : 108
Репутация : 25
| ptoton | :: Чт Фев 12 2009, 17:00 | Чт Фев 12 2009, 17:00 | |
| Слова, занесенные в noakc.dic возвращаются с ударением, если стоят вначале предложения, т.е. первая буква заглавная. Предлагаю сделать словарь независимым от регистра, а то придется заносить слова дважды - с большой и с маленькой буквы (или трижды, когда все буквы заглавные) |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Чт Фев 12 2009, 17:50 | Чт Фев 12 2009, 17:50 | |
| evilone_ - Цитата :
- если бы только эти слова их гораздо больше
свЯто, сАмое, дЕньги и т.д. и т.п. свЯто/святО , сАмое/самоЁ, дЕньги/деньгИ( от слова деньгА)... - Цитата :
- просмотрите внимательно свои словари омографов а про "разговорный" добралсЯ и т.д. лично я первый раз такие слова вижу это же не русское слово совсем получается?
Русское и, например, у юмористов при стилизациях часто всречается. - Цитата :
- такие "разговорные" лучше уже куда-то в fon.dic или в режим "как читается" засунуть хотя о том нужно ли такое "чудо" там еще можно поспорить
У меня словарь, в котором есть все словоформы, перенести в fon.dic я никак не могу. Не говоря уже о том, что fon.dic совсем для другого.
- Цитата :
- нужно создавать по несколько вариантов одной и той же замены чтобы угадать где какая получиться и получится ли вообще
Сейчас-то зачем? Раньше, когда учитывалось ударение еще понятно, а так... Просто пишете как в словарях для Балоболки и всё...
- Цитата :
в любом случае у аленки есть Лексикон для словаря замен лучше свериться с ним а тех слов которых в нем нету выписать отдельно для проверки, это будет самый удачный вариант проверки
Для этого и существует noakc.dic. Там, в алфавитном порядке, указываются слова (без звездочек, как раз как в лексиконе Алёны). |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Чт Фев 12 2009, 17:51 | Чт Фев 12 2009, 17:51 | |
| ptoton Спасибо, постараюсь сделать в следующей версии. |
|
| | | balabolka V.I.P.
Сообщений : 1228
Репутация : 986
| balabolka | :: Чт Фев 12 2009, 19:00 | Чт Фев 12 2009, 19:00 | |
| - evilone_ пишет:
- в балаболке алена в sapi4 не работает и в sapi5 эти теги увы тоже не читаются.
Разработчики "Алены" уже исправили все свои ошибки, так что теперь этот голос нормально работает через SAPI4 во всех компьютерных программах. Скачайте новую версию голоса "Алена" с сервера компании "Acapela Group" и установите поверх старой; голос будет работать через SAPI4 так же, как и через SAPI5. |
|
| | | ptoton Бывалый
Сообщений : 108
Репутация : 25
| ptoton | :: Сб Фев 21 2009, 19:05 | Сб Фев 21 2009, 19:05 | |
| Хочется напомнить о необходимости сделать файл "noakc.dic" независимым от регистра, иначе приходится дублировать слова и вместо одного все+
записывать в файл все+ Все+ ВСЕ+ |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Сб Фев 21 2009, 21:50 | Сб Фев 21 2009, 21:50 | |
| есть две маленькие просьбочки :tsss: - первая если можно как-то получить весь список тех слов в которых программа ставит замену ударения (зАмок-замОк всЕ-всЁ проЕкт-проЭкт) потому как на проверку оказалось что есть слова которых нету в лексиконе и поэтому ударения читаются без изменений, хотим синхронизировать лексиконы, в ПМ или как-то еще
- вторая какой-то тестовый режим который бы выписывал омограф и рядом стоящие слова в отдельный файл для проверки например: - Цитата :
- Они не стреляли только потому, что никого не видели: всЕ, кроме меня, находились по сторонам от двЕри, я же прятался за столом и выглядывал сбоку, так что в проЁм меня невозможно бЫло заметить.
в файл пишется: - Цитата :
- 1:видели: всЕ, кроме
2:от двЕри, я 3:в проЁм меня 4:невозможно бЫло заметить можно такое безобразие сделать или это сильно сложно? |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Сб Фев 21 2009, 22:43 | Сб Фев 21 2009, 22:43 | |
| ptoton - Цитата :
- Хочется напомнить о необходимости сделать файл "noakc.dic" независимым от регистра, иначе приходится дублировать слова и вместо одного
Так вроде уже сделано. Или глючит? На всякий случай посмотрю.
evilone_ - Цитата :
- первая если можно как-то получить весь список тех слов в которых программа ставит замену ударения (зАмок-замОк всЕ-всЁ проЕкт-проЭкт) потому как на проверку оказалось что есть слова которых нету в лексиконе и поэтому ударения читаются без изменений, хотим синхронизировать лексиконы, в ПМ или как-то еще
В принципе, думаю, можно сделать, хотя, конечно,это отдельно нужно делать. Причем можно сразу с транскрипцией. Если не трудно, послушайте программу в режиме транскрипции и скажите, какой вариант звучит лучше (ыканье или аканье), и в каком формате выдавать файл (чтобы проще было импортировать). Постараюсь сделать, но не гарантирую, что будет сразу...
- Цитата :
- можно такое безобразие сделать или это сильно сложно?
Относительно сложно и, на мой взгляд, совершенно бесполезно. Будет практически весь текст (если посмотреть конвертированный файл, то станет ясно, что омонимы плюс пару слов с концов - это практически и будет текст целиком, причем те куски, которые выпадут, могут оказаться важными для определения контекста). |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Сб Фев 21 2009, 23:25 | Сб Фев 21 2009, 23:25 | |
| - Цитата :
- Если не трудно, послушайте программу в режиме транскрипции и скажите, какой вариант звучит лучше (ыканье или аканье),
Звучит чесно говоря плохо, в режимах "транскрипции" читает на порядок хуже чем обычный текст и раньше вроде ставились транскрипции только для тех слов где были ударения. Теперь вообще весь текст заменятся стал или это чего-то не так в настройках накрутили? Весь текст когда изменяется слушать просто невозможно.
Вот тут обзазец первый "транскрипция" второй обычный
- Цитата :
- и в каком формате выдавать файл (чтобы проще было импортировать).
если про список замен для лексикона то просто в столбик с проставленным ударением как-то так - Цитата :
- зАмок
замОк слОва словА ... так легче будет сверить каких нету а для разницы транскрипции уже построим вручную, там их не сильно много должно быть, да и надежнее будет. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Пт Фев 27 2009, 20:16 | Пт Фев 27 2009, 20:16 | |
| evilone_ - Цитата :
- Звучит чесно говоря плохо, в режимах "транскрипции" читает на порядок хуже чем обычный текст и раньше вроде ставились транскрипции только для тех слов где были ударения. Теперь вообще весь текст заменятся стал или это чего-то не так в настройках накрутили? Весь текст когда изменяется слушать просто невозможно.
Насчет того, что весь текст заменяется-это глюк, буду решать. А вот с транскрипцией у меня всё нормально - она читается гораздо лучше, чем в Вашем варианте (текст набрал со звука). Стоят опции "Алёна (транскрипция SAPI), tagged", режим "как читается" включен, "Только омонимы" отключен, ёфикация в третьем положении. Практически как второй вариант получается, даже лучше. Пробовал в SpeechPad - всё прекрасно звучит, а не так как в первой части Вашего файла. Возможно, Вы пробовали транскрипцию в очень старой версии? Судя по "гаду" - очень похоже, так как эта проблема была с запятыми и она несколько версий назад убрана. |
|
| | | evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Пт Фев 27 2009, 21:00 | Пт Фев 27 2009, 21:00 | |
| rquester да вроде и не в сильно старой , сейчас поглядим в новой как оно будет, примерчик потом добавим |
|
| | | king Новичок
Сообщений : 24
Репутация : 0
| king | :: Ср Мар 04 2009, 18:17 | Ср Мар 04 2009, 18:17 | |
| Свои внутренние голоса Макс и Максимилиана лучше убрать, очень уж сильно уступают они Алёне, Коле, Оле. |
|
| | | rquester V.I.P.
Сообщений : 137
Репутация : 16
| rquester | :: Ср Мар 04 2009, 23:46 | Ср Мар 04 2009, 23:46 | |
| king - Цитата :
- Свои внутренние голоса Макс и Максимилиана лучше убрать, очень уж сильно уступают они Алёне, Коле, Оле.
Уступают, но зато они бесплатные и их не нужно устанавливать в систему - иногда это может быть полезно. Кроме того, я планирую их дорабатывать и собираю сейчас мнения (что понятно, что непонятно, какие звуки хорошо различаются, какие плохо...)... |
|
| | | Lexus Эксперт
Сообщений : 408
Репутация : 32
| Lexus | :: Чт Окт 21 2010, 11:49 | Чт Окт 21 2010, 11:49 | |
| Есть у меня задумка. Касается Балаболки и Демагога В сети много хорошей драматургии. Простое чтение говорилками не имеет смысла по понятным причинам, а послушать хочется. Но ведь мы имеем дело с компьютером. Суть в следующем: 1. Названные две программы имеют возможность работать с графикой 2. В начале пьесы идет раздел "Действующие лица" 3. В интерактивном режиме назначаем картинки действующим лицам и авторскому тексту. Картинки можно и нарисовать в любом граф редакторе или найти готовые. 4. При чтении текста вызываются персонажи-картинки, без обозначения и проговаривания персонажа. Вполне реализуемо и на выходе получим мини-спектакль. Можно пойти и дальше использовав анимированные картинки и музыку и записав все это в файл. Но для начала важно сделать первый шаг.
Евгений Шварц Дракон Действующие лица
Дракон. Ланцелот. Шарлемань — архивариус Эльза — его дочь. Бургомистр. Генрих — его сын. Кот. Осел. 1-й ткач. 2-й ткач. Шапочныхдел мастер. Музыкальных дел мастер. Кузнец. 1-я подруга Эльзы. 2-я подруга Эльзы. 3-я подруга Эльзы. Часовой. Садовник. 1-й горожанин. 2-й горожанин. 1-я горожанка. 2-я горожанка. Мальчик. Разносчик. Тюремщик. Лакеи, стража, горожане. |
|
| | | | Пожелания по развитию программы | |
| Пожелания по развитию программы |
---|
| |