Искусственный голос и синтез речи - 语音合成
Вы хотите отреагировать на этот пост ? Создайте аккаунт всего в несколько кликов или войдите на форум.


语音合成技术和文本语音转换 - Synthetic voice and Text to Speech technology - Синтетический голос и технологии преобразования текста в речь
 
TTS книги  Проверялка  ФорумФорум  Последние изображенияПоследние изображения  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  

Автоматизированное пополнение словаря ударений

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеАвтоматизированное пополнение словаря ударений
chipsterchips
Наблюдатель


Сообщений : 2
Репутация : 1

Автоматизированное пополнение словаря ударений WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 chipsterchips :: Чт Фев 20 2014, 14:51
Автоматизированное пополнение словаря ударений FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Чт Фев 20 2014, 14:51

Добрый день!

Я занимаюсь исследованиями, относящимися к созданию методики автоматизированного пополнения словарей ударений. В ближайшем будущем я планирую реализовать такую систему, основанную на машинном обучении. Система будет формировать гипотезы о расположении ударения в неизвестном слове с определенной долей вероятности, основанной на анализе структуры входной выборки.

Скажите, есть ли какие-то перспективы у такой методики по отношению к системам синтеза речи?

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 304
Репутация : 85

Автоматизированное пополнение словаря ударений WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 apokrif :: Чт Фев 20 2014, 18:52
Автоматизированное пополнение словаря ударений FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Чт Фев 20 2014, 18:52

chipsterchips пишет:
Скажите, есть ли какие-то перспективы у такой методики по отношению к системам синтеза речи?
Да... и нет.
Если по результатам делать словари, то нет.
Ударение может меняться в зависимости от контекста, да и Омонимы/Омофоны/Омографы добавляют счастья.
Binary dictionaries не популярны.
Текстовые словари, как правило, д.б. целиком загружены в память, не проблема для desktop, но точно для mobile.
Текстовые словари на основе регексов == CPU hoax.
IMHO, методика д.б. встроена в систему синтеза речи, а не быть внешней.
Зато, если в этом деле поднатореть, наверняка можно хорошую работу найти!

Вернуться к началу Перейти вниз
chipsterchips
Наблюдатель


Сообщений : 2
Репутация : 1

Автоматизированное пополнение словаря ударений WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 chipsterchips :: Чт Фев 20 2014, 22:52
Автоматизированное пополнение словаря ударений FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Чт Фев 20 2014, 22:52

apokrif, большое спасибо за ответ!
До сих пор мне не предоставилось возможности подискутировать по данному вопросу с кем-нибудь, кто в теме. Надеюсь, Вы не будете против немного просветить меня в некоторые детали, так как это может напрямую отразиться на моих будущих исследованиях.

Идея не в том, чтобы создать самый большой словарь (старые слова - исчезают, появляются новые), а в том, чтобы создать методику, которая могла бы с наибольшей вероятностью ответить, где именно будет находиться ударение.
Конечно же, омонимы и омографы - проклятье всей русской лингвистики, с которым зачастую бессмысленно бороться. Но все же я убежден, что можно научить компьютер предсказывать (не со 100% вероятностью) ударение в неизвестных словах (при помощи, например, морфологии и структурного анализа лексем/словоформ).
Вопрос в другом: нужно ли это?

До этого момента я был уверен в том, что все современные системы синтеза речи, которые так или иначе моделируют речевой тракт, используют словари ударений для построения правильных просодических моделей. Но Вы говорите, что такие словари не популярны. Значит сейчас обходятся без них? Тогда каким образом система регулирует интонацию в воспроизводимом предложении, не зная о расположения ударений в конкретных словах?

Может вообще стоит заняться не проблемой расстановки ударения в словах, а, скажем, проблемой интонационного оформления предложений? Насколько эта задача уже решена?

Буду очень признателен, если Вы владеете какой-либо информацией по этому поводу и сможете ею со мной поделиться.

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 304
Репутация : 85

Автоматизированное пополнение словаря ударений WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 apokrif :: Пт Фев 21 2014, 04:08
Автоматизированное пополнение словаря ударений FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Пт Фев 21 2014, 04:08

chipsterchips пишет:
До сих пор мне не предоставилось возможности подискутировать по данному вопросу с кем-нибудь, кто в теме.
Да я бы рад что-то умное сказать, но боюсь, что я совсем не в теме.
chipsterchips пишет:
Может вообще стоит заняться не проблемой расстановки ударения в словах, а, скажем, проблемой интонационного оформления предложений? Насколько эта задача уже решена?
Я отвечу не на этот вопрос, а просто выскажу некоторые мысли, в основном по результатам наблюдения TTS Nuance.
Ударение зависит от контекста, простейший пример "крупные рЕки" - "сияние рекИ".
Иногда влияющий контекст находиться в предыдущем предложении.
Все TTS имеют словарь, (очевидно НЕ контекстный)
Простой словарь помогает, но далеко не всегда (не знаю %, некоторых людей даже 1% ошибок просто бесит)
У TTS Nuance есть какая-то обработка окончаний и интонации предложения, но это нигде не описано, и вклиниться/подключить свой модуль нельзя.
Есть мнение, что задача которую мы обсуждаем аналогична по сложности задаче автоматического перевода текста на другой язык и есть неплохие методики (у Google) требующие немерянного CPU time и большой базы данных. (any desktop/mobile - "chantra pas")
Т.е. для получения результата текст отсылается на CPU farm и возвращается готовый результат.
Последние наработки Nuance так и делают. (Заодно и деньжат можно больше срубить)

Все эти вещи относятся к разряду Know-How. Если вы в этом вопросе действительно разбираетесь, то может вам стоит поискать работу в Nuance или Amazon (Ivona)?
Всё IMHO конечно.

Вернуться к началу Перейти вниз

Автоматизированное пополнение словаря ударений

Предыдущая тема Следующая тема Вернуться к началу
Автоматизированное пополнение словаря ударений
Страница 1 из 1Страница 1 из 1
      Форма быстрого ответа        Форма быстрого ответа  
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении
Создать форум бесплатно | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении | Cookies | Последние обсуждения