Nuance Milena TTS

V.I.P. Сообщений : 304

Ajaja пишет:: Там свежей vautov5_sapi5.dll, случайно, нет?

Блин, написал большой ответ, а пост не прошёл.
Неохота всё по новой писать...
В 2х словах:
Линейка Vocalizer (vauto_v5), похоже, закрывается
Новая - Vocalizer Expressive (гуглим)
Голоса не совместимы.
Всё, что есть на текущий момент
TextAloud новые версии используют именно Vocalizer Expressive.
Надо бы такой голос найти и посмотреть, что внутри.

а у нее оказывается есть польская сестра-близнец Like a Star @ heaven

вот случайно наткнулись...
Milena polski syntezator mowy dla systemu Linux
http://milena.polip.com/tips.shtml

V.I.P. Сообщений : 49 Репутация : 28

apokrif пишет:: Новая - Vocalizer Expressive (гуглим)
Голоса не совместимы.
Всё, что есть на текущий момент

Спасибо. Попробовал Милену из Vocalizer Expressive в NVDA. Разницы с последними версиями vauto совершенно не заметил. Похоже, только обертку поменяли.
А вот Юрий из Vocalizer Expressive разочаровал. Уровень старичка Николая, IMHO.

Спойлер:

V.I.P. Сообщений : 304 Репутация : 85

Ajaja пишет:: А вот Юрий из Vocalizer Expressive разочаровал. Уровень старичка Николая, IMHO.

Это Юрий из SVOX. Я писал опус на 4PDA:

Спойлер:

Ajaja пишет:: Кстати, драйвер с сайта vocalizer-nvda.com работать не захотел...

Там почти весь код "драйвера" на Pyton написан Smile

Цитата :: Там почти весь код "драйвера" на Python написан

Вовсе нет. Драйвер - это библиотека с именем ve.dll
Почти все функции этой библиотеки совпадают с vautov5.dll
Так что ve.dll это новая версия vautov5.dll
На питоне там только обвертка для вызова функций из этой библиотеки для NVDA.
Пытался написать простенькую консольную утилитку для вызова функции TTS, но не хватило ума.
Завтра посоветуюсь с питонщиками, авось чтото получится.

V.I.P. Сообщений : 49 Репутация : 28

Кстати, там действительно отличия от оригинального драйвера только в паре закомментированных строк в _veTypes.py и _vocalizer.py. Ну и nuan_platform.dll в измененном драйвере хоть и оригинальная, но почему-то от версии v3.0.1.
Эх, жаль что я питон почти не знаю...

P.S. Кажется понял. В nuan_platform.dll в драйвере v3.0.1, похоже, было что-то не то с проверкой лицензии, так что все работало и без нее. Этот драйвер, кстати, до сих пор доступен: http://downloads.vocalizer-nvda.com/driver/vocalizer_expressive_driver-3.0.1.nvda-addon

V.I.P. Сообщений : 304 Репутация : 85

Ajaja пишет:: Этот драйвер, кстати, до сих пор доступен

Там все есть: 3.0.1-3.0.5

V.I.P. Сообщений : 304 Репутация : 85

Вышел Koba Speech 3 со Vocalizer Expressive SAPI5 x86/x64.
Посмотрел, похоже все DLL на месте, ~~но в работе не проверял.~~
Проверил на XP x86, Vocalizer Expressive SAPI5 x86 заговорил без проблем.
До x64 ещё не добрался, уверен, что там все точно также. tongue

Если влом распаковывать: SAPI5 и голоса

V.I.P. Сообщений : 304 Репутация : 85

Dmitry пишет:: apokrif, опять без инструкции

Инструкция в Vocalizer_Expressive_SAPI5_x86_readme.rar
Установка на 100% совпадает с Vocalizer SAPI5.
Единственная неувязка, autov5_sapi5.dll & ve_sapi5.dll имеют одинаковый CLSID {98BAB182-19A8-40d5-9268-1F84E1B7B257}, т.е. они взаимоисключающие.

Можно поменять CLSID на другой (например {98BAB182-19A8-40d5-9268-1F84E1B7B258}) и поправить все *.reg и ve_sapi5.dll (и не забыть поправить checksum)

V.I.P. Сообщений : 304 Репутация : 85

Swk пишет:: Можете записать сравнительные семплы, например голоса Milena, до, и после установки Vocalizer Expressive. Естественно с оптимальными настройками произношения?

Там дело не семплах, а в наборе "глюков" произношения у Milen из Vocalizer и Vocalizer Expressive. Почитайте последние 5 страниц тут http://4pda.ru/forum/index.php?showtopic=200728

Swk пишет:: И ещё не маловажный вопрос, после установки Vocalizer Expressive не возникнут какие-либо проблемы того или иного вида?

"Проблема" только одна (IMHO)

apokrif пишет:: Единственная неувязка, autov5_sapi5.dll & ve_sapi5.dll имеют одинаковый CLSID {98BAB182-19A8-40d5-9268-1F84E1B7B257}, т.е. они взаимоисключающие.

V.I.P. Сообщений : 304 Репутация : 85

Цитата :: Скажу прямо, файлы взяты с 4пда, но мук я с ними натерпелся!

И у меня и других всё заработало без проблем.
Это только вы у нас велико-мученник.
Рад что вы разобрались самостоятельно!
Выложите ваши рег файлы и ваш же readme отдельно - я их на 4пда тоже загружу, может еще кому жизнь спасут Smile

V.I.P. Сообщений : 304 Репутация : 85

al2055 пишет:: Незарегистрированный класс, ошибка движка и т.п.

Предыдущую страницу всю прочитали?

Цитата :: Еще должен стоять Microsoft Visual C++ 2005 SP1 Redistributable Package (x86) 8.0.50727.762

Или поставьте Koba 3, он всё что нужно сам добавит.

apokrif пишет:: Еще должен стоять Microsoft Visual C++ 2005 SP1 Redistributable Package (x86) 8.0.50727.762

Все это стоит и даже новее. Уже почти нашел, откуда уши торчат.

Гость

apokrif пишет:

Цитата :: Выложите ваши рег файлы и ваш же readme отдельно - я их на 4пда тоже

Здесь файлы реестра, но они переделаны мной под голоса, скачанные из разных ссылок.
Тут же папка Vocalizer_Expressive_SAPI5_x86_readme, которую я скачал с 4пда
https://drive.google.com/folderview?id=0B7fIANHkqAlYRlh3Rm9nemhxVkk&usp=sharing
Задача была установить русские голоса весом около "центнера". Сами голоса, с которыми будут работать файлы реестра, также переименованы (я не специалист в компьютерах, в школе учился тогда, когда их в помине не было, поэтому делал как умел). Мои файлы реестра будут работать с голосами, переименованными мной и загруженными на сервер для скачивания по ссылке в предыдущем сообщении.

V.I.P. Сообщений : 304 Репутация : 85

gammajung пишет:: Пишет "Ошибка синтезирования речи: класс не зарегистрирован". Что делать?

Товарищ с 4pda.ru предлагает совсем простое решение:

AlienUser пишет:: Тем, у кого не работает "Милена" Premium High на XP по ссылке из первого сообщения (Vocalizer_for_Automotive_v5) и пишет "Ошибка синтезирования речи: класс не зарегистрирован", и не помогают никакие программы по восстановлению ключей реестра (FixRegistry, speech.reg), может помочь предварительная установка KobaSpeech 2 With Vocalizer Milena - Russian.exe (из личного опыта). Я взял ее с офиц. сайта, но надеюсь, она останется бесплатной и после 30-дневного срока (на оф. сайте ничего, вроде, не видел об этом), так как это старая версия, или по крайней мере после этого срока продолжат работать голоса из Vocalizer_for_Automotive_v5. После установки KobaSpeech 2 запустите Milena.reg и SAPI5.reg (я делал именно в такой последовательности, но вы можете экспепрементировать) из набора для Vocalizer_for_Automotive_v5. Заставить так работать Милену с KobaSpeech 3 With Vocalizer Yuri - Russian.exe не получилось, но я пробовал именно с Юрием (и запускал сначала SAPI5.reg, потом - Milena.reg, хотя не знаю, какое порядок имеет значение), так как хотел послушать на пробу мужской голос, с Миленой был уже знаком по Андроиду. Чуда не произошло, - Юра - просто ужас, как все везде и пишут, с Миленой рядом не стоял. После установки KobaSpeech 2 дальше эксперементировать с 3-ей версией (с Миленой оттуда) не стал, не хотел тратить время и сомневаюсь, что разница в голосах на что-то принципиально влияет в решении указанной проблемы.

Качество звука новой Милены «Vocalizer Expressive»

Поставил (благодаря трудам apokrifX) на Win7 новую Милену «Vocalizer Expressive» и сравнил с её предшественницей Миленой «Vocalizer for Automotive v5», ожидал качественного прорыва! Ну думаю, и было неплохо, а с новыми возможностями, точно заткнёт за пояс и Алёну и Ольгу. Речь идёт, конечно же, об обеих версиях «Premium High».

Так вот, а что же действительно нового и качественного в «Vocalizer Expressive» ?
1. Возможность регуляции тембра (по-моему, в старой версии тембр не регулировался).
2. При этом, каких либо принципиально новых интонаций в новом голосе «экспрессивной», т.е. «выразительной» Милены, я не услышал.
3. Кроме того, в голосе появились какие-то щелчки.
4. А самое главное, звук стал более «резким», это в первую очередь связанно с тем, что разработчик увеличил громкость на верхних частотах речи, т.е. на частотах 5-6 КГц. Однако, на мой слух, новый голос Милены стал в значительной степени «металлическим». А это, как правило, бывает связанно со значительным уровнем гармонических искажений в звуке, что свидетельствует только об ухудшении качества звука.

Может я ошибаюсь?

V.I.P. Сообщений : 304 Репутация : 85

retigor пишет:: Может я ошибаюсь?

Ответил вам на другом форуме, просто там чаще бываю... silent

V.I.P. Сообщений : 1228 Репутация : 986

На сайте фирмы "Harpo", кроме голосов IVONA, доступны для покупки 97 голосов от компании Nuance. В том числе русские голоса Yuri, Milena и Katya. Цена одного голоса - $45.

http://harposoftware.com/en/2-main/s-1/index/brand-nuance/language-russian

V.I.P. Сообщений : 304 Репутация : 85

balabolka пишет:: На сайте фирмы "Harpo"...

Да, примерно в июне выложили. Если нужно поправить silent

al2055 пишет:: Скопировал, зарегистрировал, но радости отчего-то нет. Все голоса видны, но ни в одном приложении не работают. Незарегистрированный класс, ошибка движка и т.п.

Мне, на Win 7 x64, помогло редактирование SAPI5_x86.reg. Нужно заменить в нём Program Files на Program Files (x86)
Ну и сам движок распаковывал в c:\Program Files (x86)

V.I.P. Сообщений : 1228 Репутация : 986

Вступил в переписку со службой поддержки компании Nuance по поводу ошибок в их голосах, обнаруженных одним из пользователей "Балаболки". Выяснилось, что все текущие голоса от фирмы Nuance содержат две проблемы.

Проблема 1.
XML тег <silence/>, применяемый в SAPI 5 для добавления в речь паузы, зависит от скорости речи. Например, если указать звуковому движку сделать паузу продолжительностью 10 секунд:

<silence msec="10000"/>

то при скорости речи «0» длина паузы будет 10 секунд, при скорости речи «+5» пауза будет 7,5 секунд, при скорости речи «+10» пауза составит 5 секунд. Это очевидная ошибка в работе голоса, так как продолжительность пауз задается в миллисекундах и должна всегда оставаться неизменной (если, конечно, компьютер не движется со скоростью, близкой к скорости света).

Проблема 2.
Оказалось, что при использовании голосов Nuance невозможно добавить в звуковой файл паузу продолжительностью более 66 секунд. У голосов от других фирм такого ограничения нет.

Речь идет о связке тега <silence/> и еще какого-либо текста до или после тега. И, конечно же, скорость речь и здесь оказывает свое влияние: на скорости «0» можно записать 66 секунд тишины, на скорости «+10» максимальная пауза будет 33 секунды.

---

Посмотрим, даст ли эта переписка результат.

V.I.P. Сообщений : 304 Репутация : 85

balabolka пишет:: Вступил в переписку со службой поддержки компании Nuance по поводу ошибок в их голосах, обнаруженных одним из пользователей "Балаболки".

Здорово! Я тоже пытался связаться через разный каналы лет 5 назад – не получил ни одного ответа...

balabolka пишет:: Проблема 1.
XML тег <silence/>, применяемый в SAPI 5 для добавления в речь паузы, зависит от скорости речи.

Да, настоящий баг. Понятно, что паузы от точек, запятых, и т.д. должны зависеть от скорости речи, но не эта.
Чтобы обойти, наверное можно тег <silence/> в скорость оборачивать?
Понятно, что через Ж, но лучше чем ничего?

balabolka пишет:: Проблема 2.
Оказалось, что при использовании голосов Nuance невозможно добавить в звуковой файл паузу продолжительностью более 66 секунд. У голосов от других фирм такого ограничения нет.

Дык эта, скорость уменьшите до 0 и любую паузу получите!

balabolka пишет:: Посмотрим, даст ли эта переписка результат.

Тоже интересно. А кто отвечает от Nuance - индусы или ...?

V.I.P. Сообщений : 1228 Репутация : 986

apokrif
Пока получил лишь вежливый ответ, что мое сообщение принято к сведению и изложенная в нем информация будет проанализирована.

Проблема с тегом <silence/> имеет значение для преобразования субтитров в звуковой файл. Пока попробую ввести поправочные коэффициенты для разных значений скорости речи для голосов Nuance (то есть, для паузы 10 секунд и скорости речи "+10" программа будет использовать значение в 20 тысяч миллисекунд для тега тишины). Но это только для субтитров.

---

Тут пришла беда, откуда не ждали: один из пользователей сообщил, что проблема с тегом тишины есть и в голосах IVONA, которые продает фирма Harpo. В доказательство своих слов он прислал файл субтитров и звуковой файл, записанный при помощи "Татьяны" на скорости "+10". В этом аудиофайле та же проблема, что и в голосах Nuance: при увеличении скорости речи длительность пауз уменьшается.

У меня самого стоит "оригинальный" голос "Татьяна", купленный еще на сайте IVONA (версия 1.6.70): в нем такой проблемы нет. Сложно поверить, что в последних версиях голоса разработчики умудрились добавить такую серьезную ошибку, но пока это выглядит именно так.

Был бы признателен, если тот, у кого стоит последняя версия "Татьяны" от фирмы Harpo, преобразовал файл субтитров в звуковой файл на скорости речи "+10", а затем проверил, совпадает речь с метками времени или нет.

V.I.P. Сообщений : 304 Репутация : 85

balabolka пишет:: Был бы признателен, если тот, у кого стоит последняя версия "Татьяны" от фирмы Harpo, преобразовал файл субтитров в звуковой файл на скорости речи "+10", а затем проверил, совпадает речь с метками времени или нет.

Может просто текст кинуть в SAPI, типа:
<speed=1/>Сейчас будет пауза 5 сек.<silence=5000/>пауза закончилась.
Сам бы сделал, но я в разметке SAPI ни бум бум...

V.I.P. Сообщений : 1228 Репутация : 986

Спасибо всем тем, кто откликнулся на мою просьбу и прислал результаты тестов голосов IVONA от фирмы Harpo. Мне тоже удалось протестировать эти голоса.

Подтвердились худшие опасения: текущая версия голосов IVONA с сайта Harpo неправильно обрабатывает тег <silence/>, если скорость речи отличается от значения "0". Продолжительность тишины зависит от скорости речи, хотя величина задана в миллисекундах. В старой версии "Татьяны" (которая продавалась через сайт IVONA) всё работает нормально.

Подготовил текстовый пример и два звуковых файла, записанных с помощью новой и старой версий; отправлю их в службу поддержки Harpo. Пусть или разбираются сами, или пересылают в службу поддержки IVONA.

Подытожу:

Если кто-то собирается использовать "Балаболку" и голоса IVONA для преобразования субтитров, то берите старую версию голоса "Татьяна" (версия 1.6.70, файл Ivona_Voice_1.6_Tatyana_22kHz.exe). Либо записывайте субтитры только на скорости речи "0".
С голосами Nuance всё плохо; в нынешнем варианте их использовать для преобразования субтитров нельзя.
При использовании "Ольги" продолжительность тишины зависит от скорости речи.
Голос "Алёна" работает без проблем.

V.I.P. Сообщений : 304 Репутация : 85

balabolka пишет:

apokrif пишет:: Чтобы обойти, наверное можно тег <silence/> в скорость оборачивать?
Понятно, что через Ж, но лучше чем ничего?

Пусть или разбираются сами, или пересылают в службу поддержки IVONA.

Дык, а по рабоче-крестьянски-то значится не выходит никак? Типа того:

Код:: <speed=0><silence=5000/></speed>

V.I.P. Сообщений : 1228 Репутация : 986

apokrif
Тег <rate/> не помогает.

V.I.P. Сообщений : 304 Репутация : 85

balabolka пишет:: apokrif
Тег <rate/> не помогает.

Ясно.
А зависимость от скорости речи одинаковая для IVONA и Nuance?
Если скорость выставляется в самой "Балаболке", а не в тексте, может можно таги <silence msec="10000"/> на лету под текущую <rate/> подправлять?
Хотя если таги самому обрабатывать, наверное можно и <rate/> тоже распознавать и учитывать...

V.I.P. Сообщений : 1228 Репутация : 986

apokrif
Зависимость от скорости речи для голосов разных фирм разная.

В "Балаболке" коррекция будет только для голосов Nuance и только для преобразования субтитров. Для голосов IVONA ничего предпринимать не стану, так как надо распознавать версию голоса (а возможно, еще и вендора). Будем надеяться, что разработчики IVONA сами исправят ошибку в короткий срок.