TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  



Русский голосовой движок своими руками.

Предыдущая тема Следующая тема Перейти вниз
На страницу : 1, 2  Следующий
АвторСообщениеРусский голосовой движок своими руками.
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Вс Ноя 20 2016, 00:35
Вс Ноя 20 2016, 00:35

Всем привет!!!
Давно не был.
Ничего не пропустил, суть вопросов не изменилась..
...

Предлагаю принять участие в разработке русского голосового движка.
Может быть кто возьмется помочь. Многое уже сделано, но создание массива фонем занимает очень много времени. Буду признателен за любые пожелания и подсказки.
Если тема "пойдёт" то выложу подробное описание, что сделано и что надо ещё сделать.
Это не значит, что нет полной картины как и чего надо делать.

Вводная часть.
Надо согласится, что все существующие голосовые движки не имеют понятия о синтаксисе и морфологии.
По этому и дурацкие вопросы возникают - почему "погрУзите", а не "погрузИте" , а так же необыкновенный акцент движков и интонация.
(Какие-то движки и по-русски окончания тянут в безударных, но совершенно не учитывая части речи и что это - конец предложения, или запятая в сложном предложении, или перечисление и вообще структуру предложения .)
В этом примере https://yadi.sk/d/zJgQWaCdqTKx3 не будет работать "Мама мыла раму", потому, что мама какого мыла.
Делал для примера, без учёта омонимии.

Другие заточены на пунктуацию, но не учитывают русского произношения ( не в этом дело: Что -Што, ПетроВ- СидороФ, а в длине и атаке фонем).
И вообще надо бы понимать контекст, не только предложения, но и предшествующего смысла текста. "По улице шла девушка с косой".
(Забегая вперёд - сделано).
Увы, но современные движки не позволяют поставить ударения (правка только в "sampa") не говоря о выше сказанном. Поставить правильное ударение - далеко не достаточно!
Акцент на словах, окончаниях, а не только на знаках препинания.
По этому:
Спасение утопающих - дело рук самих утопающих!
Короче говоря, есть такое дело:
Сделан движок, который строит "sampa" на всё предложение с учетом омонимии и интонации, с "пониманием" предшествующего смысла текста.
Вторая часть - озвучка "sampa".
Так, как делается в "Алёне", "Ольге", "Милене" и так http://www.findpatent.ru/patent/229/2298234.html тоже - делать нельзя!
Пока занят изготовлением нужных инструментов. Звуковые редакторы не подходят по определению. Там нельзя вычленить вхождение одного звука в другой, сделать пересечение с учётом гармоник, модуляции и многого чего ещё.
Поскольку я не диктор, то приходится выдирать фонемы из аудиокниг. Не каждый диктор подходит и ещё приходится очищать-выделять "чистые" фонемы от модуляции соседних звуков.
Пока чищу по критерию подобия Пирсона на интервалах одинаковой длины:
K=(сумма(Xi-Xср)*(Yi-Yср))/Корень(сумма((Xi-Xср)^2)*сумма((Yi-Yср)^2))
это пока варианты, можно попробовать вейвлет преобразование, даже есть рабочие наброски на Delphi.


Тому, кто захочет принять участие - всё разжую, дам исходники, готовые exe и всё, всё, всё.
Только без праздного интереса! Smile
Пожелания и примеры можно приводить на любом языке: - Delphi, C, ассемблер, пролог и т.д - всё будет понятно.Smile

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 304
Репутация : 85

 apokrif :: Вс Ноя 20 2016, 07:47
Вс Ноя 20 2016, 07:47

Лёва пишет:
Так, как делается в "Алёне", "Ольге", "Милене" и так ... тоже - делать нельзя!
ЦРТ вроде ж выиграли тендер именно на разработку Русского голосового движка, получили кучу бабла и оприходовали уже?
Если интересно именно "своими руками", есть RHVoice от Olga Yakovleva
Было бы интересно услышать критику вышеупомянутых движка в исполнении уважаемого маэстро!
:teacher:

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Вс Ноя 20 2016, 12:14
Вс Ноя 20 2016, 12:14

Что значит
Цитата :
Если интересно именно "своими руками", есть RHVoice от Olga Yakovleva
?
Здесь ключевые слова "синтаксис и морфология".
Нельзя-же утверждать, что какой то движок, в том числе и RHVoice от Olga Yakovleva, делает синтаксический анализ и разрешение омонимии.
От этого все беды.
И в ближайшем будущем не видно просвета в этом направлении.
Если проследить ритмику чтения книжек дикторами, то можно отметить изменение темпа и расстановку акцентов в зависимости от связи слов и конфигурации предложения.
Это касается и "склейки" фонем.

Цитата :
почему "погрУзите", а не "погрузИте"
Это оговорка по Фрейду. Smile
Крутился семпл с этим словом...
Хотел написать почему "спОлзали", а не "сползАли".

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Вс Ноя 20 2016, 15:22
Вс Ноя 20 2016, 15:22

Пример слитного (с пересечением на 30 мс. конца и начала слова) и раздельного произношения слов.
+ долгие окончания в коне предложения и запятых и замена предлога "в" на "ф".
https://yadi.sk/d/AIOmhG9Kz4ZqY
Цитата :
Было бы интересно услышать критику вышеупомянутых движка в исполнении уважаемого маэстро!


Спойлер:
 

Вернуться к началу Перейти вниз
vitaly200
Посетитель
avatar


Сообщений : 37
Репутация : 0

 vitaly200 :: Вс Ноя 20 2016, 21:00
Вс Ноя 20 2016, 21:00

Лёва пишет:
Многое уже сделано, но создание массива фонем занимает очень много времени
Я могу предложить вам свои услуги? Я не программист, но если есть работа нудная и долгая то помогу. Время у меня есть. Глаза быстро устают, но потихоньку с перерывами можно.

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Вс Ноя 20 2016, 23:10
Вс Ноя 20 2016, 23:10

vitaly200
Спасибо за участие.
Давай я подготовлю списки фонем которые нужны и пояснительную записку - что да как.
Предлагаю всё обсуждение вести здесь, может кто подкинет новую идею, или полезную критику наведёт. Smile
Цитата :
Глаза быстро устают
Не стоит зря стараться выделить "чистые" фонемы - это не возможно.
Обязательно присутствует наложение соседних звуков.
Для этого я и делаю специализированный редактор, где можно делать сложение и вычитание, а не только вставить\удалить.
Но не знаю... Сколько времени потребуется - задача не лёгкая. Это даже не чистка от шума.

Надо выбрать диктора, но не слишком эмоционального. Чем меньше - тем лучше.
Выразительность будем сами делать.
Кстати, как диктор в примере и не очень-ли монотонно получилось?
Правда никакой модуляции здесь нет.
Меня смущают шумы фонограммы, откуда брал кусочки, зато они маскируют склейку.

Дай срок - всё подготовлю.
Завтра попробую сделать альбом для марок, чтобы коллекционировать звуки.


Цитата :
Я не программист

Я тоже. Smile


Вернуться к началу Перейти вниз
vitaly200
Посетитель
avatar


Сообщений : 37
Репутация : 0

 vitaly200 :: Пн Ноя 21 2016, 02:42
Пн Ноя 21 2016, 02:42

Лёва пишет:
Кстати, как диктор в примере и не очень-ли монотонно получилось?
Ооо. Я под сильным впечатлением. То, что надо. Голос как у профессионального начитчика.
Я думал он скопирован с кого то, но нет.

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 304
Репутация : 85

 apokrif :: Пн Ноя 21 2016, 05:25
Пн Ноя 21 2016, 05:25

Лёва пишет:
На одной из конференций, я докладывал о необходимости применения методов компьютерной лингвистики для синтеза речи. :oldtimer:
"Я бы на вашем месте за докторскую диссертацию немедленно сел!" (c)
А если без шуток, то это практически неподъемная работа, на голом энтузиазме её не поднять. Вы, наверное, только что из отпуска вернулись и вам очень хочется сделать что-то полезно для народа "в целом"?


Вернуться к началу Перейти вниз
vitaly200
Посетитель
avatar


Сообщений : 37
Репутация : 0

 vitaly200 :: Пн Ноя 21 2016, 13:28
Пн Ноя 21 2016, 13:28

apokrif, любезный вы наш разводящий - мы знаем ваши повадки. Раскусили вас.
Прошу, нет, даже молю - проходите мимо. Найдите себе другие жертвы.

Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 304
Репутация : 85

 apokrif :: Пн Ноя 21 2016, 18:23
Пн Ноя 21 2016, 18:23

vitaly200 пишет:
apokrif, любезный вы наш разводящий - мы знаем ваши повадки. Раскусили вас.
Рад за вас.
Моё мнение было адресовано Лёве.

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Пн Ноя 21 2016, 20:23
Пн Ноя 21 2016, 20:23

Ребята, давайте жить дружно!

apokrif
Цитата :
А если без шуток, то это практически неподъемная работа, на голом энтузиазме её не поднять. Вы, наверное, только что из отпуска вернулись и вам очень хочется сделать что-то полезно для народа "в целом"?
Да не простая.
Половина сделана, что касается лингвистической части.
Осталось часть, чем занимаются голосостроительные фирмы, + нововведения для звуковой части.

...Наоборот, я вышел в бессрочный отпуск. Тренировка мозгов. Smile

vitaly200
Я не пропал. Smile
Занимался альбомом для коллекции звуков.
Думаю, что завтра всё переделаю.
Пришла такая мысль - сделать так, чтобы эта часть вошла и в сам движок.
Короче говоря, сделать массив стримов из звуковых потоков (думаю без заголовков, чтобы сразу копировать в звуковой буфер, параметры выставлять при создании звукового потока) и записывать/читать этот массив в файл.
Список пока не делал.
Список названий фонем запихну в таблицу. Каждому названию соответствует свой стрим, с возможностью прослушивания и визуализации где-то внизу формы.
Соответственно таблицу можно пополнять и редактировать.

Поэтому могу погрузится в нирвану дня на два, на три.


Вернуться к началу Перейти вниз
apokrif
V.I.P.


Сообщений : 304
Репутация : 85

 apokrif :: Вт Ноя 22 2016, 08:55
Вт Ноя 22 2016, 08:55

Лёва пишет:
Наоборот, я вышел в бессрочный отпуск. Тренировка мозгов. Smile
Тогда наверное будет в тему: Lobanov_Cirulnik_2008.pdf (легко гуглиться)

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Чт Ноя 24 2016, 00:53
Чт Ноя 24 2016, 00:53

apokrif
Интересно!
Спасибо.

vitaly200
Вот результат.
Попробовал несколько вариантов со звуком, но остановился на wav формате и без дополнительных звуковых движков.
Если перевести в беззаголовочный формат, то другими программами его никак не взять, а мало-ли...
С таблицей тоже можно проколупаться до конца времён, постоянно модифицируя.

Список фонем и пояснения напишу попозже.
Тут надо вдумчивый подход и писанины много.

Пока просто кнопки потыкать, может и так чего понятно будет.
Методику работы я завтра опишу, но лучше на вопросы ответить - чего не понятно.

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Пт Ноя 25 2016, 01:29
Пт Ноя 25 2016, 01:29

evmir_troll-hunter
Заметил и хотел.
Надо сделать возможность редактировать свои сообщения (любому зарегистрированному) хоть через год.
Это общая практика.


vitaly200
Беру небольшую паузу, день- два.
Интересное решение нашел кренделя крутить с данными канала...
Надо обкатать...

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 616
Репутация : 208

 evmir_troll-hunter :: Пт Ноя 25 2016, 02:11
Пт Ноя 25 2016, 02:11

Ссылка исправлена...
Цитата :
Надо сделать возможность редактировать свои сообщения (любому зарегистрированному) хоть через год.
Это общая практика.
Данная практика привела к печальным результатам...
Вандализм не имеет срока давности!.. во всяком случае на нашем форуме уж точно.

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Пт Ноя 25 2016, 02:26
Пт Ноя 25 2016, 02:26

Надо быть проще, и народ к вам потянется!
https://www.youtube.com/watch?v=tJKnju02c3U
Цитата :
Вандализм не имеет срока давности!..
Художники иногда уничтожают свои неудачные поделки...
В писании сказано, - ...добрее надо быть...

(Вот чёрт дёрнул.)

Вернуться к началу Перейти вниз
wasyaka
Опытный
avatar


Сообщений : 170
Репутация : 20

 wasyaka :: Пт Ноя 25 2016, 08:53
Пт Ноя 25 2016, 08:53

Лёва, готов помоч.

Вернуться к началу Перейти вниз
vitaly200
Посетитель
avatar


Сообщений : 37
Репутация : 0

 vitaly200 :: Пт Ноя 25 2016, 11:17
Пт Ноя 25 2016, 11:17

Лёва пишет:
vitaly200
Вот результат.
Попробовал несколько вариантов со звуком, но остановился на wav формате и без дополнительных звуковых движков.
Если перевести в беззаголовочный формат, то другими программами его никак не взять, а мало-ли...
С таблицей тоже можно проколупаться до конца времён, постоянно модифицируя.

Список фонем и пояснения напишу попозже.
Тут надо вдумчивый подход и писанины много.

Пока просто кнопки потыкать, может и так чего понятно будет.
Методику работы я завтра опишу, но лучше на вопросы ответить - чего не понятно.


Потыкал кнопки. Но ничего не понятно что делать.
Чтобы писанины поменьше делать, сделай видео руководство с комментами.
Это эффективнее, чем писать что делать.

wasyaka а ты понял чего нудно делать?




Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Пт Ноя 25 2016, 13:29
Пт Ноя 25 2016, 13:29

wasyaka, спасибо!
Ребята, хочу предупредить, что ваша помощь на свой страх и риск!
Мне будет крайне не ловко, если я потрачу впустую ваше время!
Тем не менее, я буду этим заниматься.
Процесс очень долгий и приходится учится на ходу.
Сегодня ночью экспериментировал с библиотекой bass.dll. https://yadi.sk/d/pkZUsMjszSNLH
(кликнуть по зелёному полю для получения расписания. Если антивирус будет паниковать, то заразы там нет.
Вообще-то на Яндекс диске всё проверяется на биологическую опасность.)

vitaly200 Вечером напишу инструкцию по эксплуатации.
Сейчас берёт сонная одурь, надо отдохнуть. Ещё не ложился. Smile

В кино можно понять только последовательность нажатия кнопок, а смысл будет не понятен.
По этому буду вкладывать описания в виде *.txt в вышеприведённую ссылку, или отдельную заведу.

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Пт Ноя 25 2016, 22:44
Пт Ноя 25 2016, 22:44

Вот здесь https://yadi.sk/d/Qeg5ZqIVzUi3g описание и пример файла sample Array.txt.
Нужные файлы для таблицы готовлю. Надо разработать систему, чтобы ничего не пропустить и облегчить работу.
Книжки выложу завтра.

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Вс Ноя 27 2016, 13:38
Вс Ноя 27 2016, 13:38

vitaly200, wasyaka,
Дела обстоят следующим образом:
Вот три книги https://yadi.sk/d/1x-Fdib3zaYXc, начитанные одним диктором.
Чтение ровное, без эмоциональных всплесков, с другой стороны достаточно выразительное.
В архиве лежать эти же книги в текстовом варианте, что облегчает поиск нужного слова.
В одной отдельной главе поиск нужного звука делается достаточно просто.
А здесь https://yadi.sk/d/tEgQWQFVzaYZp корни и окончания слов русского языка, разбитые на лексические группы.
Из них можно составить любое слово русского языка.
В идеале, если сделать семплы на все эти кусочки, то и мечтать больше не очем.
Правда на считал во что это выльется. Если мегабайт 60-150 то думаю это нормально, если гораздо больше,
то будем разбивать на слоги и буквы. Окончания всё равно надо делать целиком.
Они определяют выразительность чтения.
Вчера-позавчера сделал более двух десятков предложений на разный характер произношения, так практически невозможно отличить от начитанных человеком.
Даже делал не существующие в русском языке слова, но с окончаниями присущими к той, или иной части речи и положения в предложении, так получалось, что диктор читает текст из научных терминов.
Или как у Кэрролла:
Варкалось. Хливкие шорьки
Пырялись по наве,
И хрюкотали зелюки,
Как мюмзики в мове.
Сохранялась интонация и выразительность.
Не надо пугаться, что их так много. Дело в том, что они, во всяком случае окончания, многократно повторяются.
С другой стороны, некоторые, а их не много, окончания надо будет сделать от двух до восьми вариантов произношения.
Допустим - улица Гроького - Горьково, друг - друк, Якоб - Якоп.
Петров Пароходов.
ов - ударная, короткая(в пояснительной части предложения)
ов - как оф, ударная, короткая(в пояснительной части предложения)
ов - ударная, длинная(в конце предложения)
ов - как оф,ударная, длинная(в конце предложения)
ов - безударная, короткая(в пояснительной части предложения)
ов - как оф, безударная, короткая(в пояснительной части предложения)
ов - безударная, длинная(в конце предложения)
ов - как оф, безударная, длинная(в конце предложения)
И так для ав, ув и так далее, но таких не много!
Например для ...шись в ...овшись этого не надо. Будет изменяться только часть ов.

Теперь о грустном.
Не все "склейки" так гладко получаются.
Некоторые, хоть ты тресни, не стыкуются.
Происходит это потому, что пересечение(микс) двух фонем взяты из других опер.
_________________________
/\
Нужны "чистые" фонемы без этого пересечения.
___________ _____________
\ и /
(Дурацкое форматирование сдвигает картинку, но надеюсь понятно, что "дельту" надо сдвинуть на середину. И вообще - руки оторвать надо, кто так безграмотно сайт делал.)

Выделить(очистить от пересечения) достаточно сложно, а тут ещё и голос диктора чем-то обработан - присутствует реверберация.
Она очень усложняет задачу.
Если решить эту задачу, то можно и отдельные буквы склеивать, а это тоже нужно будет.

Что нужно:
1. Найти книжки начитанные диктором подобно Коршенову, или эти же книги, только без обработки.
Посмотрим, может и эти подойдут, только научится с ними работать.
2. Надо доделать специализированный звуковой редактор. Без него дальнейшего движения не будет!
Сколько времени это займёт - не знаю. Как пойдёт.
Надо пробовать различные математические методы.

В дальнейшем работа будет сводится к поиску слова с нужной фонемой и выдернуть её этим редактором.

Вернуться к началу Перейти вниз
vitaly200
Посетитель
avatar


Сообщений : 37
Репутация : 0

 vitaly200 :: Пн Ноя 28 2016, 01:48
Пн Ноя 28 2016, 01:48

Лёва
Что нужно:
1. Найти книжки начитанные диктором подобно Коршенову, или эти же книги, только без обработки.

С трудом понял, что нужно искать Геннадия Коршунова, а не Коршенова.
Книг на рутрекере аж 2 страницы. Все прослушал давно. Это один из моих любимых начитчиков.
http://rutracker.org/forum/tracker.php?nm=%D0%93%D0%B5%D0%BD%D0%BD%D0%B0%D0%B4%D0%B8%D0%B9%20%D0%9A%D0%BE%D1%80%D1%88%D1%83%D0%BD%D0%BE%D0%B2
Уточнить хочу.
Есть книги Коршунова с 64 kbps, ~66 kbps, 67 kbps, 80 kbps, 128 kbps, 192 kbps, в MP3.
Есть предпочтения?

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Пн Ноя 28 2016, 10:42
Пн Ноя 28 2016, 10:42

vitaly200
Во первых спасибо!
Во вторых, - да Коршунова.
Это я опечатался (у/e английское и т.д.).
В третьих - конечно желательно 192 kbps.
Меньше мы всегда сумеем сделать. Испортить никогда не поздно.
Сейчас скачаю. Надо посмотреть чтобы без обработки было.
И ещё, надо чтобы достаточно материала было для всех хотелок.
Я хочу ещё и дежурные фразы добавить, типа "Добрый вечер" и другие, как у Ольги.
А может и не надо.
Короче говоря, чем больше однотипных - тем лучше, но не ниже 128 и брать во внимание "моно/стерео".


Вчера пробовал делать из "Den.Braun-Utrachennyj.simvol.2010.MP3.128kbps", не знаю кто читает, тоже вроде-бы ровно, но получается уже не то.

Хорошо быть девушкой в розовом пальто,
можно и не в розовом но уже не то.
Хорошо быть женщиной в норковом манто,
можно и не в норковом, но уже не то.




Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Пн Ноя 28 2016, 11:43
Пн Ноя 28 2016, 11:43

Эталон - https://rutracker.org/forum/viewtopic.php?t=5298492

Вернуться к началу Перейти вниз
vitaly200
Посетитель
avatar


Сообщений : 37
Репутация : 0

 vitaly200 :: Пн Ноя 28 2016, 17:48
Пн Ноя 28 2016, 17:48

Лёва.
"..Я хочу ещё и дежурные фразы добавить, типа "Добрый вечер" и другие, как у Ольги..."

Если есть список фраз, то напишите. Я этот список вышлю Геннадию Коршунову. Напишу что и как. Думаю он не откажет и начитает. Только нужно определиться, какие требования нужны для хорошей записи.

Ммм. Компьютерный голос отнимет часть хлеба от начитчиков. Но он человек мудрый, разберётся.
Моё твердое убеждение - только искусственный интеллект сможет на равных конкурировать с
начитчиком. Но это даалекое будущее.

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 616
Репутация : 208

 evmir_troll-hunter :: Пн Ноя 28 2016, 20:04
Пн Ноя 28 2016, 20:04

Цитата :
Напишу что и как. Думаю он не откажет и начитает.
Я упал с дивана!
Начитает?.. серьёзно? В смысле профессиональный диктор, зарабатывающий голосом (и зачастую читающий всякую лабуду, чтобы прокормить семью), сам предоставит сэмплы (да ещё ж и даром наверняка... правда?) для какого-то непонятного и пока несерьёзного проекта.

А если проект получится, не исключаю судебной тяжбы...

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Пн Ноя 28 2016, 22:01
Пн Ноя 28 2016, 22:01

evmir_troll-hunter
Мне кажется, что такая форма критики не вполне конструктивна.

vitaly200
...
Думаю это излишне.
...
Недоказуемо по многим причинам...

Задачку с семплами решил.
Вышлю таблицу, что надо озвучить... и вовсе не много получилось.
Уже пробовал подключать лингвистическую обработку текста с передачей параметров на то что сегодня наковырял из новых книжек.
Естественно, что подбирал предложения, на которые хватает семплов.
Сделал поиск по образцу звука по всему файлу в редакторе. Это очень облегчает работу и качество.
Это значит - есть "ор" выделенный в редакторе (понятно, что о звуке говорим). Обрезаем часть "р" сохраняем.
С той позиции, что обрезали выделяем маленький кусочек(потом объясню какой) и ищем "ра", "ру".... - стыковка идеальная.
Поиск по наибольшему подобию.... Впрочем не важно. Всё относительно быстро. За несколько часов наделал семплов на слоги на несколько предложений.
Качество блестящее!!!
Главное заработала вся цепочка от текстового файла до звука. Всё как хотел!
Конечно ещё много чего надо до ума доводить, но это уже тюнинг и рутина, хотя очень долгая.
Надо приклеить наработки с числительными в нужном падеже, аббревиатуры и много чего ещё.


Есть у меня две площадки с программистами и компьютерными лингвистами.
Дядьки серьёзные, но добрые - всегда помогут и зубы не скалят. Одно слово - гнилая интеллигенция.
Статьи пишут.
И я тебе напишу.

Вернуться к началу Перейти вниз
vitaly200
Посетитель
avatar


Сообщений : 37
Репутация : 0

 vitaly200 :: Вт Ноя 29 2016, 13:30
Вт Ноя 29 2016, 13:30

Лёва.
Да, действительно излишнеSmile
Я могу к его начиткам найти текстовые книги.
Оттуда легко найти требуемые дежурные и другие нужные фразы.
Ну и по следам найду аудио фразы.

"...брать во внимание "моно/стерео"..." предпочтительнее моно?

"Это значит - есть "ор" выделенный в редакторе (понятно, что о звуке говорим). Обрезаем часть "р" сохраняем.
С той позиции, что обрезали выделяем маленький кусочек(потом объясню какой) и ищем "ра", "ру".... - стыковка идеальная."
Обрезать перед и после р с двух сторон, так?
Потом к р пристыковываем 10 гласных звуков (букв), так?

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Вт Ноя 29 2016, 14:43
Вт Ноя 29 2016, 14:43

vitaly200
Цитата :
предпочтительнее моно?
Стерео. Моно всегда можно сделать.
Цитата :
Обрезать перед и после р с двух сторон, так?
Так.
Вообще-то я предполагал, что Вы сделаете окончания, начальные позиции слова и предлоги, союзы.
Причем можно слово целиком(чтобы мне понятнее было, а я сам всё вырежу).
Середину вам будет сложно сделать на обычном редакторе. На моём надо долго объяснять и подписывать кнопки и т. д. По этому середину я буду сам. + я делаю подгонку по амплитуде и усреднение, иначе голос "прыгает".
Цитата :
Потом к р пристыковываем 10 гласных звуков (букв), так?
И согласных тоже (рр, сс , ось), короче говоря все сочетания алфавита. Хотя это не по "правилам" и увеличивает объём, за то стыковка прекрасная.
Гласные ударные и безударные.

Пока занят обменом с звуковым буфером.
Вот такой фигнёй:
data:=BASS_SampleCreate(q, Length, 1, 2);
BASS_ChannelSetPosition
BASS_ChannelGetData
//data указатель на array[0..$FFFF] of smallInt;
FHandle := BASS_StreamCreate(_prop_Freq, _prop_Channels, _prop_Flags, @MakeSine, self);

Короче хочу всё перевести на BASS.dll. Это даст в дальнейшем много преимуществ.
Разорваться не могу.
Может действительно сделать таблицу, чтобы вы искали, а я тем временем буду колупаться со звуком.

Вернуться к началу Перейти вниз
wasyaka
Опытный
avatar


Сообщений : 170
Репутация : 20

 wasyaka :: Вт Ноя 29 2016, 19:10
Вт Ноя 29 2016, 19:10

Лёва пишет:
Эталон - https://rutracker.org/forum/viewtopic.php?t=5298492

Хотел написать отзыв от просмотра выложенного - Передумал.
Лучше я буду Максимку продолжать учить.
Все кто читает этот жанр( или играет) - взрослые мужики упавшие в детство...(проблем других нет
, счастливые люди - никаких проблем(кроме виртуальных)).
Не буду мешать ихнему... счастью.
P.S
Ктото любит пиво, а ктото квас а я безумно обожаю...
Удачи.
(Неправильно(непонятно) выразился: - то, что для Вас эталон - для других???? ТОЖЕ????
Изначально - конфликт...

Вернуться к началу Перейти вниз
vitaly200
Посетитель
avatar


Сообщений : 37
Репутация : 0

 vitaly200 :: Вт Ноя 29 2016, 19:53
Вт Ноя 29 2016, 19:53

Лёва.
Ок. Сделайте таблицу.
Я сейчас скачиваю всё что наговорил Коршунов на
Битрейт: 192 kbps
Вид битрейта: постоянный битрейт (CBR)
Частота дискретизации: 44 kHz
Количество каналов (моно-стерео): Стерео

Скачал себе программу Sound Forge Pro v10.0e Build 507 PORTABLE на русском вместе с
Sony Noise Reduction - Плагин Sony Noise Reduction предназначен для того, чтобы анализировать и удалять из звукозаписей различный фоновый шум,
например, посторонний шум пленки, электрического гула, грохота машин.В отличие от обычного фильтра, Sony Noise Reduction может сделать это, не удаляя часть исходного материала.
Это достигается с помощью разложения звука на его частотные компоненты и использования "noiseprint",чтобы различить нежелательный шум и желательный сигнал. Для очистки выделите фрагмент записи,
в котором заведомо находится "чистый шум",и в окне Noise Reduction в автоматическом режиме произведите его частотный анализ).После нажатия на кнопку OK, в соответствии с результатами такой "экспертизы",
шумы будут опознаны и удалены со всей фонограммы.
https://rutracker.org/forum/viewtopic.php?t=4317946
Так что можете выслать эталон для "чистый шум".
В нете есть уроки "Видеокурс по Sony Sound Forge Pro".
Так что буду изучать. Мне этой проги пока будет достаточно думаю.

Вернуться к началу Перейти вниз
vitaly200
Посетитель
avatar


Сообщений : 37
Репутация : 0

 vitaly200 :: Вт Ноя 29 2016, 20:21
Вт Ноя 29 2016, 20:21

wasyaka
Я думаю ты с ходу не разобрался, что к чему.
Лёва выбрал эталон по признаку Битрейт: 192 kbps
Вид битрейта: постоянный битрейт (CBR)
Частота дискретизации: 44 kHz
Количество каналов (моно-стерео): Стерео.
Диктор, читающий без выражения (чтобы аударения самим делать где нужно), без шумов, много книг чтобы выбирать нужные звуки
букв, сочетание букв. А голос не будет похож на голос Коршунова. Его можно сделать любым.
Например как у Максима. Лёва об этом писал чуть выше.

Если ты чтеца под нужные параметры знаешь покруче этого, так давай, покажи.

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Вт Ноя 29 2016, 20:47
Вт Ноя 29 2016, 20:47

Цитата :
Изначально - конфликт...
В чём? в частоте дискретизации, или в тембре голоса?
Именно такой лучше всего с технической стороны. Артистизм не обсуждаем.
Вот хотел написать, что и художественную ценность не обсуждаем.
Но подумал, что такие очевидные вещи как-то и объяснять не ловко.
....
vitaly200
Завтра к вечеру постараюсь выложить окончания.
Попробуй Audacity. Она маленькая и простая.

Вернуться к началу Перейти вниз
wasyaka
Опытный
avatar


Сообщений : 170
Репутация : 20

 wasyaka :: Вт Ноя 29 2016, 21:36
Вт Ноя 29 2016, 21:36

vitaly200 пишет:
wasyaka
Я думаю ты с ходу не разобрался, что к чему.
Лёва выбрал эталон по признаку Битрейт: 192 kbps
Вид битрейта: постоянный битрейт (CBR)
Частота дискретизации: 44 kHz
Количество каналов (моно-стерео): Стерео.
Диктор, читающий без выражения (чтобы аударения самим делать где нужно), без шумов, много книг чтобы выбирать нужные звуки
букв, сочетание букв. А голос не будет похож на голос Коршунова. Его можно сделать любым.
Например как у Максима. Лёва об этом писал чуть выше.

Если ты чтеца под нужные параметры знаешь покруче этого, так давай, покажи.

Причём здесь чтец?
Фраза: "длинной дорОгой" и "длинной дорогОй шубой" и таких...
и кто это скажет правильно?и где это решается?(на каком уровне? в каком словаре?) Главное тембр, напор, и... при чём здесь шуба?
ну и как все эти навороты будут решаться? Ручками(в основном моими?(укажи на другие)) или всё пропишем? Сможеш?
Суть не в голосе, а в количестве произнесённым им ошибок...

Изначальный путь - правильное произношение, а уж за тем... Гена, Петя, Сашин брат...

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Вт Ноя 29 2016, 22:47
Вт Ноя 29 2016, 22:47

Цитата :
Фраза: "длинной дорОгой" и "длинной дорогОй шубой" и таких...
и кто это скажет правильно?и где это решается?(на каком уровне? в каком словаре?)
Не морочь голову!
Об этом и идёт речь, а звук - это вторично.
Это я уже лет пять назад делал для голоса Ольга.
Только теперь без словарей будет.
Для чего я рисовал в начале темы?
Цитата :
Ктото любит пиво, а ктото квас а я безумно обожаю...
Не знаю, как насчёт многоточия, но точно на грудь наверное бутылок семь девятой Балтики принял.
Тормозить надо только на поворотах.

Вернуться к началу Перейти вниз
wasyaka
Опытный
avatar


Сообщений : 170
Репутация : 20

 wasyaka :: Вт Ноя 29 2016, 23:47
Вт Ноя 29 2016, 23:47

Лёва пишет:
Цитата :
Фраза: "длинной дорОгой" и "длинной дорогОй шубой" и таких...
и кто это скажет правильно?и где это решается?(на каком уровне? в каком словаре?)
Не морочь голову!
Об этом и идёт речь, а звук - это вторично.
Это я уже лет пять назад делал для голоса Ольга.
Только теперь без словарей будет.
Для чего я рисовал в начале темы?
Цитата :
Ктото любит пиво, а ктото квас а я безумно обожаю...
Не знаю, как насчёт многоточия, но точно на грудь наверное бутылок семь девятой Балтики принял.
Тормозить надо только на поворотах.

К сведению:
На територии ЛНР пиво Балтика не наблюдается, а уж брагу № 9 ...
Ну и где это?(или какиврубится?)
https://yadi.sk/i/KirC0Utkzncg6

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Ср Ноя 30 2016, 11:01
Ср Ноя 30 2016, 11:01

Цитата :
Ну и где это?(или какиврубится?)
О! У меня тоже один раз случайно чуть не обновилась семёрка до десятки.
Но я вовремя остановил и откатил.
Тем не менее, эта тема размещена в рубрике "Лингвистическая обработка текста" и это не с проста.
Эта рубрика была сделана как раз для решения вопросов "длинной дорОгой" и "длинной дорогОй шубой".
И эти вопросы можно и нужно решать без словарей.
Почему этого не делают голосостроители, чуть не сказал "заборостроители", остаётся вопросом?

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Чт Дек 01 2016, 21:50
Чт Дек 01 2016, 21:50

Вот, что пока удалось сделать. Это только треть от глагольных форм, и только окончания.
Может и мало прибавится, когда я глаголы сделаю, но проработать ну;но все.
Приходится перелопачивать большие объёмы.
Очень трудоёмко! Причины и лексические и технические.
В таком режиме вряд-ли смогу работать
Надо и мирской жизнью жить.

Не знаю как лучше, то-ли ждать пока я всё доделаю и тогда просто слушать и выдёргивать окончания из каждого слова, либо по частям.
Глаголы, существительные, числительные....

P.S.
Если чего-то не окажется в книжке, то можно обрезать до первой гласной с конца, но не хотелось бы.

Вернуться к началу Перейти вниз
vitaly200
Посетитель
avatar


Сообщений : 37
Репутация : 0

 vitaly200 :: Пт Дек 02 2016, 23:39
Пт Дек 02 2016, 23:39

Лёва.
Как мне глагольные формы сохранять?
В WAV ? В одном файле? Какой интервал? По порядку как в списке? Каждому наименование?
Мне нужен пример.

Я скачал 15 книг Коршунова в текстовом и соответственно МР3 варианте с подходящими характеристиками.
Думаю из такого множества найду нужное.

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Вс Дек 04 2016, 17:39
Вс Дек 04 2016, 17:39

vitaly200
Терпение, только терпение!
Запущены несколько параллельных процессов в башке, и на прононс, и на лексику и чтобы порожняком не гонять массивы из Москвы до Ленинграда и обратно до Москвы.
Концепция такая:
Буфер и все преобразования делаем в нём. Как он стал меньше 50%, то запускаем параллельный поток на обработку текста и склейку фонем.
Из массива делаем поток. Поток не останавливается! Не важно, что на халяву есть практически всё, чтобы изгаляться над данными в потоке, но это всё не то! будем делать всё в массиве.
(Вот уроды, и поток, как например StreamCreateFile, и Channel, как звуковой поток, и программный поток- и всё потоки. Даже в немецком больше ордунга, чем в английском.)

Окончания сделал, но должно всё устаканится.
Не удобно, чтобы кто-то пустую работу делал кроме меня.
Я -то хотя-бы положительные эмоции от экспериментов получаю.
Хотел было сделать описания и пример в каком виде должно быть всё представлено, но не судьба...
...Меня раздражают дурацкие правила, когда сходил покурить, подумал, а сообщение редактировать уже нельзя.
Ни ссылку поменять...
Детский сад!
Я тебе давича написал, а ты почту не смотришь.

А в основном, не так всё плохо.
Работой загружу- дай срок. Smile

Вернуться к началу Перейти вниз
wasyaka
Опытный
avatar


Сообщений : 170
Репутация : 20

 wasyaka :: Пн Дек 05 2016, 00:33
Пн Дек 05 2016, 00:33

Прежде, чем взять тяжёлое в руки...
Лёва
Возник вопрос(люди придумали букварь: ма-ма; па-па и т.д.)
В смысле слово состоит из букв и слогов. а у Вас из корня и окончания? Я правильно понял талмуты?
Ну и слог ов В смысле ov или of почти как у Шекспира....
Я составлял фонемы для PLShelper и понять закономерность ov или of...(решилось методом больших чисел) и... логики там..., правильней с логикой этот слог не дружит. а у Вас только окончание? в смысле в корне Гена(автор голоса) прав?(все варианты vitaly200 пропишет или это только начальный вариант?

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Пн Дек 05 2016, 12:21
Пн Дек 05 2016, 12:21

Цитата :
Возник вопрос(люди придумали букварь: ма-ма; па-па и т.д.)
В смысле слово состоит из букв и слогов. а у Вас из корня и окончания? Я правильно понял талмуты?
Нет, не правильно!
Цитата :
Я составлял фонемы для PLShelper и понять закономерность ov или of...(решилось методом больших чисел) и... логики там...,
Тоже не верно.
Цитата :
прав?(все варианты vitaly200 пропишет или это только начальный вариант?

Только не слоги, а переходы от одной буквы к другой.
+ гласные ударные и безударные звучат по разному в конце предложения и в середине.
Особенно это ярко проявляется в окончаниях. Окончания и передают интонацию.
Цитата :
или это только начальный вариант?
Да, будем резать, а что то оставлять - всё зависит от качества произношения.
Как здесь, только с учётом особенностей произношения в разных частях предложения и частей речи и ещё несколько изменений улучшающих стыковку фонем.


Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Пн Дек 05 2016, 16:13
Пн Дек 05 2016, 16:13

wasyaka
Вот примеры скомпилированные с разницей в одно окончание.
Буковки одни и те-же.
Второй пример так и хочется продолжить, оно как бы не закончено, а слова одни и те-же!

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Ср Дек 07 2016, 00:10
Ср Дек 07 2016, 00:10

vitaly200
Хочу посоветоваться, прежде чем писать пояснения и ставить ударения.
Вот это только на окончания глаголов.
Очень большой объём!
Честно говоря уже сократил на треть, если не больше.
Надо понимать, что в таком виде не будет всё присутствовать в программе, всё будет разбиваться и объёмы сократятся.
Я преследовал следующие цели:
1. Обозначены не только окончания, но и проблемные сочетания с ними. Я не писал жж, зж, сс, нн и так далее.
+ произношение ...авшись=...афшись, а не только ...ав=...аф. - Понятно почему.
2.Важны "вторые" ударные гласные в конце предложения. Например если последняя гласная безударная - ...вАли.
В середине предложения это не важно.
3.Предполагается, что каждому набору букв будет соответствовать целое слово, с которым я буду ковыряться.
Для чего это нужно?
Как не крути, а всё равно придётся делать остальные сочетания.
Лучше брать эти сочетания из этих-же слов с окончаниями.
Одинаковая амплитуда и высота - просто идеально.

Сокращать-ли до такого вида, какие сочетания будут в программе?

Можно сделать все окончания по всем частям речи, а потом уже искать звуки на них.
Некоторые окончания совпадают - "побороф", "доходоф", но таких не много.

Конечно можно так, какое окончание попалось - такое и заносим.
Но тогда быстро запутаемся.

Вернуться к началу Перейти вниз
vitaly200
Посетитель
avatar


Сообщений : 37
Репутация : 0

 vitaly200 :: Чт Дек 08 2016, 21:13
Чт Дек 08 2016, 21:13

Лёва.
"..окончания глаголов." В перечне окончания глаголов почти половина имеет две гласных
буквы. К примеру "вился". Тут возможны 3 варианта записи окончания глагола. Ударные гласные буквы в слове выделяются голосом-2 варианта и обе гласных безударных.
Значит нужно записать 3 разных варианта. Я правильно понял?

"Сокращать-ли до такого вида, какие сочетания будут в программе?" Да, так быстрее.

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Чт Дек 08 2016, 23:13
Чт Дек 08 2016, 23:13

vitaly200
Подожди немножко, а даже не немножко а недельку.
Я привожу к такому виду.
Цитата :
Значит нужно записать 3 разных варианта.
Там, в Окончания3.rar, я делаю все варианты.
Закомментированные строки означают, что я не нашел примеров, а озвучки и подавно не найти.
Вернее я нашёл примеры в своей библиотеке (162 гига.), но слов в словарях таких нет.
По этому будем синтезировать - работа ещё та, чтобы качественно всё было. Нужны все сочетания!!!
Со вторыми гласными я разбираюсь, что можно упростить, сократить, но не хочется терять качество!
Программа тоже достаточно сложная получается + быстродействие надо блюсти.
Рук не хватает и времени, а распараллелить не удаётся. Одно радует, что всё срослось, как хотел.
Но выделять и сопрягать звуки - ещё та каторга, а ещё программу писать надо...
Будем делать не спеша и вдумчиво, а то и перегореть можно.

Вернуться к началу Перейти вниз
vitaly200
Посетитель
avatar


Сообщений : 37
Репутация : 0

 vitaly200 :: Пт Дек 09 2016, 00:38
Пт Дек 09 2016, 00:38

Лёва, а может перенести тему в http://forum.ixbt.com/
Там аудитория побольше и форум открытый. Правда apokrifОВ куча, но их игнорить можно.
Подумай.

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Пт Дек 09 2016, 16:00
Пт Дек 09 2016, 16:00

Не стоит.
Нам огласка не нужна.
Конечно есть некоторое неудобство, детская глупость, на этом сайте, что пользователи не могут редактировать свои сообщения, да ничего.
Я для этой цели в ЛС тебе написал свою почту, а ты не читаешь! (эту фразу уже в нескольких постах повторил.)


Спойлер:
 

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 616
Репутация : 208

 evmir_troll-hunter :: Пт Дек 09 2016, 17:34
Пт Дек 09 2016, 17:34

Цитата :
Правда apokrifОВ куча, но их игнорить можно.
Это завуалированное хамство по отношению к др. пользователю (и не первое кстати!..)

За непонимание основ вежливого общения - недельный бан!

Вернуться к началу Перейти вниз
Лёва
V.I.P.
avatar


Сообщений : 134
Репутация : 173

 Лёва :: Сб Дек 10 2016, 10:53
Сб Дек 10 2016, 10:53

Чтобы не скучно было пока перерыв.
Спойлер:
 

Вернуться к началу Перейти вниз
Спонсируемый контент




 Спонсируемый контент ::


Вернуться к началу Перейти вниз

Русский голосовой движок своими руками.

Предыдущая тема Следующая тема Вернуться к началу
Русский голосовой движок своими руками.
Страница 1 из 2Страница 1 из 2На страницу : 1, 2  Следующий
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении