Нейро-синтез речи своими руками

Ответить
Аватара пользователя
newport
Интересующийся

Нейро-синтез речи своими руками

#1

Сообщение newport » 15 дек 2018 21:21

(поскольку пост от 12 декабря на 4пда был сегодня удален в теме о tts, то решил разместить здесь)

Это пример решения по обучению нейросети синтезу речи по вводимым текстовым отрывкам, которое можно опробовать самостоятельно, использую домашний или офисный сервер.

Шаг 1
- Установить Torch
Torch - это Open-Source научная вычислительная среда с широкой поддержкой алгоритмов машинного обучения.
В основе Torch лежат популярные нейронные сети и библиотеки оптимизации, которые просты в использовании и обладают максимальной гибкостью при реализации сложных топологий нейронных сетей. Вы можете создавать произвольные графы нейронных сетей и эффективно распараллеливать их на процессорах и графических процессорах.
http://torch.ch/

Шаг 2
- Установить Torch-rnn
Это модуль для Torch, который предоставляет высокопроизводительные, многократно используемые модули RNN и LSTM, и использует эти модули для моделирования на уровне символов, аналогичного char-rnn.
https://github.com/jcjohnson/torch-rnn/

Шаг 3
- поскольку первые два шага позволят нам вводить в нейросеть и обрабатывать текстовые данные (символы и их блоки), то для достижения нашей цели (обработка звуковых отрывков) нам требуется инструмент, который позволит переводить звуковые row-файлы в текстовые.
Такой инструмент был создан малоизвестным зарубежным программистом, написавшим небольшую утилиту, конвертирующую звуковой файл в текст.
Скачиваем её с его страницы:
http://robbi-985.homeip.net/blog/?p=1845
и читаем описание.
Читаем две его страницы с примерами:
http://robbi-985.homeip.net/blog/?p=1760
http://robbi-985.homeip.net/blog/?p=1819
Смотрим два видео с примерами работы:
http://www.youtube.com/watch?v=FsVSZpoUdSU&fmt=22
http://www.youtube.com/watch?v=NG-LATBZNBs&fmt=22

Системные требования:
Torch и его модули устанавливаются в Linux-систему;
Сама утилита-конвертер: написана и работает под Windows.
Чем мощнее сервер, тем быстрее идет обработка вводимых отрезков. (Второе видео является результатом более 300 часов обучения голосом на сервере автора. Использовались 8-битные оцифровки голоса).

Аватара пользователя
newport
Интересующийся

Нейро-синтез речи своими руками

#2

Сообщение newport » 01 янв 2019 18:16

Всех с новым годом, народ.) :preved:


Отправлено спустя 1 день 15 часов 37 минут 46 секунд:
реализации/архитектуры могут быть разные, и их уже довольно много есть на Гитхабе.
к примеру, в одной из них удалось обучить сеть (на машине Intel Core i5) за 15 часов на основе 5 часов аудио-записей.
ниже примеры:
TTS Example_ это был солнечный февральский день.mp3
(85.71 КБ) 41 скачивание
TTS Example_ раз, два, три, четыре, пять, вышел зайчик погулять.mp3
(39.59 КБ) 35 скачиваний
TTS Example_ Волга впадает в Каспийское море.mp3
(164.08 КБ) 41 скачивание
TTS Example_ в школе надо было учить математику.mp3
(37.14 КБ) 40 скачиваний
TTS Example_ в Петербурге всегда хорошая погода.mp3
(164.49 КБ) 38 скачиваний

Аватара пользователя
speech
Постоялец

Нейро-синтез речи своими руками

#3

Сообщение speech » 03 янв 2019 22:07

newport писал(а):
03 янв 2019 09:54
к примеру, в одной из них удалось обучить сеть (на машине Intel Core i5) за 15 часов на основе 5 часов аудио-записей
Я конечно не в теме, но надо ли там программировать? Есть ли какое-то описание, аналогичное первому примеру?

Аватара пользователя
newport
Интересующийся

Нейро-синтез речи своими руками

#4

Сообщение newport » 06 янв 2019 14:45

speech писал(а):
03 янв 2019 22:07
Есть ли какое-то описание, аналогичное первому примеру?
Можно было бы и здесь продублировать, но лучше откройте по ссылке: https://habr.com/company/speechpro/blog/358816/
- там довольно подробное описание с примерами;
И посмотрите весь блог. https://habr.com/company/speechpro/
Там есть и конкурс, и про подготовку датасета, и прочее.

Аватара пользователя
Lecron
Обыватель

Нейро-синтез речи своими руками

#5

Сообщение Lecron » 06 янв 2019 17:33

newport, Есть ли шанс, что в ближайшем будущем, пара-тройка лет, это станет юзерфрендли решением. Скачал инсталятор, выбрал голос (коэффициенты обученной сети) с сайта или любительские с форума, и получил SAPI5 озвучку?
И самое главное, с ошибками внутрифразовой интонации (изменения высоты тона, темпа речи (ускорении и замедлении в протекании речи), силы звучания (интенсивности речи), внутрифразовых пауз) не чаще, чем 1 раз на час озвучки.

Аватара пользователя
newport
Интересующийся

Нейро-синтез речи своими руками

#6

Сообщение newport » 07 янв 2019 10:03

Lecron писал(а):
06 янв 2019 17:33
И самое главное, с ошибками внутрифразовой интонации (изменения высоты тона, темпа речи (ускорении и замедлении в протекании речи), силы звучания (интенсивности речи), внутрифразовых пауз) не чаще, чем 1 раз на час озвучки.
Касательно естественности речи моё мнение таково, что построенные модели позволяют достигать достаточно достоверной имитации. Но это все-таки именно имитация. Имитационные модели используются и в классических синтезаторах. О настоящей безошибочной модели, повторяющей человеческую речь со всеми оттенками, сейчас речи быть не может, т.к. эта проблема полностью входит в круг задач искусственного интеллекта.
Это моё мнение, а как это повернется, и каковы сроки, зависит от активности инженерии.
Lecron писал(а):
06 янв 2019 17:33
Есть ли шанс, что в ближайшем будущем, пара-тройка лет, это станет юзерфрендли решением. Скачал инсталятор, выбрал голос (коэффициенты обученной сети) с сайта или любительские с форума, и получил SAPI5 озвучку?

Здесь так-же - исключительно только мои гипотезы: я думаю, что по аналогии с языками программирования и средами разработок, имеющиеся на сегодня средства позволяют повторять эксперименты дома, но создание tech-end становится задачей всех участников рынка. Другими словами, все могут делать свои дистрибутивы и продавать, как и любой другой продукт.

Аватара пользователя
Lecron
Обыватель

Нейро-синтез речи своими руками

#7

Сообщение Lecron » 07 янв 2019 13:46

newport писал(а):
07 янв 2019 10:03
О настоящей безошибочной модели, повторяющей человеческую речь со всеми оттенками, сейчас речи быть не может
Используемый мной классический движок, интонационных ошибок уровня предложения не допускает вообще. Одна на несколько книг. Однако естественность произношения отдельного слова, хромает. Нужна привычка))). Прослушав ваши примеры, особенно после разбора в редакторе на отдельные слова, увидел как раз обратное. Слово звучит лучше, но фраза, это не просто проблема, а полный кошмар.
Вот и поинтресовался, каков прогноз. Будет ли это чистая нейросеть (уж извините, фраза искусственный интеллект в применении к простейшим рефлексам меня раздражает) или слияние с классикой, не важно. Так понял, что оценить эти перспективы невозможно. Уровень прогноза — рано или поздно, так или иначе.

Кстати, определил когда программу можно назвать интллектом. Когда она, с первого, максимум со второго прохода, сможет определить, какому из книжных персонажей принадлежат каждый из фрагментов текста.

Аватара пользователя
newport
Интересующийся

Нейро-синтез речи своими руками

#8

Сообщение newport » 13 янв 2019 14:10

Lecron писал(а):
07 янв 2019 13:46
интонационных ошибок уровня предложения не допускает вообще. Одна на несколько книг. Однако естественность произношения отдельного слова, хромает. Нужна привычка))). Прослушав ваши примеры, особенно после разбора в редакторе на отдельные слова, увидел как раз обратное. Слово звучит лучше, но фраза, это не просто проблема, а полный кошмар.
Скиньте ваши примеры, если не сложно. Если мы сравниваем, то давайте сравним примерами достижений, так сказать, и там, и там.
Приведенные мной синтезированные отрезки, кстати, не мои, а Олега Петрова.
Lecron писал(а):
07 янв 2019 13:46
Кстати, определил когда программу можно назвать интллектом. Когда она, с первого, максимум со второго прохода, сможет определить, какому из книжных персонажей принадлежат каждый из фрагментов текста.
кстати, здесь не шла речь об искусственном интеллекте. Он упомянут лишь в контексте. Здесь же идет речь о повторяемости естественной речи.

Аватара пользователя
good_cat
Администратор

Нейро-синтез речи своими руками

#9

Сообщение good_cat » 13 янв 2019 15:26

newport писал(а):
13 янв 2019 14:10
Не повторяйте ошибок ...
Предупреждение!
Переход на личности. Сообщения отредактированы.

Топлю баню! Вяжу веники! :dont:

Аватара пользователя
newport
Интересующийся

Нейро-синтез речи своими руками

#10

Сообщение newport » 13 янв 2019 17:03

good_cat писал(а):
13 янв 2019 15:26
Сообщения отредактированы.
там был скорее товарищеский жест :smile1:
ps/ good_cat, я-то думал вы что-то по синтезу добавили) ..

Аватара пользователя
good_cat
Администратор

Нейро-синтез речи своими руками

#11

Сообщение good_cat » 13 янв 2019 17:08

По синтезу я от Вас жду. Результатов после теории. :smile1:

Аватара пользователя
newport
Интересующийся

Нейро-синтез речи своими руками

#12

Сообщение newport » 13 янв 2019 20:58

good_cat писал(а):
13 янв 2019 17:08
По синтезу я от Вас жду. Результатов после теории.
Я их точно так же жду от окружающих. :smile1:

Аватара пользователя
Lecron
Обыватель

Нейро-синтез речи своими руками

#13

Сообщение Lecron » 14 янв 2019 11:21

newport писал(а):
13 янв 2019 14:10
Скиньте ваши примеры, если не сложно. Если мы сравниваем, то давайте сравним примерами достижений, так сказать, и там, и там.
Примеров работы Loquendo Olga и других движков, в сети вагон и маленькая тележка.
Но для достоверности:
series_new_new.mp3
(127.09 КБ) 29 скачиваний

Аватара пользователя
wasyaka
V.I.P.

Нейро-синтез речи своими руками

#14

Сообщение wasyaka » 14 янв 2019 13:17

Lecron писал(а):
14 янв 2019 11:21
Но для достоверности:
И Вы это ...считаете за....ЗАНАВЕС (это моё личное мнение, человека который прослушал и продолжает ..., ну уж штуку точно)
Дуэль...
Сравнительный тэст:
Любой текст с вашенй стороны(фрагмент) - Вы Ольгой - Я Ивоновской и Яндексовской групой
Жду...
Дуэль...

Аватара пользователя
Lecron
Обыватель

Нейро-синтез речи своими руками

#15

Сообщение Lecron » 14 янв 2019 14:19

wasyaka, А Ивона тут причем? Они все, включая Колю и прочих тань, плюс-минус одинаковые и на любителя. Поэтому ни соревноваться, ни тем более переубеждать не стану. Сравнение с новым приниципом, нейросеточной озвучкой. Где произношение отдельных слов мне нравится больше, но фразовые интонации..., даже на таких коротких примерах, уже удивляют. Как они себя поведут на осмысленном тексте на пару абзацев, со сложноподчинеными, вопросительными, восклицательными предложениями и прочими диалогами, вообще страшно.

Аватара пользователя
wasyaka
V.I.P.

Нейро-синтез речи своими руками

#16

Сообщение wasyaka » 14 янв 2019 14:44

Lecron писал(а):
14 янв 2019 14:19
А Ивона тут причем?
И я здесь каким боком...
Ушёл прослушивать...
Чем смог поделился, но без фанатизма...
Появится новинка - ... Удачи!
PS
На личные вопросы - отвечу.

Аватара пользователя
newport
Интересующийся

Нейро-синтез речи своими руками

#17

Сообщение newport » 20 янв 2019 17:00

Lecron писал(а):
14 янв 2019 11:21
Примеров работы Loquendo Olga и других движков, в сети вагон и маленькая тележка.
Но для достоверности
Эмм.... ...
Я прослушал. А в чем собственно преимущество вашего, так сказать, решения?
Мне вообще знакомы классические tts, и чего-либо нового из вашего примера я не услышал, извиняюсь.

Аватара пользователя
Lecron
Обыватель

Нейро-синтез речи своими руками

#18

Сообщение Lecron » 20 янв 2019 17:19

newport, А ничего нового вы и не должны были услышать. Просто для сравнения, нужны более длительные фрагменты нейроTTS. Предложений, абзацев, диалогов. Сейчас, вы можете доказывать, что никаких ошибок в его фразовых интонациях вы не заметили. Может оно так и есть. Но я слышу совсем другое.
Поживем увидим. Тем более, что основной мой вопрос как раз и был, про когда пользователь не гик, сможет более плотно протестировать возможности.

Аватара пользователя
newport
Интересующийся

Нейро-синтез речи своими руками

#19

Сообщение newport » 20 янв 2019 19:49

Lecron писал(а):
20 янв 2019 17:19
Сейчас, вы можете доказывать, что никаких ошибок в его фразовых интонациях вы не заметили. Может оно так и есть. Но я слышу совсем другое.
Поживем увидим. Тем более, что основной мой вопрос как раз и был, про когда пользователь не гик, сможет более плотно протестировать возможности.
Lecron, чтобы что-либо тестировать, лучше все-же немного ознакомиться с опубликованными материалами по тестируемому предмету. Вы зайдите по ссылке, если есть желание, и почитайте внимательно хотя бы начало статьи. Протестируйте два слоя, т.к. в том примере разобран именно этот уровень - уровень слова.
То, что вы называете фразовыми интонациями, есть уровень предложений. А следующий уровень это уровень абзацев и их совокупностей. И чтобы говорить о них, желательно иметь хотя бы ограниченное представление о модели на уровне слов.
Набор тональных огибающих уровня предложений, если изображать графически, достаточно богат, а на уровне абзацев их еще больше. Поэтому все же прочтите и проделайте сначала эту, более простую настройку, чтобы вам было легче подступиться к настройке предложений.

Ответить

Вернуться в «Сведения, обсуждения»