Yandex TTS

Ответить
Аватара пользователя
speech
Обыватель

Yandex TTS

#401

Сообщение speech »

speeck писал(а):
02 июл 2020 11:53
Честно, не знал, притом, что на всех обычных голосах интонация таки меняется, не только для jane или omazh.
Меняются сами голоса с переключением эмоции, просто вы не замечаете, видимо. Происходит подстановка другим голосом, близким по тембру, только и всего, причем с теми же голосовыми "припадками" в предложениях.

Аватара пользователя
Sylvia
Постоялец

Yandex TTS

#402

Сообщение Sylvia »

Да уж, эта смена интонации (точнее перескок на другие голоса) порядком напрягает. Пока что нашла для себя только 2 голоса, которые не меняют пол и тембр - Самохвалов и Вальц. Точнее, подсказали добрые люди. Еще, кажется, Ермил и Захар более-менее постоянны, но они мне не нравятся своим тембром.

speeck
Обыватель

Yandex TTS

#403

Сообщение speeck »

speech писал(а):
02 июл 2020 19:02
Меняются сами голоса с переключением эмоции, просто вы не замечаете, видимо
Ну лично я всегда пишу книги на нейтральной интонации.

speeck
Обыватель

Yandex TTS

#404

Сообщение speeck »

Sylvia писал(а):
02 июл 2020 19:52
Пока что нашла для себя только 2 голоса, которые не меняют пол и тембр - Самохвалов и Вальц
Могу добавить еще Оксану, почти идеально, и слушать приятно.
Чередую её с Самохваловым, он действительно почти стабилен. Правда на последней книге, которая ничем особо не выделяется, Самохвалов часто трансформировался. Но это скорее исключение.

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#405

Сообщение Эхо »

Онлайн и офлайн синтез Алёной

https://drive.google.com/file/d/1qdmknA ... sp=sharing
https://drive.google.com/file/d/10mjm91 ... sp=sharing

Надеюсь Яндекс перестанет муйнеё маяться с попыткой монетизации синтеза речи, и хотя бы в свой браузер вставит бесплатный набор своих голосов.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#406

Сообщение tonio_k »

Эхо писал(а):
07 июл 2020 14:04
офлайн синтез Алёной
в смысле озвучивание вообще без интернета? Голосовой движок Алены локальный?

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#407

Сообщение Эхо »

tonio_k писал(а):
07 июл 2020 15:26
Голосовой движок Алены локальный?
Да, именно так. Технология превращения премиум голосов в офлайн синтез ничем не отличается от описанной ранее в этой ветке. В парадигме глубокого обучения нейросетей, ключевым залогом успеха является датасет. Яндекс его не может не дать собрать, поэтому попытки заработать на "неспешном" нейросинтезе бесперспективны. Ниша остается только для решений заточенных под колцентры, где из железок выжимают всё, что можно и нельзя.

В начале 90-ых от вычислительной бедности был придуман синтез речи на микроволнах, который умещался в 64кб памяти и работал в реалтайме на процессоре интел 8086 с частотой около 1 мегагерца. Он был чуть хуже, чем известная многим "говорящая мышь" и последовавший за ней голосовой движок DIGALO, т.к. был прородителем их. Сейчас тенденция развития TTS идет в том же направлении, когда синтез речи уровня премиум голосов пытаются получить на вычислительных мощностях уровня микроконтроллеров (или SoC) и заработать на этом т.к. зарабатывать на пользователях, которым в 99% случаев нужен однопоточный "неспешный" синтез, и у них есть видеокарта, бесперспективно.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#408

Сообщение tonio_k »

И где можно прощупать офлайн версию Алёны?

speeck
Обыватель

Yandex TTS

#409

Сообщение speeck »

tonio_k писал(а):
08 июл 2020 19:51
И где можно прощупать офлайн версию Алёны?
Нигде нельзя, товарищ Эхо фантазирует.

speeck
Обыватель

Yandex TTS

#410

Сообщение speeck »

Эхо писал(а):
08 июл 2020 19:38
Да, именно так. Технология превращения премиум голосов в офлайн синтез ничем не отличается от описанной ранее в этой ветке. В парадигме глубокого обучения нейросетей, ключевым залогом успеха является датасет. Яндекс его не может не дать собрать, поэтому попытки заработать на "неспешном" нейросинтезе бесперспективны.
Без обид пожалуйста, но не нужно писать сказки.
1. У вас есть алгоритм синтеза от Яндекса? Конкретный код, модель?
2. Как вы планируете собрать дата-сеты? Они что, лежат в открытом доступе?
Если вы имеете в виду синтезировать все леммы, и собрать на них дата-сеты, во-первых, вы уверены, что из этого получится рабочий голос? Во-вторых, вы уверены, что вообще сможете собрать все леммы? На это понадобятся не малые средства, в первую очередь временные, это нельзя назвать бесплатным занятием.
И тд тд.
Вы не первый раз пишете какие-то теоретические абстракции, но дайте же наконец осязаемое подтверждение оным? Покажите рабочий оффлайн синтез уровня любого голоса Яндекса, а?

Аватара пользователя
speech
Обыватель

Yandex TTS

#411

Сообщение speech »

speeck писал(а):
09 июл 2020 10:41
Без обид пожалуйста, но не нужно писать сказки.
1. У вас есть алгоритм синтеза от Яндекса? Конкретный код, модель?
2. Как вы планируете собрать дата-сеты? Они что, лежат в открытом доступе?
Если вы имеете в виду синтезировать все леммы, и собрать на них дата-сеты, во-первых, вы уверены, что из этого получится рабочий голос? Во-вторых, вы уверены, что вообще сможете собрать все леммы? На это понадобятся не малые средства, в первую очередь временные, это нельзя назвать бесплатным занятием.
так или иначе, в большинстве своём по объёму написанного текста люди пишут абстракции и фантазии, как я, например, или Вы...
здесь где-то был небольшой отчет по результатом тестирования датасета в домашних условиях, так что не торопитесь с выводами

speeck
Обыватель

Yandex TTS

#412

Сообщение speeck »

speech писал(а):
14 июл 2020 12:57
здесь где-то был небольшой отчет по результатом тестирования датасета в домашних условиях
Одна коротусенькая фраза? Ну-ну....
Давайте таки дождемся ответа Эхо, если он действительно располагает чем-то осязаемым и бесплатным, и покажет это, с превеликим удовольствием признаю, что поторопился с выводами, был не прав, и отправлю даже пару бакшиша на вкусное пиво :drinking:

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#413

Сообщение Эхо »

speeck писал(а):
14 июл 2020 13:22
если он действительно располагает чем-то осязаемым и бесплатным,
Онлайн и офлайн синтез Алёной :)

Сейчас тренирую Филиппа, потом примусь за голоса ЦРТ. Офлайн синтез сделан на реализации Кубоянга (корейца), которую он разместил на гитхабе, повторив в коде мат. модель описанную в одной японской статье. Такого добра на Гитхабе полно с разными подходами к синтезу, одна из реализаций от Мозилы - бери и делай офлайн синтез - не хочу.

это офлайн синтез на нейросетях:

Филипп

человек

Алена

Аватара пользователя
Sylvia
Постоялец

Yandex TTS

#414

Сообщение Sylvia »

Эхо, А можно каким-то образом с помощью Филиппа записать в мр3 книгу? Через Балаболку или Демагог, или через другую программу?

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#415

Сообщение Эхо »

Sylvia писал(а):
18 июл 2020 08:34
А можно каким-то образом с помощью Филиппа записать в мр3 книгу?
уже слушаю, но как тестирование.
Синтез идет на коде, который требует установки моря зависимостей

видел на гитхабе код, студента из Белоруссии, он уже сделал синтез в виде бэк-энда для сервера Джанго

в сети видел укроязычный отчет о такой-же работе, но без кода на гитхабе
и такой же отчет из Чечни, там реализовали синтез на их языке

speeck
Обыватель

Yandex TTS

#416

Сообщение speeck »

Эхо писал(а):
18 июл 2020 08:20
Онлайн и офлайн синтез Алёной :)

Сейчас тренирую Филиппа, потом примусь за голоса ЦРТ
То есть, вы взяли движок корейца, и на дата сетах Алены/Филиппа делаете синтез?

speeck
Обыватель

Yandex TTS

#417

Сообщение speeck »

Эхо писал(а):
18 июл 2020 08:49
Синтез идет на коде, который требует установки моря зависимостей
Интересно узнать немного деталей, поделитесь?

speeck
Обыватель

Yandex TTS

#418

Сообщение speeck »

Эхо писал(а):
18 июл 2020 08:20
Сейчас тренирую Филиппа
Между Аленой и Филиппом есть разница произношения в ваших примерах, вы вручную подгоняете произношение под каждого?
Да, и как вы собрали дата сеты? Не обязательно раскрывать детали, достаточно в общих чертах.

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#419

Сообщение Эхо »

GwentDaily писал(а):
21 июл 2020 16:47
Какой вокодер используете ? WaveRNN ?
нет, там у японцев спец. отдельная свёрточная нейронка, которая разряженный мел спектр превращает в амплитудный, а дальше однопоточный гриф-лим

суть их работы была избавиться от lstm

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#420

Сообщение Эхо »

speeck писал(а):
22 июл 2020 13:26
То есть, вы взяли движок корейца, и на дата сетах Алены/Филиппа делаете синтез?
да, на хабре была статья сотрудника црт, как он это сделал. Кореец выложил примеры, из которых следовало, что даже Такатрон 2 дает меньшую мос оценку, чем dctts, поэтому в црт решили на тот момент ковырять dctts. Сейчас у них уже другая архитектура в фаворе (есть видос на ютюбе о ней)

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#421

Сообщение Эхо »

speeck писал(а):
22 июл 2020 13:26
Интересно узнать немного деталей, поделитесь?
всё по шагам из статьи на хабре https://habr.com/ru/company/speechpro/blog/358816/ и рекомендаций корейца на гитхабе + установка драйверов к видяхе с кудойднн

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#422

Сообщение Эхо »

speeck писал(а):
22 июл 2020 13:28
Между Аленой и Филиппом есть разница произношения в ваших примерах, вы вручную подгоняете произношение под каждого?
Да, и как вы собрали дата сеты? Не обязательно раскрывать детали, достаточно в общих чертах.
Пока Филипп лучше Алены, но из-за того, что у Филиппа был больший датасет

эта реализация нейросинтеза не предполагает что им можно управлять кроме нормализации текста, поэтому в ней невозможно указать где ставить ударение и какие фонемы использовать

это энд_Ту_энд решение, где нейросеть учится буквам ставить в соответствие сразу волну (аудиосигнал) У Яндекса сначала идет преобразование букв в фонемы с расстановкой ударений и на этой смеси они учат нейросеть (если их синтез сделан как нейросинтез, а не смесь юнитселекшена с нейросетями)

датасеты собираются скриптами на питоне, как закончу сбор могу отдать в общее пользование. Ими действительно можно синтезировать речь премиум голосами прямо с сайтов. Но боюсь лавочку быстро прикроют, если возрастет нагрузка, так например у ЦРТ демо синтез и без того сам часто падает.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#423

Сообщение tonio_k »

Эхо писал(а):
24 июл 2020 09:52
поэтому в ней невозможно указать где ставить ударение и какие фонемы использовать
означает ли это, что пользовательские словари тут не будут работать?
Имеется в виду, как сейчас в Яндексе реализовано: можно принудительно в самом тексте, (который затем передаётся голосовому движку) указать ударение в слове за счёт вставки знака "+" перед буквой, на которое должно быть ударение.

Аватара пользователя
GIS88
Интересующийся

Yandex TTS

#424

Сообщение GIS88 »

Эхо, а какая у вас скорость синтеза речи, реалтайм или можно её делать с ускорением? Какую видеокарту вы используете? Нужна именно от Nvidia с поддержкой CUDA или можно как-нибудь это сделать на Radeon?

speeck
Обыватель

Yandex TTS

#425

Сообщение speeck »

Эхо писал(а):
24 июл 2020 09:52
Пока Филипп лучше Алены, но из-за того, что у Филиппа был больший датасет

эта реализация нейросинтеза не предполагает что им можно управлять кроме нормализации текста, поэтому в ней невозмож
Эхо писал(а):
24 июл 2020 09:52
Пока Филипп лучше Алены, но из-за того, что у Филиппа был больший датасет
Скажите, как сейчас работает ваша система на больших текстах? Насколько я понимаю, там много косяков произношения, которые сразу не исправить, и вы их подпиливаете вручную?
Можете озвучить пример большего текста? Например этот рассказ: http://lib.ru/ILFPETROV/ilf_pohod.txt.

Аватара пользователя
Nxtpr
Интересующийся

Yandex TTS

#426

Сообщение Nxtpr »

Когда что-нибудь делают взамен покупного, есть большая вероятность что "все посчитали до вас" и никакого выйгрыша не получится. Стоимость аудиокнижки, даже только по электроэнергии и вероятности компа сдохнуть при загрузке сутками на 100%, может оказаться дороже премиум-тарифов Яндекса.

speeck
Обыватель

Yandex TTS

#427

Сообщение speeck »

GwentDaily писал(а):
30 июл 2020 00:26
Пока бесплатные голоса не прикрыли можно не париться. anton_samokhvalov лучше озвучивает чем реализация от эхо. И занимает это 5-10 минут
Но все же бесплатная реализация от тов. Эхо это круче пока-бесплатного сервиса от Яндекса, это надо признать. Вопрос к качеству.
Еще особо интересно то, что модель синтеза которую использует Эхо, от некоторого корейца, можно связать с любым независимо собранным дата-сетом, и писать книги практически любым голосом, если я правильно понял. Это очень круто, но вопрос к качеству не закрыт :dont_know:

Аватара пользователя
konsys
Прохожий

Yandex TTS

#428

Сообщение konsys »

Если есть у кого готовый для сборки конструктор для Deep Voice
скиньте плиз (желательно с инструкцией по установке)

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#429

Сообщение Эхо »

tonio_k писал(а):
24 июл 2020 13:08
означает ли это, что пользовательские словари тут не будут работать?
Для меня пока принципиально важно не то, правильно ли прочитан текст, а то насколько естественен синтезируемый голос. Таня и другие движки на юнитселекшен практически не делали ошибок, их речь была разборчива, но звучали не естественно.

Если у вас получается естественным синтезируемый голос всё остальное добавить становится задачей на порядок более легкой (но это моя личная оценка)

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#430

Сообщение Эхо »

GIS88 писал(а):
24 июл 2020 13:34
какая у вас скорость синтеза речи, реалтайм или можно её делать с ускорением? Какую видеокарту вы используете? Нужна именно от Nvidia с поддержкой CUDA или можно как-нибудь это сделать на Radeon?
Код корейца реалтайма не дает, он исследовательский. Например, там 90% времени занимает однопоточный гриф-лим, хотя быстрых реализаций его уже есть несколько вариантов.

У меня nVidia GeForce 2060 SUPER, но это не принципиально, я учил сетки и на Google-Colab, пока датасеты были маленькие

Пока вроде как Radeon для обучения сетей не подходит, т.к. не имеет поддержки от создателей фреймверков для машинного обучения. Во всех рейтингах полезности видеокарт для машинного обучения только продукты nVidia Вот переводная статья (урезанная), в первоисточнике уже рассмотрен 2019г https://neurohive.io/ru/osnovy-data-sci ... processor/

Свою карту выбирал исходя из этого графика первоисточника

https://i1.wp.com/timdettmers.com/wp-co ... ar_RTX.png

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#431

Сообщение Эхо »

speeck писал(а):
29 июл 2020 10:07
Скажите, как сейчас работает ваша система на больших текстах? Насколько я понимаю, там много косяков произношения, которые сразу не исправить, и вы их подпиливаете вручную?
Можете озвучить пример большего текста? Например этот рассказ:
Размер текста не играет большого значения, т.к. более важна представительность текста. Т.е. в тексте должны присутствовать все (или почти все) "языковые явления". Лингвисты, которые делали русские TTS ("испокон веков") используют 2-3 подобных текста для быстрой оценки качества получившейся TTS. Их же используют и для обучения нейросетей, но тогда для тестирования используют те тексты, на которых не учили.

Вот офлайн синтез, созданный на основе датасета "Филипп". В датасете нет этого текста, и нейросеть его видит впервые. Это очень важно, чтобы оценить реальные результаты, а не "подкрученные"
ФОНЕТИЧЕСКИ ПРЕДСТАВИТЕЛЬНЫЙ ТЕКСТ ДЛЯ ФУНДАМЕНТАЛЬНЫХ И ПРИКЛАДНЫХ ИССЛЕДОВАНИЙ РУССКОЙ РЕЧИ
https://drive.google.com/file/d/1XS6mBQ ... 8DkaY/view

взят отсюда https://pribor.ifmo.ru/file/article/6134.pdf

в ручную ничего не подпиливается, т.к. это подход эндТОенд т.е на входе нейросети текст, на выходе звуковая волна. Можно заранее подготовить датасет, чтобы ввести слой предварительной обработки неизвестно текста в процессе синтеза, и тогда появится возможность влиять на синтез уже после обучения. Грубо говоря в обучающем датасете звуковой волне ставить в соответствие не текст, а текст преобразованный в фонемы с расставленными ударениями. Обученная на потоке фонем с ударениями, а не букв, нейросеть уже станет управляемой по фонемному составу, и по расстановке ударений.

Тоже самое и с интонацией чтения. Если в датасете интонация как-то закодирована, то при синтезе ей можно управлять.

О http://lib.ru/ILFPETROV/ilf_pohod.txt

Если вам интересно, что сегодня может нейросетевой подход https://veravoice.ai/ у них есть даже приложения для смартфонов. Инвестор проекта Бекмамбетов второе видео тоже впечатляет
► Показать
То, что сделано на коленке одним человеком пока не может сравниться с тем, что делают за деньги коллективы компаний, но приблизиться к ним, нам никто не мешает.

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#432

Сообщение Эхо »

Nxtpr писал(а):
29 июл 2020 23:37
Стоимость аудиокнижки, даже только по электроэнергии и вероятности компа сдохнуть при загрузке сутками на 100%, может оказаться дороже премиум-тарифов Яндекса.
Офлайн синтез решает вопрос демонополиизации, чтобы нейросинтез для частного лица вообще ничего не стоит у Яндекса, Гугла, ЦРТ и прочих. Пока оф. они хотят денежку, а в конкуренции с офлайнсинтезом уже будут искать баланс.

на 4-ех минутный текст уходит примерно 10-12 минут работы кода кубоянга "A TensorFlow Implementation of DC-TTS"

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#433

Сообщение Эхо »

speeck писал(а):
30 июл 2020 22:50
модель синтеза которую использует Эхо, от некоторого корейца, можно связать с любым независимо собранным дата-сетом, и писать книги практически любым голосом, если я правильно понял.
В идеале, да. Другое дело, что обучение нейросетей это по сути программирование путем создания датасета. И это может быть на порядок(и) сложнее, чем написание кода, который реализует нейросеть в обучении и синтезе.

В США созданием датасетов для синтеза и распознавания речи "испокон веков" занималось "Управление перспективных исследовательских проектов Министерства обороны США" - DARPA. Это сильно ускоряло прогресс еще до второй волны нейросетей. Даже сегодня этими датасетами пользуются в обучающих целях, например: TIMIT. На ютюбе есть 2+2 лекции+семинары (этого и того года) от Deep Learning School это ФПМИ МФТИ. Тем, кому интересно советую посмотреть, а кто хоть немного в теме, может даже попрактиковаться в синтезе, распознавании и обработке речи прямо из браузера, загрузив их бокноты с кодом на колабе. Лекции читают те, кто сегодня ВКонтаке пилят распознавание и синтез речи (с их слов)
► Показать
Если есть большие датасеты по структуре как TIMIT, то можно обучить сеть не только распознавать пол, но и возраст, место, где вы жили, когда овладевали навыками речи. Справедливо и то, что можно делать "трансфер", т.е. обучить нейросеть передавать эти особенности речи любым синтезированным/живым_человеческим голосам.

Ответить

Вернуться в «Онлайн-сервисы для синтеза речи»