Это пример решения по обучению нейросети синтезу речи по вводимым текстовым отрывкам, которое можно опробовать самостоятельно, использую домашний или офисный сервер.
Шаг 1
- Установить Torch
Torch - это Open-Source научная вычислительная среда с широкой поддержкой алгоритмов машинного обучения.
http://torch.ch/В основе Torch лежат популярные нейронные сети и библиотеки оптимизации, которые просты в использовании и обладают максимальной гибкостью при реализации сложных топологий нейронных сетей. Вы можете создавать произвольные графы нейронных сетей и эффективно распараллеливать их на процессорах и графических процессорах.
Шаг 2
- Установить Torch-rnn
Это модуль для Torch, который предоставляет высокопроизводительные, многократно используемые модули RNN и LSTM, и использует эти модули для моделирования на уровне символов, аналогичного char-rnn.
https://github.com/jcjohnson/torch-rnn/
Шаг 3
- поскольку первые два шага позволят нам вводить в нейросеть и обрабатывать текстовые данные (символы и их блоки), то для достижения нашей цели (обработка звуковых отрывков) нам требуется инструмент, который позволит переводить звуковые row-файлы в текстовые.
Такой инструмент был создан малоизвестным зарубежным программистом, написавшим небольшую утилиту, конвертирующую звуковой файл в текст.
Скачиваем её с его страницы:
http://robbi-985.homeip.net/blog/?p=1845
и читаем описание.
Читаем две его страницы с примерами:
http://robbi-985.homeip.net/blog/?p=1760
http://robbi-985.homeip.net/blog/?p=1819
Смотрим два видео с примерами работы:
http://www.youtube.com/watch?v=FsVSZpoUdSU&fmt=22
http://www.youtube.com/watch?v=NG-LATBZNBs&fmt=22
Системные требования:
Torch и его модули устанавливаются в Linux-систему;
Сама утилита-конвертер: написана и работает под Windows.
Чем мощнее сервер, тем быстрее идет обработка вводимых отрезков. (Второе видео является результатом более 300 часов обучения голосом на сервере автора. Использовались 8-битные оцифровки голоса).