Yandex TTS. Словари. Обсуждение

Аватара пользователя
alex
Постоялец

Yandex TTS

#1

Сообщение alex » 03 июл 2019 19:21

wasyaka писал(а):
05 янв 2019 20:00
Обработка текста
YandexTTS для Play.rar
(7.17 МБ) 219 скачиваний
Подскажите, как в blb2txt в файл конфигурации прекрутить словарь чтобы можно было ставить паузы и регулировать их после знаков припинания. Я пытался словарь от демагога вставить но яндекс их не понимает.
Я вставил словарь с таким содержимым-
*...*= <speak><break time="500ms"/><speak>
*,*= <speak><break time="200ms"/><speak>
*.*= <speak><break time="350ms"/><speak>
*?*= <speak><break time="350ms"/><speak>
*!*= <speak><break time="350ms"/><speak>
и получилось чтение больше меньше итд.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#2

Сообщение tonio_k » 03 июл 2019 20:19

alex писал(а):
03 июл 2019 19:21
Я пытался словарь от демагога вставить но яндекс их не понимает.
эти правила из словарей для голосового движка ivona Максим. Они и не должны подойти к Яндексу.
Эксперимента ради попробуйте:
*...*= / / /...
*,*= / / /,
*.*= / / /.
*?*= / / /?
*!*= / / /!

Аватара пользователя
balabolka
V.I.P.

Yandex TTS

#3

Сообщение balabolka » 03 июл 2019 22:47

alex писал(а):
03 июл 2019 19:21
Подскажите, как в blb2txt в файл конфигурации прекрутить словарь чтобы можно было ставить паузы и регулировать их после знаков припинания.
Два способа:
  1. Совет из документации Yandex SpeechKit: "Чтобы отметить паузу между словами, используйте -."
  2. Если для записи аудиофайлов используется "Балаболка" или ее консольная утилита balcon3.exe, можно использовать специальный тег (размер паузы должен быть указан в миллисекундах): "Тишина продлится две секунды. {{Pause=2000}} Затем чтение возобновится."

Аватара пользователя
alex
Постоялец

Yandex TTS

#4

Сообщение alex » 04 июл 2019 11:08

tonio_k писал(а):
03 июл 2019 20:19
Эксперимента ради попробуйте:
*...*= / / /...
*,*= / / /,
*.*= / / /.
*?*= / / /?
*!*= / / /!
Попробовал, обалдено получилось, длительность немного большая, но я думаю ес ли поэкспериментировать с / одним // двумя и тремя /// , пауза будет меняться.
А вот словари подвели , к примеру без словарей исходный текст:
"Купить дом и просто оплатить основные счета на один доход было непросто. "
после обработки:
"Купить дом и просто оплатить основные счёт+А на од+Ин доход было непросто / / /.
ударение поставил правильно , но вставил "ё". То есть словари зло? Надо погонять текст без словарей и с ними и посмотреть , что получится.
Спасибо за ваш ответ.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#5

Сообщение tonio_k » 04 июл 2019 11:53

alex писал(а):
04 июл 2019 11:08
но вставил "ё". То есть словари зло?
там где словарь поставил ударение правильно мы не замечаем. А как наткнулись на ложное срабатывание так хочется все удалить)) Попробуйте без словарей и посмотрите на результат :wink: ложное срабатывание явление не частое но пока неизбежное :pardon:
Однако я у себя ваш пример посмотрел, у меня нет неверной вставки ё. Надо смотреть ваши словари...

Аватара пользователя
alex
Постоялец

Yandex TTS

#6

Сообщение alex » 04 июл 2019 14:05

tonio_k писал(а):
04 июл 2019 11:53
Надо смотреть ваши словари...
да вроде все , тут брал.
Вложения
Screenshot_1.png
Screenshot_1.png (80.69 КБ) 918 просмотров

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#7

Сообщение tonio_k » 04 июл 2019 15:50

Попробуйте готовую сборку на базе Демагога
Скрипты работы с Yandex TTS от balaamster https://mytts.info/viewtopic.php?t=122&start=300#p2121

Скачать Демагог+Yandex TTS

Инструкция:
Вся работа в сборке только через скрипты!
Вызов меню скриптов Ctrl+F2
Или курсором мыши на панели инструментов "значок интеграла" => "Из файла Ctrl+F2")
Безымянный.jpg
Безымянный.jpg (24.5 КБ) 901 просмотр
1) Запускаем скрипт YaTTS-3) НАСТРОЙКИ ГОЛОСА
Нажимаем кнопку "Предыдущие настройки" - Меняем настройки как вы предпочитаете. "Сохранить настройки". Что бы посмотреть какие "текущие настройки" -всегда Нажимаем кнопку "Предыдущие настройки".
2) Открываем книгу в любом окне кроме 0-Статистика
3) Запускаем скрипт 10_ОКНО ОБРАБОТАТЬ СЛОВАРЯМИ. Книга с проставленными ударениями будет открыта в окне 0-Статистика и заодно сохранена в \Demagog-Yandex\temp\books и
4) Запускаем скрипт YaTTS-1) ЗАПИСАТЬ ФАЙЛ В MP3 - указываем путь куда сохранить аудио. Ждем результата...
Если выйдет сообщение об расхождении количества созданных и обработанных файлов (при этом откроется окно с временными файлами). То нужно запустить этот скрипт повторно. При этом, Книга должна быть открыта в текущем окне Демагога! Т.Е. скрипт применяется к ТЕКУЩЕМУ окну с открытым файлом. Всё привязано к имени открытого файла в текущем окне.
Если неоднократные попытки повтора не привели к успеху (какой-то файл принципиально не обрабатывается) - Найдите этот временный файл и попробуйте его разбить на 2 маленьких файла например 332.txt на 332_1.txt и 332_2.txt и повторно запустите скрипт.
5) скрипт 25_ПАКЕТНАЯ ОБРАБОТКА СЛОВАРЯМИ ВСЕХ КНИГ В ПАПКЕ - обработает все книги в указанной папке и сохранит в отдельные файлы. Останется только открыть каждый файл отдельно и переменить к каждому скрипт YaTTS-1) ЗАПИСАТЬ ФАЙЛ В MP3

Аватара пользователя
alex
Постоялец

Yandex TTS

#8

Сообщение alex » 04 июл 2019 16:00

tonio_k писал(а):
04 июл 2019 15:50
Попробуйте готовую сборку на базе Демагога
спасибо попробую.

Аватара пользователя
wasyaka
V.I.P.

Yandex TTS

#9

Сообщение wasyaka » 04 июл 2019 23:00

lplee писал(а):
04 июл 2019 12:59
Можете детальнее описать, что за обработку делаете?
1. Первичная обработка текста
(Demagog-Start через скрипт Ctrl+F2)
2. Homograph - растановка ударений омографов вручную
(Текст(обработанный) из окна статистики Demagog-Start скопировать и вставить в окно Homograph через ПКМ (правая кнопка мыши). подключить данный словарь в настройках (можно пропустить - но лучше обработать раз и сравнить).
3. Обработка словарями для Yandex
(Сохранённый после Homograph или из Demagog-Start в Balabolka Yandex Вначале Alt+F3
Поиск новых слов - Имена больше 2-х (необязательно, но...) - далее(Ctrl+T) сохранить в ANSI)
4. Запись в мп3 с помощью Play A
(Настройки заменить на свои. 30 запросов -это скорость инета 15мб, по кол-ву книг - ограничений не замечал...)
Результат
Удачи.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#10

Сообщение tonio_k » 05 июл 2019 12:32

tonio_k писал(а):
04 июл 2019 15:50
Попробуйте готовую сборку на базе Демагога
Скрипты работы с Yandex TTS от balaamster
alex писал(а):
04 июл 2019 16:00
спасибо попробую.
Допустил ошибку - один важный словарь игнорировался. Содержимое ссылки обновил.

Меня wasyaka на одну мысль навел, скрипт для окна должен работать по принципу одни раз запустил и больше ни на что не нажимаем. Поэтому в сборку добавил скрипт
11_ОКНО ОБРАБОТАТЬ СЛОВАРЯМИ+ЗАПИСАТЬ В MP3
Это два в один объединенных скрипта: 10_ОКНО ОБРАБОТАТЬ СЛОВАРЯМИ и YaTTS-1) ЗАПИСАТЬ ФАЙЛ В MP3. В случае сбоя загрузки аудио - алгоритм тот же.

Скачать Демагог+Yandex TTS

Аватара пользователя
alex
Постоялец

Yandex TTS

#11

Сообщение alex » 05 июл 2019 14:12

tonio_k писал(а):
05 июл 2019 12:32
Допустил ошибку - один важный словарь игнорировался.
Я вчера попробовал, результат: за 20 мин аудио всего 1 неправильно произнесённое слово
дорогОй - дОрогой, больше пока нет времени прослушать .Но и так понятно, результат супер!
Спасибо вам за вашу программу.

Аватара пользователя
lplee
Обыватель

Yandex TTS

#12

Сообщение lplee » 06 июл 2019 09:59

wasyaka писал(а):
04 июл 2019 23:00
1. Первичная обработка текста
Насчет подготовки текста, какие вообще используются словари/стоп-слова/скрипты? Есть ли где-то ветка по ним, или где вообще почитать? Спасибо.

Аватара пользователя
SZ-Vtk
Постоялец

Yandex TTS

#13

Сообщение SZ-Vtk » 09 июл 2019 08:50

Для русского языка существует много голосовых движков, ни один из которых сам по себе не говорит правильно. Нужны словари, и они частично решают проблему. Напомню, происходит это не из-за "плохого" русского языка или "плохих" движков, а исключительно из-за неадекватности русской орфографии: более 5500 пар слов звучащих по разному и означающих разное, но записываемых абсолютно одинаково. Ну, и отсутствие "ё". Бороться со способом русского письма мы не будем (бесполезно), а предложение такое (для движков, где ударение можно задать значком явно, например, Яндекс). Не пишем больше свои доморощенные обработчики словарей со своей относительно убогой базой (из-за ограничений времени обработки), а создаём интернет-сервис, куда можно закинуть книгу и получит в ответ "нормализованную" книгу с "ё" и обычными ударениями в омографах. (Перевести обычные ударения в знаки конкретного движка проблемы не представляет). Всё это по единым правилам с возможностью пополнения базы каждым, кто считает себя достаточно грамотным. Какие будут идеи?

Аватара пользователя
lplee
Обыватель

Yandex TTS

#14

Сообщение lplee » 09 июл 2019 13:01

SZ-Vtk писал(а):
09 июл 2019 08:50
Всё это по единым правилам с возможностью пополнения базы каждым, кто считает себя достаточно грамотным. Какие будут идеи?
Я вот лично еще даже не разобрался с имеющимися словарями, сколько их и где они все? )
А так да, идея хорошая. Много людей составляют (по-тихоньку) свои личные словари, помимо публичных подключаемых, если бы объединить все собранные пользовательские данные в единую базу, было бы замечательно для всех

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#15

Сообщение tonio_k » 09 июл 2019 13:47

lplee писал(а):
09 июл 2019 13:01
Много людей составляют (по-тихоньку) свои личные словари
народный словарь... Эх, Когда пришел на форум я был тоже освещён этой идеей... Но мои хрустальные мечты разбились о чугунную ж. реальности. Словари это не только простое перечисление вариантов, но и экстраполяция допущений - когда не перечисляются все варианты слов а вставляется * - условно любое слово, которое на выходе может выдать непредсказуемые но статистически более вероятные результаты замен.
Кроме того важна последовательность срабатывания как словарей между собой, так и самих правил внутри них...
И тут начинается несогласия по тем или иным пунктам между составителями словарей.
Условно составители словарей можно разделить на две группы:
1) Кто то добавляет, потом исправляет, потом добавляет другое правило - что бы подчистить ложные срабатывания предыдущего правила, затем следующие правила подчищающие за предыдущим но плодящие дополнительные ошибки.
2)Кто-то очень осторожен в плане добавление правил: вносит только гарантированно и однозначно работающие правила, а в остальном предпочитает перед озвучиванием искать омграфы "вручную" по всему тексту и исправлять в самом тексте.

Ну и кому отдать предпочтение? Кто будет консолидировать правила на для народного словаря? Это должен быть кто-то один.

Например Здесь у нас на форуме публично выставлялись словари для Максима под 3 программы Homograph Демагог и Балаболка. У них разная последовательность срабатывания, по-разному стоят правила внутри словарей. Если начать копать и пытаться консолидировать, становится понятно что тонкая и хрупкая система последовательности срабатывание правил в словарях под одну программу практически невозможно, из-за большого объема, перетащить в другую не сломав связь. В итоге правила либо вообще Не сработает - что скорее всего, либо даст неправильный результат. В результате огромный словарь превращается в огромное нагромождение, в котором Почти половина правил не работают.
Авторы таких сборок берут друг у друга интересные решения в исправлении ударений но вдумчиво и небольшими объемами, адаптируют под свои алгоритмы. При этом выбор алгоритма срабатывании словарей и программу которая их применяет оставляет за собой.

Это я ещё не рассмотрел специфику голосовых движков когда правила к одному движку как минимум - будут лишними для другого голосового движка, А как максимум могут всё сломать.

Вообще рассматривая существующую схему словарей становится понятно что основная ошибка всех составителей это то что словари копились на протяжении нескольких лет. Выбор движков был небольшой качество плохое опыта создания словарей не было.
Я могу расписать примерно как должны составляться словари чтобы они были условно универсальны для всех будущих голосовых движков. Но, скорее всего, придётся всё писать заново а на это нет ни времени ни желания.

Аватара пользователя
lplee
Обыватель

Yandex TTS

#16

Сообщение lplee » 09 июл 2019 14:10

tonio_k писал(а):
09 июл 2019 13:47
народный словарь... Эх, Когда пришел на форум я был тоже освещён этой идеей...
Спасибо, просветили :)
Пожалуй таки да, нужно остановиться на базовых словарях, и донастраивать каждую отдельную программу под каждый отдельный синтез

Аватара пользователя
SZ-Vtk
Постоялец

Yandex TTS

#17

Сообщение SZ-Vtk » 09 июл 2019 17:27

Тов. tonio_k пребывает в пессимизме совершенно не зря: в современной русской орфографии слово записанное есть ложь: оно в общем случае не определяет ни звучания, ни смысла - оно определяет два-три звучания и, соответственно два-три смысла (Округа-окрУга-округА). Почему это не меняется (до поры до времени)? Дело в том, что письмо рассчитано на людей, с их интеллектом и опытом, людей, которым по большому счёту всё это до лампочки (гордимся!), люди легко понимают, как читать "стоит" в предложении "эта чашка здесь стоит уже пять минут/долларов". Совсем не так дело даже с ИИ, тем более с простой программой.
Итак, мы обсуждаем словари (костыли). Тут стоит сделать следующие замечания.
1) подход, при котором процесс обработки текста по словарю и процесс воспроизведение речи разделены имеет свою специфику:
- в разумных пределах время обработки по словарям не имеет значения
- вследствие 1) можно использовать много однозначных выборов вместо универсального
2) если есть много подходов, никто не мешает выбрать лучший и следовать ему
3) наша задача восстановить речь безотносительно конкретного движка, так что нет никаких привязок
4) думаю, в конечном счёте этим займётся нейронная сеть (если, конечно, вдруг не появится нормальная орфография - у меня даже есть одна такая книга(!))

Аватара пользователя
good_cat
Администратор

Yandex TTS

#18

Сообщение good_cat » 09 июл 2019 18:03

SZ-Vtk писал(а):
09 июл 2019 17:27
у меня даже есть одна такая книга(!)
Самоучитель польского языка? :big_smile:
(В польском языке отсутствует проблема расстановки ударений.)
3) наша задача восстановить речь безотносительно конкретного движка, так что нет никаких привязок
Это не так, если мы говорим не только об омографах, т.к. часть словарей исправляет ошибки конкретного речевого движка.

Аватара пользователя
lplee
Обыватель

Yandex TTS

#19

Сообщение lplee » 09 июл 2019 20:00

wasyaka писал(а):
04 июл 2019 23:00
1. Первичная обработка текста
(Demagog-Start через скрипт Ctrl+F2)
2. Homograph - растановка ударений омографов вручную
(Текст(обработанный) из окна статистики Demagog-Start скопировать и вставить в окно Homograph через ПКМ (правая кнопка мыши). подключить данный словарь в настройках (можно пропустить - но лучше обработать раз и сравнить).
3. Обработка словарями для Yandex
(Сохранённый после Homograph или из Demagog-Start в Balabolka Yandex Вначале Alt+F3
Поиск новых слов - Имена больше 2-х (необязательно, но...) - далее(Ctrl+T) сохранить в ANSI)
4. Запись в мп3 с помощью Play A
(Настройки заменить на свои. 30 запросов -это скорость инета 15мб, по кол-ву книг - ограничений не замечал...)
Результат
Удачи.
На первом же пункте.. я устал.....((
Скачал ваш дистрибутив, моя ОС заблокировала запуск программы.
Скачал с офф. сайта, но что дальше не понятно.
Может ли кто объяснить пошагово порядок действий? С меня пиво за потраченное время :)
(вышлю на кошелек, телефон или карту)

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#20

Сообщение tonio_k » 12 июл 2019 19:11

Демагог+Yandex TTS - сборка от 2019-07-12 для подготовки книг и озвучивания Яндекс голосом на базе программы Демагог. (для работы с Яндекс голосом за основу взяты скрипты ув. balaamster здесь)

Инструкция:
1) Настройка Яндекс голоса
► Показать
2)Запуск скрипта.
► Показать
Так как я лично Яндекс голосом не пользуюсь, то обновления словарей не планируется. Если что то будет мимо меня пробегать - добавлю. Обновления будут касаться только скриптов и самой программы Демагог, если это будет необходимо.

Аватара пользователя
lplee
Обыватель

Yandex TTS

#21

Сообщение lplee » 12 июл 2019 20:01

tonio_k писал(а):
12 июл 2019 19:11
Демагог+Yandex TTS - сборка от 2019-07-12 для подготовки книг и озвучивания Яндекс голосом на базе программы Демагог. (для работы с Яндекс голосом за основу взяты скрипты ув. balaamster здесь)
Инструкция
Спасибо! Буду тестировать, обязательно отпишусь если что-то обнаружится или тп

Аватара пользователя
skreb
Прохожий

Скрипты для Demagog

#22

Сообщение skreb » 15 июл 2019 17:56

Респект tonio_k за сборку Demagog-Yandex_2019-07-12. Ошибок с ударениями очень мало, что радует.
Обращаюсь с просьбой. Как сделать, чтобы после обработки выводились изначальные имена обрабатываемых текстовых файлов, а не номер 0001.mp3, особенно в этих скриптах: 20_ПАКЕТНАЯ ОБРАБОТКА СЛОВАРЯМИ ВСЕХ КНИГ В ПАПКЕ и 25_ПАКЕТНАЯ ЗАПИСЬ В MP3 ВСЕХ КНИГ В ПАПКЕ (YandexTTS). Например, в таком виде: Имя файла.mp3, или с номером, а потом имя, если без номеров никак нельзя. Если это возможно, выложите такие измененные скрипты, пожалуйста. Сам решить не могу - нет опыта в этом.
Мне также было нужно, чтобы не записывалось в конце каждого файла "Конец произведения" (если, допустим, пакетно записываются несколько глав одной книги). Тут я смог разобраться, удалив соответствующую строку из скрипта.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#23

Сообщение tonio_k » 15 июл 2019 19:48

skreb писал(а):
15 июл 2019 17:56
Demagog-Yandex_2019-07-12. Ошибок с ударениями очень мало, что радует.
Обращаюсь с просьбой. Как сделать, чтобы после обработки выводились изначальные имена обрабатываемых текстовых файлов, а не номер 0001.mp3
"а не номер" - никак - иначе будет перезапись первого файла каждым новым последующим
skreb писал(а):
15 июл 2019 17:56
выводились изначальные имена обрабатываемых текстовых файлов, а не номер 0001.mp3, особенно в этих скриптах: 20_ПАКЕТНАЯ ОБРАБОТКА СЛОВАРЯМИ ВСЕХ КНИГ В ПАПКЕ и 25_ПАКЕТНАЯ ЗАПИСЬ В MP3 ВСЕХ КНИГ В ПАПКЕ (YandexTTS).
20_ПАКЕТНАЯ ОБРАБОТКА СЛОВАРЯМИ ВСЕХ КНИГ В ПАПКЕ в результате и так создается текстовый файл с тем же именем как открытая книга. Тут ничего не менял

25_ПАКЕТНАЯ ЗАПИСЬ В MP3 ВСЕХ КНИГ В ПАПКЕ (YandexTTS)- внес изменения:
будет Добавлять имя книги к наименованию каждого аудиофайла: Для этого, шапке скрипта найдите строчку:

Код: Выделить всё

local ins_namebook_file = false -- Добавлять имя книги к наименованию каждого аудиофайла? true = ДА; false = НЕТ
измените false на true

И просьба вопросы по самой сборке Demagog-Yandex задавать на этой ветке

Аватара пользователя
lplee
Обыватель

Yandex TTS

#24

Сообщение lplee » 15 июл 2019 22:52

tonio_k писал(а):
12 июл 2019 19:11
Демагог+Yandex TTS - сборка от 2019-07-12 для подготовки книг и озвучивания Яндекс голосом на базе программы Демагог
Уточните плз, у вас в папке dic несколько словарей с омографами, где ударения проставлены через регИстр, но для Яндекс ТТС корректная директива будет в виде рег+истр.
Вопрос - тогда для чего эти словари? Спасибо.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#25

Сообщение tonio_k » 15 июл 2019 23:14

lplee писал(а):
15 июл 2019 22:52
Вопрос - тогда для чего эти словари?
вот здесь сначала прочтите внимательно.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#26

Сообщение tonio_k » 15 июл 2019 23:42

tonio_k писал(а):
15 июл 2019 23:14
проставлены через регИстр, но для Яндекс ТТС корректная директива будет в виде рег+истр.
посмотрите словарь замен 62_Яндекс+резервируем омграфы.dic
В шапке ключевые замены верхнего регИстра на регстра

Аватара пользователя
lplee
Обыватель

Yandex TTS

#27

Сообщение lplee » 16 июл 2019 00:07

tonio_k писал(а):
15 июл 2019 23:42
посмотрите словарь замен 62_Яндекс+резервируем омграфы.dic
В шапке ключевые замены верхнего регИстра на рег+истра
# ОМОГРАФЫ ПО СТАРЫМ СЛОВАРЯМ (АЯОУЮЫИЭЕ)
$*А*=+А
$*Е*=+Е
$*И*=+И
$*О*=+О
$*У*=+У
$*Ы*=+Ы
$*Ю*=+Ю
$*Я*=+Я
$*Э*=+Э
*++*=+

Вы про это?

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#28

Сообщение tonio_k » 16 июл 2019 00:16

lplee писал(а):
16 июл 2019 00:07
Вы про это?
да.

Особенности работы пропил со звёздочками в Демагоге смотрите здесь: https://mytts.info/viewtopic.php?f=20&t=127 и ещё на сайте самой программы Демагог

Аватара пользователя
lplee
Обыватель

Yandex TTS

#29

Сообщение lplee » 16 июл 2019 00:25

tonio_k писал(а):
16 июл 2019 00:16
Особенности работы пропил со звёздочками в Демагоге смотрите здесь
Это обязательно, но можете 2мя словами сказать, происходит конвертация ударений с одного формата (Демагог/унифицированный) в формат Яндекса?

Аватара пользователя
lplee
Обыватель

Yandex TTS

#30

Сообщение lplee » 16 июл 2019 00:26

tonio_k писал(а):
16 июл 2019 00:16
Особенности работы пропил со звёздочками в Демагоге смотрите здесь
Если не сложно, можете дать ссылки, что вообще почитать в первую очередь, да и вторую тоже?

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#31

Сообщение tonio_k » 16 июл 2019 01:07

lplee писал(а):
16 июл 2019 00:25
но можете 2мя словами сказать, происходит конвертация ударений с одного формата (Демагог/унифицированный) в формат Яндекса?
согласно нумерации словарей каждый словарь замен через скрипт применяется к тексту по порядку.
Можно выделить текст, активировать первый по порядку словарь, нажать Ctrl+T вам покажет какие правила сработали и как изменился текст.
Таким образом, активируете один словарь за другим и нажимаете Ctrl+T - в конце будет видно какой текст получается и какие правила сработали, что бы он получился таким.
В сборке есть условно скрытые словари в папке dic2 я их поместил туда из за особенности работы Демагога со словарями:
https://mytts.info/viewtopic.php?f=20&t=16#p108 что бы не сломалась последовательность срабатывания всех словарей из за перемешивания.
Однако, для тестирования и вообще работы со словарями, думаю надо скрипт для их запуска вернуть. Я его убрал что бы сборка была максимально простой.
00_ПЕРВИЧНАЯ ОБРАБОТКА.lua.zip
(1.02 КБ) 6 скачиваний
- для текущего окна сработают словари из папки dic2.
Как только открыли книгу, запускаете этот скрипт и можно начинать работать со словарями.

Фактически, можно запустить сначала скрипт 00_ПЕРВИЧНАЯ ОБРАБОТКА, а затем нажать кнопку "измененный текст" - это кнопочка на панели "стрелочка" (рядом с знаком интеграл, через который к меню скриптов попадаем). И в окне статистики выйдет текст измененный словарями, на против которых вы поставили галочки. Результат будет точно такой же как после работы скрипта 10_ОКНО ОБРАБОТАТЬ СЛОВАРЯМИ. Вы можете обрабатывать словарями текст и таким образом, но будет разница по скорости почти в 3 раза медленнее.
Однако для маленьких отрезков текста, наоборот обрабатывать будет быстрее. Для экспериментов со словарями - самое то.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#32

Сообщение tonio_k » 16 июл 2019 01:18

Для наглядности, в рамках 2 слов о которых вы спрашивали:
Введите текст в окне Демагога:
Поднял рУки.

Правка - найти, заменить

Первое поле "найти" вводим:
$*И*
Второе поле "заменить" вводим:

Ставите галочку "правила DIC"

Нажимаете "заменить всё"

Вот по такому принципу и работает одна из строк словаря $*И*=+И

Аватара пользователя
lplee
Обыватель

Yandex TTS

#33

Сообщение lplee » 16 июл 2019 01:39

tonio_k писал(а):
16 июл 2019 01:07
согласно нумерации словарей каждый словарь замен через скрипт применяется к тексту по порядку.
tonio_k писал(а):
16 июл 2019 01:07
В сборке есть условно скрытые словари в папке dic2 я их поместил туда из за особенности работы Демагога
Я делаю все согласно вашей инструкции тут: https://mytts.info/viewtopic.php?t=59&start=250#p2480
Делаю все пакетом через скрипт "10_ОКНО ОБРАБОТАТЬ СЛОВАРЯМИ.lua".
Затем запускаю (сейчас тестирую) запись через скрипт "YaTTS-1) ЗАПИСАТЬ ФАЙЛ В MP3.lua".
Итого, всего 2 шага.
Тут надо заметить:
1. Почему-то у меня на отрабатывает скрипт "11_ОКНО ЗАПИСАТЬ В MP3 (YandexTTS).lua", пишет ошибку что-то там "не найден путь", и, кажется, ругается на символ "_" в имени папки. Еще не разобрался как следует.
2. Словари из папки "dic2", я перенес в общую папку "dic", прописал их в списке словарей.
Этого не нужно было делать? Порядок всех словарей не менял.

И такой вопрос, в настройках Яндекс ТТС можно ввести только АПИ-ключ, т.е. это старая версия движка (извиняюсь за не аккуратное определение), но как можно указать токен и id-разработчика для "новой версии"?

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#34

Сообщение tonio_k » 16 июл 2019 01:49

Переносить словари нельзя. Скрипты о ваших манипуляциях с местоположением словарей из папки в папку не знают. Они их ищут там, где прописано. Ругаться на пути могут и поэтому. Если проблемы с путями останутся, поменяйте местоположение Сборки на ПК - в другой каталог по выше к корневому диску и желательно без русских имён и пробелов названиях папок.
Скрины ошибок сделайте и в личку киньте

Вы сначала посмотрите, работают ли все скрипты в сборке без вмешательства с вашей стороны. Или скиньте архив с папками словарей и скриптами в личку - я посмотрю

Аватара пользователя
lplee
Обыватель

Yandex TTS

#35

Сообщение lplee » 16 июл 2019 14:18

tonio_k писал(а):
12 июл 2019 19:11
Если неоднократные попытки повтора не привели к успеху (какой-то файл принципиально не обрабатывается) - Найдите этот временный файл и попробуйте его разбить на 2 маленьких файла например 332.txt на 332_1.txt и 332_2.txt и повторно запустите скрипт.
Пытаюсь записать одну не большую книжечку, но записывает только 1235 файлов из 1241. Как посмотреть какие именно файлы не удается записать? (вручную муторно). Да, и как собственно их дописать отдельно от основной книги?

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#36

Сообщение tonio_k » 16 июл 2019 14:28

Вам нужно повторно сделать пункт 4)
https://mytts.info/viewtopic.php?t=59&start=200#p2384
Как посмотреть какие именно файлы не удается записать?
по идее должна открыться папка с текстовыми файлами. Без приставки done - значит к нему аудио не получено.

Аватара пользователя
lplee
Обыватель

Yandex TTS

#37

Сообщение lplee » 16 июл 2019 14:36

Подскажите плз, как победить аббревиатуры? Записываю в Демагоге, есть куча словарей. Сборки от
tonio_k писал(а):
и
wasyaka писал(а):
Например, С.П. - читает как-то еле разборчиво и слитно "сп". Хотя это конечно лучше, чем П.= поселок, по умолчанию :)
Очевидно, что отдельные заглавные буквы с точкой нужно читать, гм, отдельно. Наверное вроде такого: Эс. Пэ.
Можете подсказать, где это исправить в словарях, чтобы ничего не сломать? Спасибо.

Аватара пользователя
lplee
Обыватель

Yandex TTS

#38

Сообщение lplee » 16 июл 2019 14:38

tonio_k писал(а):
16 июл 2019 14:28
Вам нужно повторно сделать пункт 4)
tonio_k писал(а):
16 июл 2019 14:28
по идее должна открыться папка с текстовыми файлами. Без приставки done - значит к нему аудио не получено.
Файлы нашел, перенес их в отдельную папку, как теперь с ними работать отдельно? Это ведь как-бы временные файлы, а сама книга лежит в отдельном файле, программе нужно скармливать именно его, но как скормить ей не обработанные временные?

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#39

Сообщение tonio_k » 16 июл 2019 14:43

Не трогайте эти временные файлы. Эти файлы находятся в папке с наименованием книги. Продолжение записи происходит не из текущего окна А из временных файлов. То есть скрипт проверяет наличие папки с тем же названием как и у открытой книги, если такую папку находит, то начинает записывать не текущее окно, а продолжает запись на основании временных файлов из папки с таким же названием. В этом смысле, вы можете открыть совершенно другой текст но с тем же именем но продолжится запись по временным файлам, а не по содержимого окна.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#40

Сообщение tonio_k » 16 июл 2019 14:54

lplee писал(а):
16 июл 2019 14:36
Наверное вроде такого: Эс. Пэ.
добавте в словарь 72_Яндекс+абрив.dic строку:
С. П.=Эс. Пэ.
На первых порах туда свои правила и добавляйте. Но не потеряйте их, когда будете сборку поверх своей переписывать.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#41

Сообщение tonio_k » 16 июл 2019 15:16

tonio_k писал(а):
16 июл 2019 14:54
С. П.=Эс. Пэ.
Правильнее, наверное, будет так:
► Показать
Это на все возможные варианты.

Аватара пользователя
lplee
Обыватель

Yandex TTS

#42

Сообщение lplee » 16 июл 2019 15:27

tonio_k писал(а):
16 июл 2019 14:54
добавте в словарь 72_Яндекс+абрив.dic строку:
С. П.=Эс. Пэ.
Н
Создал новый словарь, под номером 73_***, каждую согласную букву озвучил "по стандарту": https://ru.wikipedia.org/wiki/%D0%A0%D1 ... 0%B8%D1%82.
Стало заметно лучше, хотя голос прыгает на разных буквах.

Аватара пользователя
lplee
Обыватель

Yandex TTS

#43

Сообщение lplee » 16 июл 2019 15:29

tonio_k писал(а):
16 июл 2019 14:43
трогайте эти временные файлы. Эти файлы находятся в папке с наименованием книги. Продолжение записи происходит не из текущего окна А из временных файлов......
Как-то излишне муторно, разве нельзя это сделать проще?

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#44

Сообщение tonio_k » 16 июл 2019 15:38

lplee писал(а):
16 июл 2019 15:27
хотя голос прыгает на разных буквах.
попробуете вместо точки на замену поставить - запятую
lplee писал(а):
16 июл 2019 15:29
сделать проще?
Проще? И так все сделано проще некуда. Открыл книгу записал. Вышла ошибка? повторить запуск скрипта. Все.

Отклоняясь от инструкции вы все только усложняете. Научитесь работать с тем что есть. А потом уже или сами вносите или Предлагайте свои изменения.

Попросили пакетно? Пожалуйста, но если ошибка, то либо вы эту книгу всю заново запускаете, либо по инструкции выше все делаете.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#45

Сообщение tonio_k » 16 июл 2019 15:42

И не путайте объяснение того, как это работает, с тем что надо сделать. Как надо сделать - есть инструкция. Вы же переносите файлы куда-то создаёте свои словари где-то а потом спрашивайте почему не работает. Начинаю объяснять Почему не надо так делать и как это устроено, вам кажется это муторно. Давайте здесь больше не будем это обсуждать. Если есть вопрос спрашивайте в личку.

Аватара пользователя
lplee
Обыватель

Yandex TTS

#46

Сообщение lplee » 16 июл 2019 15:55

Так и не получается записать эти несколько файлов, причем совершенно не понятно почему.
Разбил один файл на 2, первый кусок записался, второй упорно не хочет, причем там всего пара строк, ума не приложу. Наверное проще самому через микрофон записать эти оставшиеся фрагменты :big_smile:

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#47

Сообщение tonio_k » 16 июл 2019 16:01

lplee писал(а):
16 июл 2019 15:55
второй упорно не хочет, причем там всего пара строк, ума не приложу.
скиньте этот файл

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#48

Сообщение tonio_k » 16 июл 2019 16:03

Попробуйте разбить не в привязке к абзацу, а просто пополам разделив текст разорвав предложение на каком - то пробеле

Аватара пользователя
lplee
Обыватель

Yandex TTS

#49

Сообщение lplee » 16 июл 2019 16:53

tonio_k писал(а):
16 июл 2019 16:03
Попробуйте разбить не в привязке к абзацу, а просто пополам разделив текст разорвав предложение на каком - то пробеле
Кажется нашел в чем дело, в этих фрагментах текста есть символ "&". Во фрагментах которые обработались нормально его нет.

Аватара пользователя
wasyaka
V.I.P.

Yandex TTS

#50

Сообщение wasyaka » 16 июл 2019 16:59

lplee писал(а):
16 июл 2019 14:36
Например, С.П. - читает как-то еле разборчиво и слитно "сп". Хотя это конечно лучше, чем П.= поселок, по умолчанию :)
Очевидно, что отдельные заглавные буквы с точкой нужно читать, гм, отдельно. Наверное вроде такого: Эс. Пэ.
Можете подсказать, где это исправить в словарях, чтобы ничего не сломать? Спасибо.
Любую абривиатуру,
пример:
МПВГ=эмпэвэг+э
ССКРАУД=эсэскаэрауд+э
Всё в нижнем регистре и ударение на последнию гласную.

Отредактировано. good_cat.

Ответить

Вернуться в «Онлайн-сервисы для синтеза речи»