{Yandex TTS} Всё включено. Готовые сборки для записи книг.

Модераторы: good_cat, wasyaka

Ответить
Аватара пользователя
wasyaka
V.I.P.

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#1

Сообщение wasyaka »

С использованием ПО Demagog и скриптов от ув. tonio_k и balaamster

Обновление от 2 марта 2020г.

Demagog-Yandex. Гугл диск
Demagog-Yandex. Яндекс диск

Три вида обработки (Выполнить скрипт из файла Ctrl+F2 - файл должен быть в тхт) :
1. Первичная до словарей Яндекса (последущая доработка вручную с растановкой омографов и(или) возможностью продолжения на другом голосовом движке). Скрипты 1 и 2

2. Обработка (продолжение пункта 1) только словарями Яндекс и запись в мп3. Скрипты 3 и 4.

3. Полная обработка всеми словарями и запись в мп3. Скрипты 5 и 6.

По умолчанию обработка начинается в D:\AUDIOBOOX\START.
Пункт 2 в D:\AUDIOBOOX\\START\STARTАУДИО.
Голос: ermil
количество потоков: 30
длительность аудио: 20 минут.

Свои настройки Яндекса в скрипте YaTTS - НАСТРОЙКИ ЯНДЕКС ГОЛОСА И РАЗМЕР MP3
Также перенастройте Демагог по своему усмотрению.
Я использую для старта и ковертации в тхт (антонация, примечания, форматирование и т.д) Балаболку с одним словарём
0.0_апостроф.rar
(188 байт) 167 скачиваний

speeck
Обыватель

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#2

Сообщение speeck »

Спасибо за вашу сборку, большие словари и омографы, большой труд было собрать все, но есть некоторые моменты.
В словарях иногда дублируются одни и те же замены.
Потом, в нескольких словарях есть странное правило - менять нормально-звучащие в Яндексе слова на слова с ЪЪ, например:
характеристик*=характЪЪер+истик
вышибать=вЪЪышиб+ать (словарь 2.2_Яндекс+ошибки.dic и др).
Вероятно это нужно было прежде, но сейчас получается наоборот, мы меняем нормальное произношение на какое-то странное.
wasyaka писал(а):
07 фев 2020 22:28
для старта и ковертации в тхт (антонация, примечания, форматирование и т.д) Балаболку с одним словарём
Есть удобная консольная утилитка от Балаболки, называется Blb2txt, скачать можно тут:
http://www.cross-plus-a.ru/btext.html

Аватара пользователя
wasyaka
V.I.P.

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#3

Сообщение wasyaka »

speeck писал(а):
17 фев 2020 20:02
в нескольких словарях есть странное правило - менять нормально-звучащие в Яндексе слова на слова с ЪЪ, например:
характеристик*=характЪЪер+истик
В словаре 2.7_Яндекс+слова есть правило характер*=хар+актер,
соответственно слово характеристик* как и некоторые другие, обработанное им будет с неправильным ударением хар+актеристик*.
ЪЪ не даёт ложное срабатывание и в конце удаляется 2.8_Яндекс+реги.rex
(\w+)?ЪЪ(\w+)?=$1$2
Blb2txt - хороша, но мне удобней Сервис>>Извлечь текст из файла...
У меня посложней алгоритм
11.png
11.png (76.33 КБ) 12818 просмотров

speeck
Обыватель

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#4

Сообщение speeck »

wasyaka писал(а):
17 фев 2020 21:13
ЪЪ не даёт ложное срабатывание и в конце удаляется 2.8_Яндекс+реги.rex
Ясно, спасибо! Похоже у меня этого не происходит, т.к. почти во всех книгах, что я записывал есть ЪЪ. Еще часто это слова оканчивающиеся на "*цией" (цивилизацией), они как-то совсем странно звучат (вроде такого "цивилизатсыей")

Аватара пользователя
AndOSjZ
Постоялец

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#5

Сообщение AndOSjZ »

Характер и производные слова Яндекс читает правильно,я их из словарей у себя убрал,а добавил характернейш*=характ+ернейш

Аватара пользователя
AndOSjZ
Постоялец

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#6

Сообщение AndOSjZ »

Да и ещё удалите из 2.5_Яндекс+ОМОавто эти слова $измениться=изм+ениться
$хватить=хв+атить
$катиться=к+атиться
$кружиться=круж+иться
$признаешь=признаёшь

Аватара пользователя
AndOSjZ
Постоялец

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#7

Сообщение AndOSjZ »

speeck писал(а):
17 фев 2020 21:45
Похоже у меня этого не происходит, т.к. почти во всех книгах, что я записывал есть ЪЪ
вы наверно про предыдущие сборки говорите

Аватара пользователя
wasyaka
V.I.P.

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#8

Сообщение wasyaka »

СБОРКА ОБНОВЛЕНА.
Исправлены ошибки, дополнены словари.
Ссылки в шапке.

Аватара пользователя
AndOSjZ
Постоялец

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#9

Сообщение AndOSjZ »

wasyaka, не поделитесь своим словарём для Homograph?

Аватара пользователя
wasyaka
V.I.P.

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#10

Сообщение wasyaka »

AndOSjZ писал(а):
02 мар 2020 16:58
не поделитесь своим словарём для Homograph?
omograph.rar
(2.81 КБ) 142 скачивания
Словарь с одним омографом из двух:
адреса=Адреса
аду=Аду

соответственно два из трёх.
лета=лёта,летА
округа=Округа,округА

меняем если нужно (замОк) - нет - (замок=зАмок) далее (F3) -словарь 2.5_Яндекс+ОМОавто сам поменяет замок на з+амок и т.д.
2020-03-02_200342.png
2020-03-02_200342.png (8.19 КБ) 12661 просмотр
все на всё лучше отдельным проходом (конфликт из за ё)

Аватара пользователя
AndOSjZ
Постоялец

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#11

Сообщение AndOSjZ »

В словаре 1.5.3_VSE-VSYO.rex правило ([\S]+(ать|ерни|льно|сить)\b[^\.,!?-]{0,5})\s(\bвс)е\b\s([^\.,!?-]{0,5}(и|мокрым|назад|поймут|это|я)\b)=$1 $3<:yo:> $5 ложное срабатывание:
"станут рассказывать все три народа" получается "станут рассказывать всЁ и народа"

Аватара пользователя
wasyaka
V.I.P.

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#12

Сообщение wasyaka »

AndOSjZ писал(а):
03 мар 2020 10:18
ложное срабатывание
Спасибо.
$5 замените на $4
или
1.5.3_VSE-VSYO.rar
(45.14 КБ) 126 скачиваний
Там ещё ошибку выловил.

Аватара пользователя
tonio_k
V.I.P.

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#13

Сообщение tonio_k »

AndOSjZ писал(а):
03 мар 2020 10:18
$5 замените на $4
я бы рекомендовал вставить знак "разделителя слова" \b.
s([^\.,!?-]{0,5}\b(и|мокрым|назад|поймут|это)
Иначе и| |я может стать окончанием короткого слова [^\.,!?-]{0,5} вместо союза

Аватара пользователя
AndOSjZ
Постоялец

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#14

Сообщение AndOSjZ »

tonio_k, да,с разделителем будет правильно,тоже уже к этому пришел

speeck
Обыватель

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#15

Сообщение speeck »

wasyaka, в вашей сборке есть существенные ошибки.

1. В скрипте "2_ПАКЕТНАЯ ОБРАБОТКА СЛОВАРЯМИ С ВЫКЛ ПК" закомментирована строка 59:
--os.execute('mkdir '..'"'..homedir..'\\book\\'..'"')
Из-за этого происходит ошибка, скрипт прерывает обработку.
Также эта строчка закомментирована в скрипте "1_ПАКЕТНАЯ ОБРАБОТКА СЛОВАРЯМИ БЕЗ ВЫКЛ ПК.lua" (точнее здесь это строка 57). Я не тестировал этот не скрипт, но полагаю все обстоит также.

2. Обнаружилась ошибка записи итоговых аудио-файлов - случаются пропуски отрезков, причем все итоговые файлы идут по порядку, и как-бы все в порядке. Могу отправить пример моей записи. Пробовал дважды - результат одинаковый. Записывал через скрипт "6_EXP_ПАКЕТНАЯ ОБРАБОТКА всеми СЛОВАРЯМИ И ЗАПИСЬ В MP3 YaTTS С ВЫКЛ ПК.lua".

3. Скрипт "2_ПАКЕТНАЯ ОБРАБОТКА СЛОВАРЯМИ С ВЫКЛ ПК.lua" содержит ошибку (ну или особенность).
По примеру:
Слово "году" после обработки принимает такой вид: "годплюс У" вместо "год+у". То есть, сначала "году" заменилось на "год+у", а затем еще раз заменилось на "годплюс У".
Например у скрипта 6 такого не происходит (другие не тестировал), он единожды меняет "году" на "год+у" (корректный вариант).

АП: возможно вы исправили это в сборке от 2 марта 2020 (?), вы не ответили на мои сообщения.

4. Потом, не ясно какие скрипты использовать для записи книг на Яндекс-ТТС?
"3_EXP_ПАКЕТНАЯ ОБРАБОТКА СЛОВАРЯМИ YANDEX И ЗАПИСЬ В MP3 YaTTS БЕЗ ВЫКЛ ПК.lua"
"4_EXP_ПАКЕТНАЯ ОБРАБОТКА СЛОВАРЯМИ YANDEX И ЗАПИСЬ В MP3 YaTTS С ВЫКЛ ПК.lua"
"5_EXP_ПАКЕТНАЯ ОБРАБОТКА всеми СЛОВАРЯМИ И ЗАПИСЬ В MP3 YaTTS БЕЗ ВЫКЛ ПК.lua"
"6_EXP_ПАКЕТНАЯ ОБРАБОТКА всеми СЛОВАРЯМИ И ЗАПИСЬ В MP3 YaTTS С ВЫКЛ ПК.lua".

3 и 4 или 5 и 6? Если 3 и 4, то там только словари под Яндекс, исключая все прочие. Что, вероятно, не вполне адекватно, т.к. большая часть обработки просто отбрасывается, в том числе Ё-фикация.
...

Вероятно есть и другие ошибки, это то, что обнаружилось буквально за пару дней тестирования.
Очевидно, ваша сборка в текущем состоянии не вполне рабочая.
Надеюсь, когда-нибудь все это получится исправить, тем более, что набор словарей и многочисленных правил вызывает восхищение.
Для себя я решил использовать сборку от tonio_k, также связка Демагог+скрипты от balaamster . Она уже проверена, все работает отлично. Притом, что сам tonio_k не слушает книги на синтезе от Яндекса. Последняя версия кажется в этом сообщении: https://mytts.info/viewtopic.php?t=434&start=100#p3087.
С вашей сборки буду использовать некоторые словари и правила, за что спасибо.
Возможно на базе данных 2х сборок получится создать идеальное средство записи.

speeck
Обыватель

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#16

Сообщение speeck »

Также была проблема с наборами словарей в скриптах (их существенные отличия):
В "1_ПАКЕТНАЯ ОБРАБОТКА СЛОВАРЯМИ БЕЗ ВЫКЛ ПК.lua":
► Показать
В "2_ПАКЕТНАЯ ОБРАБОТКА СЛОВАРЯМИ С ВЫКЛ ПК.lua":
► Показать
Но вы это исправили в сборке от 2 марта 2020 года.
Возможно часть проблем также была решена. Напишите пожалуйста, так ли это.

speeck
Обыватель

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#17

Сообщение speeck »

AndOSjZ писал(а):
18 фев 2020 12:19
Да и ещё удалите из 2.5_Яндекс+ОМОавто эти слова $измениться=изм+ениться
$хватить=хв+атить
$катиться=к+атиться
$кружиться=круж+иться
$признаешь=признаёшь
Этот словарь вообще скорее портит, чем улучшает. Там большая часть правил, возможно даже бОльшая, однобокие. Из 2х возможных вариантов ударений выбирается лишь одно из них, и во многих случаях не самое частое. Притом, что Яндекс скорее всего сам бы выбрал правильное ударение исходя из контекста.
Этот словарь нужно как следует отредактировать, чем я сейчас занимаюсь при наличии времени.
Сначала хотел вообще удалить его, но часть правил там корректные и как-то жаль жертвовать ими.
Автору раздачи писал об этом, как и про другие косяки сборки, некоторые из которых критичные. Например часть текста теряется при озвучке (не все пакеты есть в итоговой записи). Автор молчит.
Рекомендую вам использовать сборку от tonio_k, она точно стабильная и более аккуратная.
В данный момент я занимаюсь переносом части правил со сборки от wasyaka в сборку от tonio_k, если будет интересно могу поделиться результатом, сравните.

Аватара пользователя
wasyaka
V.I.P.

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#18

Сообщение wasyaka »

speeck писал(а):
05 апр 2020 11:42
Да и ещё удалите из 2.5_Яндекс+ОМОавто эти слова $измениться=изм+ениться
$хватить=хв+атить
$катиться=к+атиться
$кружиться=круж+иться
$признаешь=признаёшь
Этот словарь вообще скорее портит, чем улучшает.
Ну если мешает - есть кнопка Del. Какие проблемы?

Ударение в слове хватить
В таком слове ударение ставят на слог с буквой И — хватИть.
мне должно было хвати́ть.
но
хвати́ть меня трогать
хвати́ть капать на мозги...
прекрасно звучит...
а от надолго хва́тить по ушам не режет...

Ударение в слове катиться
В таком слове ударение падает на слог с буквой И — катИться.

во многих книгах *ться=*тся или наоборот...
соответственно - я не филолог по контексту и ставилось ударение... И если не отредактировано, то значит небыло необходимости.

Ударение в слове признаёшь
Слово признаёшь может употребляться в 2-х разных значениях:
I. признаёшь — если образовано от слова признавать
В таком варианте ударение должно быть поставлено на слог с буквой Ё — признаЁшь.
II. призна́ешь — если образовано от слова признать

Придёт время, и ты признаешь, что я прав.
Почему ты не признаёшь свою ошибку?
Я слушаю в основном фантастику, а там... как и у меня основная масса авторов с тремя классами...
speeck писал(а):
05 апр 2020 11:42
Например часть текста теряется при озвучке (не все пакеты есть в итоговой записи). Автор молчит.
А у меня озвучивается весь текст... И о чём мне не молчать?
И мои словари меня устраивают...
и мы НЕ В РЕСТОРАНЕ (жалобы не принимаются).
Отвечу только на аргументированный вопрос, примерно как ответил.
Попробуйте создать своё. Удачи.
:howdoyoudo:

speeck
Обыватель

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#19

Сообщение speeck »

$белка=б+елка (биосинтез белкА)
$дорог=дор+ог (он мне был дОрог)
$еду=ед+у (я Еду на море)
$попы=поп+ы VS $попе=п+опе (как же в итоге вы хотели бы слышать скорее?)
$семьи=семь+и (все сЕмьи несчастливы по своему)
И тд.......
Эти примеры я буквально за 15 секунд нашел, просто потыкав в разные места словаря.
Понятное дело, что сборка ваша, вы вправе делать как вам угодно, но вас спрашивают, почему так, а вы молчите. Сборку же выложили в свет, значит это как-бы рабочий инструмент, но по факту книги обработанные словарями из этой сборки получаются часто хуже, чем без словарей вовсе.
Только без обид пожалуйста.
Я уже несколько недель занимаюсь исследованием обеих сборок, по вашей нашел много ошибок и неточностей. Пишу вам, вы молчите. Если вы больше не поддерживаете свою сборку и текущие критичные ошибки не собираетесь исправлять - так и скажите, зачем людей путать? Только, еще раз, без обид.
wasyaka писал(а):
05 апр 2020 19:10
Ну если мешает - есть кнопка Del. Какие проблемы?
Я ответил насчет этого, повторю:
Сначала хотел вообще удалить его, но часть правил там корректные и как-то жаль жертвовать ими.
wasyaka писал(а):
05 апр 2020 19:10
А у меня озвучивается весь текст... И о чём мне не молчать?
Я ответил насчет этого, повторю:
Обнаружилась ошибка записи итоговых аудио-файлов - случаются пропуски отрезков, причем все итоговые файлы идут по порядку, и как-бы все в порядке. Могу отправить пример моей записи.

Аватара пользователя
wasyaka
V.I.P.

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#20

Сообщение wasyaka »

speeck писал(а):
06 апр 2020 12:01
$белка=б+елка (биосинтез белкА)
$дорог=дор+ог (он мне был дОрог)
$еду=ед+у (я Еду на море)
$попы=поп+ы VS $попе=п+опе (как же в итоге вы хотели бы слышать скорее?)
$семьи=семь+и (все сЕмьи несчастливы по своему)
И тд.......
Эти примеры я буквально за 15 секунд нашел, просто потыкав в разные места словаря.
Этот словарь для необработанных предыдущими(1.6_RGVVV.rex; 1.8_ОМО.dic) словарями омографов,(если не допилили вручную) - И в большинстве случае прыгает, стреляет(псевдо) бЕлка и т.д. А если это слово читает Яндекс правильно...(прикрылся Яндекс и...?), а другой Голосовой движок нет? - Поновому всё переслушивать?
Но это в литературе которую слушаю я - у когото может быть и наоборот, А чтобы миниминизировать ошибки - раставляйте ударения вручную, все пары в словаре с учётом регистра и белкА не поменяется на б+елка
Насчёт неполной
speeck писал(а):
06 апр 2020 12:01
случаются пропуски отрезков, причем все итоговые файлы идут по порядку, и как-бы все в порядке.
Текст один
Семух. S-T-I-K-S. Человек с собакой 2.rar
(171.32 КБ) 110 скачиваний
записано сегодня одими словарями Яндекса
► Показать
Всеми словарями
► Показать
В декабре прошлого года
► Показать
пару дней назад с помощью Play_5 и последнего скрипта от tonio_k
► Показать
Время записи ... Ищите у себя.

speeck
Обыватель

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#21

Сообщение speeck »

wasyaka писал(а):
07 апр 2020 15:27
прикрылся Яндекс и...?
В целом понятно, но не очень. Сборка явно заточена под Яндекс, а правила вы делаете с учетом прежнего опыта, когда синтезатору нужно было указывать ударения явно. Дело ваше, конечно, но можно было бы указать это где-то, хоть в комментах к словарям. Я вот кучу времени потратил, чтобы найти это (и другое) самостоятельно, и долго не мог понять, что же книги так странно звучат, что с ними не так.....
wasyaka писал(а):
07 апр 2020 15:27
записано сегодня одими словарями Яндекса
Я про это писал, что все файлы, их кол-во, размер, порядок - как-будто все в норме, но по факту нет.
Попробуйте такой тест: 10-20 статей из разных источников, на разные темы, между статьями обязательно сделайте вставки вроде "конец статьи 3, начало статьи 4", и запишите весь этот пакет как единую книгу. Поймете о чем я. В целом даже без указания "конец статьи 3, начало статьи 4" сразу слышно, когда внезапно прерывается статья "о коронавирусе" и также внезапно начинается следующая статья, причем сразу с развития сюжета "и тут дворник залепил ему лопатой".
Если будет не лень, я найду в архивах конкретный пример, снова все протестирую на вашей последней сборке, и отправлю вам в виде текста.

Аватара пользователя
wasyaka
V.I.P.

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#22

Сообщение wasyaka »

speeck писал(а):
07 апр 2020 19:50
10-20 статей из разных источников,
И в некоторх из них скорей всего кодировка не в ANSI ...
После объединения надо: Сохранить как и указать кодировку ANSI (Кириллица(Windows))(1251, windows-1251)...

Аватара пользователя
Petrarca
Прохожий

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#23

Сообщение Petrarca »

Привет. Уменя эта сборка с ума сходит. При любых настойках пихает книгу в папку %temp% и разбивает на аудиофайлы по 1 минуте. Как с этим бороться?

Аватара пользователя
tonio_k
V.I.P.

{Yandex TTS} Всё включено. Готовые сборки для записи книг.

#24

Сообщение tonio_k »

Petrarca писал(а):
13 июл 2020 11:27
пихает книгу в папку %temp% и разбивает на аудиофайлы по 1 минуте. Как с этим бороться?
тут было похожее
Решение

Ответить

Вернуться в «TTS-Builds»