Балаболка TTS

Программа "Балаболка" предназначена для воспроизведения звуков человеческого голоса с использованием любого речевого синтезатора, установленного на компьютере.

Модератор: balabolka

Ответить
Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#451

Сообщение balabolka »

tonio_k писал(а):
24 янв 2021 17:05
Как объяснить Балаболке что Николай хоть и sapi5 но символы <> в нём надо считать ударениями а не тэгами?
Использовать для работы с "Николаем" SAPI 4, а не SAPI 5. Разницы в звучании нет.

Аватара пользователя
tonio_k
V.I.P.

Балаболка TTS

#452

Сообщение tonio_k »

balabolka писал(а):
24 янв 2021 22:29
Использовать для работы с "Николаем" SAPI 4, а не SAPI 5
и как мне поменять на SAPI 4?
► Показать
на скрине у меня SAPI4 недоступен (кружочек с SAPI4 не выбирается). Или у меня самого SAPI4 нет на win7 и мне его дополнительно нужно отдельно установить?

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#453

Сообщение balabolka »

tonio_k писал(а):
24 янв 2021 22:50
Или у меня самого SAPI4 нет на win7 и мне его дополнительно нужно отдельно установить?
Да, для установки SAPI 4 надо скачать и установить spchapi.exe. Рекомендуется запускать файл с правами администратора: щелкнуть правой кнопкой на имени файла и выбрать пункт меню "Запуск от имени администратора".

Можно также установить панель управления SAPI 4 spchcpl.exe. После этого в панели управления Windows появится пункт "Speech". Пользы от него мало, он позволяет лишь посмотреть список установленных голосов SAPI 4.

Аватара пользователя
wasyaka
V.I.P.

Балаболка TTS

#454

Сообщение wasyaka »

► Показать
► Показать

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#455

Сообщение balabolka »

wasyaka
Спасибо за сообщение. Исправлю ошибку в следующей версии программы.

Аватара пользователя
Lecron
Специалист

Балаболка TTS

#456

Сообщение Lecron »

При конвертировании субтитров в аудиофайл каждая часть предложения читается отдельно, что может привести к запинкам в речи. Новая настройка позволит избежать таких ситуаций.
Разрывы вставляются не только из-за ширины экрана, но и произношение предложений нередко неравномерное по сюжету. Паузы между выводом субтитров эту неравномерность синхронизирует. В вашем примере
6 слов — 3.1 + 0.8 сек (седьмого июня тысяча восемьсот шестьдесятого года)
3 слова — 2 + 1.1 сек (трехмачтовое судно "Британия")
2 слова + предлог — 1.8 сек. (из порта Глазго)
Есть смысл подумать об алгоритме оценки смысла разбиения и соответственно обратного объединения. Где-то будет пауза, а где-то сольётся.

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#457

Сообщение balabolka »

Lecron
Не совсем понял, о чем идет речь. У нас есть самая первая метка времени, когда надо начать чтение предложения, только на нее и стоит ориентироваться. Идеально синхронизировать речь с текстом субтитров всё равно не удастся.

Сейчас программа объединяет две части предложения в одно, если интервал времени между концом первой части и началом второй части меньше, чем 1500 миллисекунд (значение подобрал опытным путем, просмотрев субтитры для разных фильмов). Если пауза больше, чем полторы секунды, то это две разные реплики, голос прочтет их по отдельности.
Например:

Код: Выделить всё

199
00:18:22,297 --> 00:18:24,117
Обещаю научить Вас...

200
00:18:24,902 --> 00:18:27,295
обращаться с оружием так же...

201
00:18:29,899 --> 00:18:31,019
легко...

202
00:18:31,854 --> 00:18:34,824
как Вы обращаетесь с кастрюлями!
Здесь пауза между частями предложения существенная (200/201 - более двух секунд), объединение не произойдет.

Аватара пользователя
Lecron
Специалист

Балаболка TTS

#458

Сообщение Lecron »

balabolka писал(а):
28 фев 2021 22:18
Не совсем понял, о чем идет речь. У нас есть самая первая метка времени, когда надо начать чтение предложения, только на нее и стоит ориентироваться. Идеально синхронизировать речь с текстом субтитров всё равно не удастся.
Примерно о том, о чем вы написали ниже. Но думаю можно сделать еще лучше.
Конечно идеально синхронизировать не удастся. Главное поймать момент, когда синхронизировать "по-частям" имеет смысл. И это не только по длине паузы.
balabolka писал(а):
28 фев 2021 22:18
значение подобрал опытным путем, просмотрев субтитры для разных фильмов
Попробуйте проанализировать время на произнесение одной буквы субтитров. Или отношение паузы к времени показа предыдущего фрагмента.
1 секунда паузы для рассуждающего вслух героя и 1 секунда для доклада с поля боя. В первом случае синхронизация нужна, во втором нет.

Аватара пользователя
АлександрЛевашов
Прохожий

Балаболка TTS

#459

Сообщение АлександрЛевашов »

Balabolka portable 2.15.0.774
Где сейчас хранятся настройки программы?

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#460

Сообщение balabolka »

АлександрЛевашов писал(а):
07 мар 2021 01:18
Где сейчас хранятся настройки программы?
Настройки для portable-версии хранятся в файле BALABOLKA.PCFG в той же папке, где и программа.

Аватара пользователя
Dimsok
Постоялец

Балаболка TTS

#461

Сообщение Dimsok »

Предложение к улучшению функции распознавания диалогов. Возможно ли при кодировке в wav файлы менять каналы? Левый канал для одного диалога, для следующего- правый и т.п?

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#462

Сообщение balabolka »

Dimsok писал(а):
22 мар 2021 10:04
Возможно ли при кодировке в wav файлы менять каналы?
Идея интересная; может быть, когда-нибудь ее удастся реализовать. В SAPI 5 такой возможности нет, надо использовать внешние утилиты.

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#463

Сообщение balabolka »

Попробовал добавить такой параметр в теги для Yandex Speeshkit.
Обычный текст.{{Lang=ru-RU;alena;;;;l}}Текст в левой колонке.{{Lang=ru-RU;alena;;;;r}}Текст в правой колонке.{{Lang=}}Вновь обычный текст.
test.mp3
(91.13 КБ) 14 скачиваний
Не уверен, что это действительно полезная функция. Надо будет подумать еще.

В файлах с речью обычно один канал (моно). Для использования каналов придется сохранять аудиофайлы как стерео, что увеличит их размер.

Аватара пользователя
Lecron
Специалист

Балаболка TTS

#464

Сообщение Lecron »

balabolka писал(а):
23 мар 2021 00:10
Не уверен, что это действительно полезная функция. Надо будет подумать еще.
Баланс не должен быть 100%. 20-30% достаточно для позиционирования, без сбивания с панталыку.
balabolka писал(а):
23 мар 2021 00:10
В файлах с речью обычно один канал (моно). Для использования каналов придется сохранять аудиофайлы как стерео, что увеличит их размер.
Нюанс в другом. Кодеки определяя целевой битрейт, если его не указал пользователь, для стерео его естественно завышают. Они же не знают, что там будет на входе. Поэтому скорее стоит говорить так: включение стерео-режима для почти моно потока, не ухудшает качество при одинаковом размере.
Если учесть, что современные алгоритмы joint-stereo очень умные, даже не представляю, как отреагируют просто на баланс. Возможно увидит реальный моно и просто поставит коэффициент а-ля replay_gain для одного из каналов.

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#465

Сообщение balabolka »

Lecron писал(а):
23 мар 2021 11:23
20-30% достаточно для позиционирования, без сбивания с панталыку.
Вот вариант звукового файла, когда в одном канале 100% громкости, в другом 40%.
test.mp3
(271.13 КБ) 15 скачиваний
{{Lang=ru-RU;alena;;;;l}}– Вы были на скачках? {{Lang=}}– с интересом спросила его графиня.
{{Lang=ru-RU;filipp;;;;r}}– Да, сударыня.
{{Lang=ru-RU;alena;;;;l}}– Тогда не можете ли вы мне сказать, {{Lang=}}– живо продолжала она, {{Lang=ru-RU;alena;;;;l}}– кому принадлежала лошадь, выигравшая приз Жокей-клуба?
{{Lang=ru-RU;filipp;;;;r}}– Не знаю, {{Lang=}}– отвечал Шато-Рено, {{Lang=ru-RU;filipp;;;;r}}– я только что задал этот самый вопрос Альберу.
Возможность выбора канала (левый/правый) будет в "Балаболке" для Yandex Speechkit.

Аватара пользователя
OlgaLoagSinclair
Интересующийся

Балаболка TTS

#466

Сообщение OlgaLoagSinclair »

День добрый. Скачала-установила свежую версию Балаболки (v2.15.0.778), чтобы опробовать новый сервис Naver, и обнаружила, что у меня не происходит запись файлов. Т.е. кнопка "Сохранить" ничего не запускает - и не только для этого, но и для остальных онлайн-сервисов синтеза речи. Не пойму даже - куда копать: настройки какие-то изменились? операционка блокирует? :scratch:
И заодно - нет ли где-нибудь архива со старыми версиями программы? Иногда бывает полезно откатиться назад и свериться

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#467

Сообщение balabolka »

OlgaLoagSinclair
Скачайте и установите программу еще раз. Должно помочь.

Аватара пользователя
OlgaLoagSinclair
Интересующийся

Балаболка TTS

#468

Сообщение OlgaLoagSinclair »

Спасибо, действительно помогло :) (интересно - что я в первый раз потеряла?)

ЗЫ. Женский голос от Naver оказался неожиданно качественным, не ожидала. По крайней мере на небольшом тексте понравился )))

Аватара пользователя
Kei
Интересующийся

Балаболка TTS

#469

Сообщение Kei »

Что за ужас произошел со сворачиванием программы по значку на панели задач?

У меня отключено сворачивание программы в трей при минимизации.

При попытке развернуть программу обратно, её интерфейс либо мерцает, показывая окно с текстовой частью в небольшом размере с чёрным фоном даже со стандартной темой оформления, либо вообще не появляется.

Насколько понимаю, последнее зависит от объёма открытых файлов. Если открыта лишь одна вкладка на 22КБ, то интерфейс появляется, пусть и суменьшенным размером окна с текстом и отсутствием элементов интерфейса, на вроде вкладок с версиями SAPI и ползунков к голосам.

К сожалению, это трудно зафиксировать делая скриншоты, поэтому удалось лишь снять ещё не вышедшую из полупрозрачности и не растянувшуюся на весь экран программу. Но глаз проблему прекрасно видит.
1. 22KB.png
1. 22KB.png (112.37 КБ) 226 просмотров
При увеличении объёма открытых файлов, программа вовсе не разворачивается. При открытии 8 файлов и кэшировании их программой, с объёмами: 22КБ, 472КБ, 1.98МБ, 1.97МБ, 438КБ, 438КБ, 1.28МБ и 877МБ (Что для моего обычного использования программы ещё достаточно мало) всё становиться куда хуже.

Теперь свернуть-развернуть программу становится невозможным. При попытке развернуть её обратно раньше, чем через 5 секунд, она просто не появляется, а при дальнейшем закликивании она возвращается уже в оконном режиме. Если свернуть программу, подождать некоторое время, пока значок активного окна переместится с Балаболки на иную программу, и только тогда кликнуть по иконке, то даже в этом случае на достаточное время появляется пустое текстовое пространство с пустым фоном и невозможностью нормального взаимодействия. Иле поле может быть не пустым, но делу это не помогает. Такая картина остается минимум на четыре секунды:
2.png
2.png (47.98 КБ) 226 просмотров
Проблемы с появлением интерфейса были и раньше, но они были не существенны. При большом объёме открытых файлов, открытие панели словарей заставляло программу задуматься. Этот процесс, насколько я помню, стал куда быстрее при переезде программы с HDD на SSD, пусть и не совсем решил проблему, но это были мелочи. Была ещё проблема с остановкой зачитки, пока программа рисовала панель словаря, но мне и не нужно редактировать словарь с одновременной зачиткой какого-либо текста, так что это и поймать можно было редко. Но теперь, при сворачивании, остановка читки просто делает невозможным пользоваться программой, не получая при этом болевых ощущений.

Я, на всякий случай, при обнаружении и тестировании проблем ни один раз переустанавливал программу, в том числе ставил начисто. И в самом начале, возвращался на раннюю версию программы; может мерцание окна с текстом было ещё 751, а в 781 я его заметил лишь потому что внимательно смотрел изменилось ли что-нибудь в программе, и надо ли лезть в настройки, правя фичи как мне удобнее. Но на 751 я подобного не наблюдал.

Может у меня проблемы? Или обычно все программой пользуются со включенным сворачиванием в трей, а прекращение зачитки на секунду – это лишь особенность моего голоса/sapi4 (Мой голос на четвёрке заикаится при открытии панели словарей, а на пятом от Microsoft – нет)?

К сожалению, придется вернуться на 751, поскольку с 5 секундным разворотом и заиканием зачитки использовать программу я не могу. Но мне правда интересно, может у меня какой-то случай особый?

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#470

Сообщение balabolka »

Kei
Спасибо за сообщение; посмотрю, что можно сделать.

Те изменения, которые были сделаны в последних версиях программы, связаны с моими попытками реализовать полную поддержку "Snap Assist" (это "улучшенный" механизм управления окнами в Windows 10). К сожалению, если работает одно - не работает другое, и наоборот. Пытаюсь найти золотую середину, но пока безрезультатно. Буду искать решение.

Аватара пользователя
slav_o
Прохожий

Балаболка TTS

#471

Сообщение slav_o »

Спасибо за такую замечательную программу!
Часто ею пользуюсь, онлайн-синтез для синтеза речи становится всё лучше.
Но, к сожалению, SpeechPro TTS, которым мне нравится больше других, перестал работать со
средины апреля, выдаёт при попытке синтеза "ошибка 404".
Можно ли что-то сделать?

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#472

Сообщение balabolka »

slav_o
Это коммерческий сервис: надо зарегистрироваться на сайте SpeechPro.com, чтобы получить идентификатор и токен.

Разработчики сервиса добавили "капчу" на свой сайт. Таким ненавязчивым способом они дают понять, что хотят денег за свои услуги.

Ответить

Вернуться в «Балаболка»