Теги для TTS

Ответить
Аватара пользователя
Fenix
Администратор

Теги для TTS

#1

Сообщение Fenix » 20 июн 2018 16:03

Для «речевых движков» (text-to-speech engine) в Microsoft SAPI предусмотрен набор управляющих тегов, которые можно помещать в текст, передаваемый движку для речевого синтеза. Эти теги позволяют менять параметры синтезируемой речи, как говорится, на лету.

Ниже приводится список управляющих тегов с кратким пояснением их назначения. Напомним, что поскольку персонажи Microsoft Agent используют для синтеза речи Microsoft SAPI, то и речь персонажей может быть размечена этими тегами.
Не стоит, однако, пытаться в обычном текстовом редакторе размечать текст управляющими тегами, так как по умолчанию синтезатор игнорирует такую разметку.

Теги речевой разметки оформляются согласно следующим правилам:
  • Все теги начинаются и заканчиваются символом наклонной черты влево (\)
  • Действие тега начинается со следующего за ним слова
  • Отдельный бэкслэш не допускается в пределах тега. Чтобы включить бэкслэш в текстовый параметр тега, используйте двойную наклонную черту влево (\\)
  • При обработке тегов регистр символов игнорируется
  • Теги не допускают лишних пробелов
Список тегов речевой разметки

Код: Выделить всё

\Chr=string\
Тип голоса:
  • Normal – нормальный (по-умолчанию)
    Monotone – монотонный
    Whisper – шепчущий

Код: Выделить всё

\Ctx=string\
Тип читаемого текста:
  • Address – адрес или телефонный номер
  • E-mail – адрес электронной почты
  • Unknown – неизвестный, любой (по-умолчанию)
Выделяет следующее слово
Повторить предыдущую инструкцию

Код: Выделить всё

\Map="spokentext"="balloontext"\
Позволяет отображать один текст, а произносить другой:
  • Spokentext – текст для чтения
  • Balloontext – текст для отображения

Код: Выделить всё

\Mrk=number\
Вставляет закладку

Код: Выделить всё

\Pau=number\
Вставляет паузу, в миллисекундах

Код: Выделить всё

\Pit=number\
Устанавливает частоту голоса в Герцах
Сбрасывает все установки к установкам по умолчанию

Код: Выделить всё

\Spd=number\
Устанавливает скорость речи

Код: Выделить всё

\Vol=number\
Устанавливает громкость речи: от 0 до 65535

Аватара пользователя
MDenis2
Наблюдатель

Теги для TTS

#2

Сообщение MDenis2 » 12 июл 2018 15:34

Это же для SAPI4. Они же не совместимы с SAPI5

Аватара пользователя
tonio_k
V.I.P.

Теги для TTS

#3

Сообщение tonio_k » 19 июл 2018 16:56

для SAPI5 в части для голосового движка IVONA длину паузы вместо многоточия указывал так:
...=< silence msec="500"/>
но столкнулся с такой проблемой. На смартфоне (ОС Андроид) с установленным голосовым движком IVONA Максим в обработанной в Демагоге книге в аудио-читалке @Voice Aloud Reader напрочь игнорировался тэг < silence msec="500"/>, хотя все остальные тэги фонемами читались на ура. Просто указать многоточие (...) - длина получаемой паузы меня не устраивала. Нашел такой вариант вставки паузы:
...=<speak><break time='500ms'/><speak>
в Демагоге этот тэг паузы <speak><break time='500ms'/><speak> - тоже срабатывает.

Аватара пользователя
Evlanov
Прохожий

Теги для TTS

#4

Сообщение Evlanov » 24 июл 2018 20:41

Есть ли возможность с помощью тега проиграть звуковой файл, например: <playfile name="c:\tast.wav">text</>

Аватара пользователя
tonio_k
V.I.P.

Теги для TTS

#5

Сообщение tonio_k » 24 июл 2018 21:55

Evlanov писал(а):
24 июл 2018 20:41
проиграть звуковой файл
как я понимаю, тэги это команда голосовому движку. Голосовой движок не управляет файлами на ПК. А вот можно ли объяснить Балаболке или Демагогу что встретив такой то тэг не передавать его голосовому движку, а запустить такой то файл... Спросите у разработчиков выше названных читалок

Аватара пользователя
balabolka
V.I.P.

Теги для TTS

#6

Сообщение balabolka » 25 июл 2018 01:28

Evlanov писал(а):
24 июл 2018 20:41
Есть ли возможность с помощью тега проиграть звуковой файл
В Балаболке такая возможность есть; загляните в раздел "Использование аудиоклипов" в файле справки программы. Код вставки звукового файла будет выглядеть так:

Код: Выделить всё

{{Audio=C:\Sounds\ring.wav}}
Поддерживаются форматы WAV, MP3, OGG. При записи речи содержимое аудиоклипа будет вставлено в итоговый звуковой файл (будет выполнен ресемплинг).

Ответить

Вернуться в «Обработка звука»