Тема: Словарь коррекции текста

Словарь коррекции текста

Дополнительный словарь к основному словарю замен, корректирующий текст для лучшей расстановки ударений.

mytts/download Словарь коррекции текста

Составитель: evilone

Словарь содержит правила на основе регулярных выражений, и предназначен для работы в TTS-программах при чтении и записи в аудиофайл текстовых файлов с использованием пакетов речевых функций SAPI4\SAPI5.

В зависимости от нужных функций в словаре предусмотрен расширенный выбор правил. Для исключения нужного правила используйте символ #(решетка) в начале нужной строки.


Для лучшей расстановки замен в программе Балаболка в настройках нужно выбрать опцию "Применять правила к большим по размеру частям текста"


Особенности словаря:

  • Ошибки распознавания текста. Используется для текста содержащего латинские буквы одинаковые по начертанию с кириллицей. Данное правило существенного замедляет работу для большого по объему текста.

  • Замена звездочек паузой.

  • Удаление лишних звездочек в тексте. Все разделители в тексте, как правило, три звездочки можно заменить паузой, все остальные удаляется правилом.

  • Удаление ссылок и html-мусора в тексте.

  • Замена тире и дефиса.

  • Дубликаты символов. Данное правило удаляет более одного идущего подряд символа для любителей злоупотреблять в тексте конструкциями вида: «---------------------», «===========», «!!!???» и т.п.

  • Удаление букв через дефис в словах, напр. Ура-а-а-а! А-а-а-а! и т.п.

  • Разрыв строки внутри абзаца. Удаляет переносы строк внутри абзаца. Актуально для текста обработанного программой Книгодел. Аналогична функциям форматирования текста в программах Балаболка и Демагог.

  • Замена нескольких пустых строк одной. Удаляет лишние пустые строки в тексте.

  • Удаление текста в скобках {}[]<>. Для использования в тексте SAPI4\SAPI5 тегов данное правило необходимо закомментировать.

  • Удаление более одного пробела. Удаляет в тексте лишние пробелы.

  • Пробел между буквой и цифрой. Корректирует правильную расстановку пробелов между буквой и цифрой согласно правилам набора текста.

  • Пробел между буквой и знаком препинания. Корректирует правильную расстановку пробелов возле знаков препинания согласно правилам набора текста.

  • Коррекция ошибок произношения. Правила для исправления ошибок произношения.

  • Коррекция произношения слов с частицей "-то" образующей особые формы слов.

  • Коррекция ошибок произношения при произношении сложносоставных слов с числительными вида 123слово.

Несколько важных (системных) правок на примерах:
mytts/adobe Исправления



По определённой причине словарь обновляться не будет.

Re: Словарь коррекции текста

Из моего давнего письма к evilone_:

Проблема; некоторые омографы с 1-й прописной буквой не ассоциируются с омо-лексом! Это касается не только фамилий – "ТолстОй" и "ДалИ", но и других словоформ напр. "ЧумА/ЧУма".
Почему-то для Алёны "чумА", "чУма", "ЧумА", "ЧУма" совершенно разные слова.

Дублирование таких форм в лексикон омографов считаю неправильным – вместо 2 вариантов слова будет 4,. Лекс превратится в в долго открывающийся фолиант!

поэтому позже в корректоре появились правила "убивающие" прописные литеры. mytts/gun

# 12.4. Коррекция букв в словах кроме аббревиатур (если будет медленно, закомментировать все ниже)
#А-Я
@\b[А]([^А-ЯЁ\d]+)=а$1
@\b[Б]([^А-ЯЁ\d]+)=б$1
@\b[В]([^А-ЯЁ\d]+)=в$1
@\b[Г]([^А-ЯЁ\d]+)=г$1
@\b[Д]([^А-ЯЁ\d]+)=д$1
@\b[Е]([^А-ЯЁ\d]+)=е$1
@\b[Ё]([^А-ЯЁ\d]+)=ё$1
@\b[Ж]([^А-ЯЁ\d]+)=ж$1
@\b[З]([^А-ЯЁ\d]+)=з$1
@\b[И]([^А-ЯЁ\d]+)=и$1
@\b[Й]([^А-ЯЁ\d]+)=й$1
@\b[К]([^А-ЯЁ\d]+)=к$1
@\b[Л]([^А-ЯЁ\d]+)=л$1
@\b[М]([^А-ЯЁ\d]+)=м$1
@\b[Н]([^А-ЯЁ\d]+)=н$1
@\b[О]([^А-ЯЁ\d]+)=о$1
@\b[П]([^А-ЯЁ\d]+)=п$1
@\b[Р]([^А-ЯЁ\d]+)=р$1
@\b[С]([^А-ЯЁ\d]+)=с$1
@\b[Т]([^А-ЯЁ\d]+)=т$1
@\b[У]([^А-ЯЁ\d]+)=у$1
@\b[Ф]([^А-ЯЁ\d]+)=ф$1
@\b[Х]([^А-ЯЁ\d]+)=х$1
@\b[Ц]([^А-ЯЁ\d]+)=ц$1
@\b[Ч]([^А-ЯЁ\d]+)=ч$1
@\b[Ш]([^А-ЯЁ\d]+)=ш$1
@\b[Щ]([^А-ЯЁ\d]+)=щ$1
@\b[Ъ]([^А-ЯЁ\d]+)=ъ$1
@\b[Ы]([^А-ЯЁ\d]+)=ы$1
@\b[Ь]([^А-ЯЁ\d]+)=ь$1
@\b[Э]([^А-ЯЁ\d]+)=э$1
@\b[Ю]([^А-ЯЁ\d]+)=ю$1
@\b[Я]([^А-ЯЁ\d]+)=я$1

Re: Словарь коррекции текста

evmir_troll-hunter пишет:

Проблема; некоторые омографы с 1-й прописной буквой не ассоциируются с омо-лексом! Это касается не только фамилий – "ТолстОй" и "ДалИ", но и других словоформ напр. "ЧумА/ЧУма".

Я делаю так (почти  29000 строк в rex):

@([А-яЁё]) \bТолстой\b=$1 толстОй
@([А-яЁё])\, \bТолстой\b=$1, толстОй
@([А-яЁё]) \- \bТолстой\b=$1 - толстОй
@([А-яЁё])\, \- \bТолстой\b=$1, - толстОй
@([А-яЁё]) \bтолстой\b=$1 тОлстой
@([А-яЁё])\, \bтолстой\b=$1, тОлстой
@([А-яЁё]) \- \bтолстой\b=$1 - тОлстой
@([А-яЁё])\, \- \bтолстой\b=$1, - тОлстой
@\bТолстой\b=толстой


@\bЧума\b=чума

@([А-яЁё]) \bЮля\b=$1 Юля
@([А-яЁё])\, \bЮля\b=$1, Юля
@([А-яЁё]) \- \bЮля\b=$1 - Юля
@([А-яЁё])\, \- \bЮля\b=$1, - Юля
@([А-яЁё]) \bюля\b=$1 юлЯ
@([А-яЁё])\, \bюля\b=$1, юлЯ
@([А-яЁё]) \- \bюля\b=$1 - юлЯ
@([А-яЁё])\, \- \bюля\b=$1, - юлЯ
можно дополнить
@([А-яЁё]): \bЮля\b=$1 Юля
@([А-яЁё]): \bюля\b=$1 юлЯ
@\bЮля\b=юля

До словарей омографов, на 10 часов прослушки время обработки (Демагог) ~10мин.

20

Re: Словарь коррекции текста

Подскажите, как добавить словарь в Балаболку?

14

Re: Словарь коррекции текста

Установка и подключение словарей для программы "Балаболка":

Инсталлировать программу Балаболка, загрузить, деархивировать необходимые словари замен и скопировать их в папку "мои документы/balabolka".

Запустить программу, открыть панель словарей и отметить нужные. Программа готова к чтению.

Для предварительной обработки текста словарём предусмотрена опция "Показать измененный текст" - копируем, вставляем и читаем(записываем).