Утилита для извлечения текста из файлов (blb2txt.exe)

Программа "Балаболка" предназначена для воспроизведения звуков человеческого голоса с использованием любого речевого синтезатора, установленного на компьютере.

Модератор: balabolka

Ответить
Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#1

Сообщение balabolka » 26 июн 2018 14:50

Утилита BLB2TXT позволяет извлекать текст из файлов различных форматов. Извлеченный текст может быть объединен в один файл и/или разбит на несколько файлов. К тексту могут быть применены правила из словарей коррекции произношения программы "Балаболка".

Поддерживаются форматы файлов: AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MHT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, TXT, WPD, WRI, XLS, XLSX. Интерфейс IFilter будет использован для неизвестных программе форматов файлов.

Утилита не имеет графического интерфейса и выполняется в текстовом режиме. Режим работы программы может быть задан при помощи параметров командной строки или файла конфигурации.

:download: Скачать утилиту для извлечения текста (v1.79)


Функции программы

Программа выполняет операции в следующем порядке:
  1. Извлечь текст из файла или нескольких файлов.
  2. Форматировать текст: удалить лишние пробелы, разрывы строк и т.д. (если заданы соответствующие параметры).
  3. Объединить текст в один файл (если задан соответствующий параметр).
  4. Разбить текст на части (если заданы соответствующие параметры).
  5. Применить правила коррекции произношения (если заданы соответствующие параметры).
  6. Сохранить файл или файлы на диске.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов

#2

Сообщение balabolka » 26 июн 2018 17:38

Версия 1.58
  • Улучшено распознавание кодировки для обычных текстовых файлов.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#3

Сообщение balabolka » 30 июл 2018 16:14

Версия 1.59
  • Параметры для разбиения текста по оглавлению были разделены: если задан параметр -c, программа извлечет оглавление из электронного документа; если задан параметр -toc, программа создаст оглавление при помощи найденных в тексте ключевых слов ("глава", "том").
  • Параметры -c и -toc могут использоваться вместе. В этом случае программа сначала извлечет оглавление из файла; если оглавление отсутствует, программа создаст новое оглавление.
  • Исправлено извлечение текста из файлов формата PDF.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#4

Сообщение balabolka » 21 авг 2018 21:16

Версия 1.60
  • Небольшие улучшения.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#5

Сообщение balabolka » 03 сен 2018 00:59

Версия 1.61
  • Обновлено извлечение текста из файлов форматов DOCX, FB2 и ODT.
  • Добавлен параметр --include-notes <число> для добавления сносок и примечаний внутрь текста. Возможные значения для числового параметра:
    • 0 - удалить ссылки на примечания из текста
    • 1 - сохранить текущие позиции сносок и примечаний в тексте (значение используется по умолчанию)
    • 2 - переместить сноски и примечания в конец предложений
    • 3 - переместить сноски и примечания в конец абзацев

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#6

Сообщение balabolka » 07 сен 2018 12:39

Версия 1.62
  • Обновлен метод деления текста на части.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#7

Сообщение balabolka » 22 сен 2018 01:35

Версия 1.63
  • Обновлены сообщения об ошибках.
  • Исправлено извлечение текста из файлов формата DjVu.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#8

Сообщение balabolka » 06 окт 2018 20:48

Версия 1.64
  • Обновлено применение правил для коррекции произношения.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#9

Сообщение balabolka » 09 окт 2018 02:48

Версия 1.65
  • Обновлено применение правил для коррекции произношения.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#10

Сообщение balabolka » 13 окт 2018 01:14

Версия 1.66
  • Добавлены параметры для извлечения содержимого полей заголовка из файлов формата EML, а также параметр для извлечения всех файлов, прикрепленных к сообщению, в заданную папку.
  • Добавлен параметр -out <имя_файла> для полного имени файла с извлеченным текстом. Параметр может быть полезен в тех случаях, когда утилита используется в составе другого программного продукта. (Если утилита применяется как внешняя программа для извлечения текста, команда запуска утилиты будет содержать имя входного файла и имя файла с извлеченным текстом.)
  • Исправлено извлечение текста из файлов формата EML.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#11

Сообщение balabolka » 15 окт 2018 23:12

Версия 1.67
  • Исправлено применение правил для коррекции произношения.

Аватара пользователя
wasyaka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#12

Сообщение wasyaka » 16 окт 2018 19:56

Словари используются впорядке написания?

Код: Выделить всё

 e:\blb2txt\blb2txt -f "E:\blb2txt\пред\*.*" -v "b:\Homograph\Первичка\" -rs -rh -rl -rp -ocr -ls -sfs -in 2  -d "b:\Balabolka\dictionaries\1.0 corector.BXD" -d "b:\Balabolka\dictionaries\1.1 corector омо.BXD" -d "b:\Balabolka\dictionaries\1.2 Словарь Ё..DIC" -d "b:\Balabolka\dictionaries\1.3 chisla.BXD" -d "b:\Balabolka\dictionaries\1.4 vse-vsyo.BXD" -d "b:\Balabolka\dictionaries\1.5 RGV.BXD" -d "b:\Balabolka\dictionaries\sample.BXD" -d "b:\Balabolka\dictionaries\YandexTTS.DIC" -rs
Вставил в командную строку - энтэр и всё ОК
Файл конфигурации

Код: Выделить всё

-f "E:\blb2txt\пред\*.*"
-v "b:\Homograph\Первичка\"
-rs
-rh
-rl
-rp
-ocr
-ls
-sfs
-in 2
-d "b:\Balabolka\dictionaries\1.0 corector.BXD" -d "b:\Balabolka\dictionaries\1.1 corector омо.BXD" -d "b:\Balabolka\dictionaries\1.2 Словарь Ё.BXD" -d "b:\Balabolka\dictionaries\1.3 chisla.BXD" -d "b:\Balabolka\dictionaries\1.4 vse-vsyo.BXD" -d "b:\Balabolka\dictionaries\1.5 RGV.BXD" -d "b:\Balabolka\dictionaries\sample.BXD" -d "b:\Balabolka\dictionaries\YandexTTS.DIC"
-rs
Запустил утилиту и она подхватила? (если б подхватила не писал :suspect: бы..

Аватара пользователя
balaamster
Обыватель

Утилита для извлечения текста из файлов (blb2txt.exe)

#13

Сообщение balaamster » 16 окт 2018 21:11

balabolka,
Возможно ли в утилите сделать замену unicode-символов, отсутствующих в ansi, на какой нибудь другой, вместо знака вопроса?

Например, мне попадались книги, где в начале строки идёт "– " (\u2013\u2002). В тексте получаем "–?"
Символ ударения \u0301 тоже превращает слово в "бо?льшая".
В качестве варианта, для привередливых, как я, можно словарь/таблицу замен применять.
Например, несколько раз в книгах попадались α, β, γ. По таблице можно заменять на alpha, beta, gamma.

Если реализация такой замены сильно трудоёмкая, то, наверное, не стоит её внедрять. Можно и в unicode отдельные тексты извлекать.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#14

Сообщение balabolka » 16 окт 2018 23:32

balaamster
Сейчас в стандарте Юникод более 136 тысяч символов. Не думаю, что можно добавить названия даже для малой части этого диапазона.
Можно сохранить текст в кодировке Юникод и использовать собственный список замен в виде словаря DIC (только для греческих букв, например):

Код: Выделить всё

*α*= альфа 
*β*= бета 
*γ*= гамма 

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#15

Сообщение balabolka » 16 окт 2018 23:40

wasyaka писал(а):
16 окт 2018 19:56
Словари используются впорядке написания?
Да, решил сделать так. Правила загружаются из словарей в том порядке, в котором имена файлов перечислены в командной строке.

Два важных замечания:
  • Общий список правил из словарей DIC сортируется так же, как в "Балаболке".
  • Сначала применяются правила из словарей BXD, затем правила из словарей REX, затем DIC.
И еще: сначала загружаются параметры из файла конфигурации, затем из командной строки. Поэтому значение параметра из командной строки может "переписать" значение этого параметра из файла конфигурации.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#16

Сообщение balabolka » 17 окт 2018 14:37

wasyaka
В файле конфигурации каждый словарь надо указывать в отдельной строке.

Код: Выделить всё

-d b:\Balabolka\dictionaries\1.0 corector.BXD
-d b:\Balabolka\dictionaries\1.1 corector омо.BXD
-d b:\Balabolka\dictionaries\1.2 Словарь Ё.BXD
-d b:\Balabolka\dictionaries\1.3 chisla.BXD
-d b:\Balabolka\dictionaries\1.4 vse-vsyo.BXD
-d b:\Balabolka\dictionaries\1.5 RGV.BXD
-d b:\Balabolka\dictionaries\sample.BXD
-d b:\Balabolka\dictionaries\YandexTTS.DIC
Идея была такая: "одна строка - один параметр". И, соответственно, нет необходимости указывать имя файла в кавычках (в строке всё, что располагается после параметра, будет трактоваться как имя файла).

Аватара пользователя
wasyaka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#17

Сообщение wasyaka » 20 окт 2018 19:55

balabolka писал(а):
17 окт 2018 14:37
Идея была такая: "одна строка - один параметр"
Так и не понял, как запустить файл конфигурации - мне проще скопировал - вставил, тем более обработка пакетом.
Команду \*.* дополнить во вложенных папках - возможно?

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#18

Сообщение balabolka » 20 окт 2018 21:07

wasyaka писал(а):
20 окт 2018 19:55
Так и не понял, как запустить файл конфигурации
?! Не надо ничего "запускать". Надо создать текстовый файл с именем blb2txt.cfg в той же папке, что и утилита, открыть файл в "Блокноте" и указать по одному параметру (и, если нужно, значению параметра) на каждой строке. Сохраните текстовый файл, и после этого можно запускать утилиту двойным щелчком мыши на имени файла blb2txt.exe. При запуске программа сама ищет файл конфигурации и считывает из него данные.
wasyaka писал(а):
20 окт 2018 19:55
Команду \*.* дополнить во вложенных папках - возможно?
Вряд ли реализую такую возможность. Сразу возникают неясности: файлы с извлеченным текстом "складывать" также в подкаталоги? если надо объединить текст в один файл, в каком порядке осуществлять "склеивание" текста? и т.д.

То, что Вам нужно, можно реализовать с помощью файла *.BAT. Создайте текстовый файл subfolder.bat примерно с таким содержанием:

Код: Выделить всё

for /d /r "e:\books" %%i in (*) do blb2txt -f "%%i\*.epub" -v "e:\text"
Командный скрипт найдет все подкаталоги для папки E:\BOOKS и для каждого из них запустит утилиту с именем подкаталога в качестве параметра командной строки. Все файлы с извлеченным текстом окажутся в папке. E:\TEXT. Если нужно найти электронные книги в самой папке E:\BOOKS, надо добавить еще один вызов утилиты с параметром -f e:\books\*.epub (наверное, можно всё реализовать и одной командой в файле BAT, но я уже подзабыл синтаксис команд; надо читать документацию).

Команда FOR в BAT файле (описание и примеры использования) :reader:

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#19

Сообщение balabolka » 21 окт 2018 19:41

Версия 1.68
  • Добавлен параметр -g <имя_папки> для извлечения графических файлов из документов.

Аватара пользователя
Lecron
Обыватель

Утилита для извлечения текста из файлов (blb2txt.exe)

#20

Сообщение Lecron » 22 окт 2018 11:00

balabolka писал(а):
21 окт 2018 19:41
Добавлен параметр -g <имя_папки> для извлечения графических файлов из документов.
Начало положено. Спасибо.
Можно ли сделать так, чтобы программа только извлекала графику, но не преобразовывала текст? Это все-таки разные задачи и далеко не всегда нужны в паре.
Что можно сделать с именованием? Даже если в книге только одна картинка, обложка, ее название может быть любым. Есть бестпрактик, но её придерживаются не все создатели книг. И чтобы была возможность что-то дальше делать с картинкой, в скрипте, командном файле или через конвейер, нужно получить его/их название/я. Желательно в stdout.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#21

Сообщение balabolka » 22 окт 2018 13:06

Lecron
Утилита blb2txt предназначена для извлечения текста, это останется ее основной функцией. У меня нет пока планов оформлять извлечение картинок как отдельную утилиту, а именно это надо сделать для реализации большей части тех функций, что Вы описали. Буду думать на эту тему.

Аватара пользователя
Lecron
Обыватель

Утилита для извлечения текста из файлов (blb2txt.exe)

#22

Сообщение Lecron » 22 окт 2018 15:08

balabolka, Думайте. Будем ждать. Единственное, предложу отталкиваться от задачи.
Как понимаю, этот режим сделан в первую очередь для красоты прослушивания озвученных книг, в специализированных программах. Т.е. не для извлечения всей графики из файла, а для получения обложек. Которые нужно положить в папку с озвученными файлами.
Многие из этих программ не настраиваются и принимают в роли обложки, очень ограниченный набор имен файлов. Кстати, даже foobar2000, который когда-то настраивал на максимальную всеядность обложек, подхватить "[bookname] cover.jpg" не смог.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#23

Сообщение balabolka » 22 окт 2018 16:49

Lecron писал(а):
22 окт 2018 15:08
Как понимаю, этот режим сделан в первую очередь для красоты прослушивания озвученных книг
Нет, эта функция была добавлена для извлечения всех иллюстраций из книги; последующее использование картинок не обязательно должно быть связано с созданием звуковых файлов. Если среди графических файлов есть обложка - хорошо, но специально программа ее не ищет.

Насколько я помню, информация о файле-обложке хранится в метаданных только для форматов EPUB и FB2 (причем, EPUB 2.0 и 3.0 хранят ее по-разному). Можно искать эту информацию в файлах и извлекать только обложку. Пока не уверен, необходима такая функция в моей программе или нет: графический файл обложки часто нуждается в дополнительной обработке (изменение размеров, изменение формата); проще извлечь все картинки и дать пользователю возможность самому выбрать нужную для последующего использования. (Есть электронные книги, где картинка-обложка внутри файла есть, а в метаданных она не указана - из-за забывчивости создателя книги или по незнанию; бывает и такое.)

Не готов сейчас серьезно заниматься графическими файлами, но спасибо Вам за интересные идеи и замечания.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#24

Сообщение balabolka » 24 окт 2018 02:33

Насчет того, что "обложки" есть только в файлах EPUB и FB2, я ошибся; засомневался в этом сразу же, как написал. Информация об обложке есть еще в метаданных форматов AZW, AZW3, LIT, MOBI и PRC.

Также, можно еще первую страницу файла формата PDF считать своего рода "обложкой": страницу целиком можно сохранить как графический файл. (Хотя, встречал файлы PDF, в которых фото обложки бумажной книги было графическим объектом на первой странице электронной книги; бывает и такое.)

Попробую в следующей версии утилиты добавить новый параметр для извлечения файла-обложки из документов. Имя файла будет всегда одно и то же (cover.jpg, cover.png, например); расширения имени файла могут быть разными.

Аватара пользователя
wasyaka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#25

Сообщение wasyaka » 31 окт 2018 14:24

balabolka писал(а):
17 окт 2018 14:36
Два важных замечания:
Общий список правил из словарей DIC сортируется так же, как в "Балаболке".
Сначала применяются правила из словарей BXD, затем правила из словарей REX, затем DIC.

Код: Выделить всё

-f B:\blb2txt\Обработка\Серия - СМЕРШ - спецназ Сталина\*.* 
-v b:\blb2txt\пром 1\ 
-rs 
-rp 
-ocr 
-ls
-sfs
-in 2
-sn 
-d b:\Balabolka\dictionaries\1.0 corector.BXD 
-d b:\Balabolka\dictionaries\1.1 corector омо.BXD 
-d b:\Balabolka\dictionaries\1.2 Словарь Ё.DIC 
-f b:\blb2txt\пром 1\*.*
-v b:\blb2txt\пром 2\
-d b:\Balabolka\dictionaries\1.3 chisla.BXD 
-d b:\Balabolka\dictionaries\1.4 vse-vsyo.BXD 
-d b:\Balabolka\dictionaries\1.5 RGV.BXD 
-d b:\Balabolka\dictionaries\1.6 sample.BXD
-d b:\Balabolka\dictionaries\1.7 YandexTTS.DIC
-f b:\blb2txt\пром 2\*.*
-v B:\blb2txt\Готовые\Серия - СМЕРШ - спецназ Сталина\
-d b:\Balabolka\dictionaries\1.8 Yandex ОМО авто.BXD
-d b:\Balabolka\dictionaries\1.9 Yandex абривиатура.DIC
-d b:\Balabolka\dictionaries\2.0 Yandex слова.DIC 
-rs
При таком раскладе с промежуточными папками (в них ничего не отображается) можно сделать любую последовательность словарей...
Возникли вопросы:
1.по какому принципу последовательность обработки файлов в папке?
2018-10-31_022342.jpg
2018-10-31_022342.jpg (35.08 КБ) 3324 просмотра
Спасибо за рекомендации и индикатор времени в BXD. Время обработки наглядно на картинке :thank:
2.В процессе обработки - изменения содержания словарей, для ещё не обработаных файлов - сработает?
3.И есть ли возможность добавить команду выключить комп по окончанию обработок?

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#26

Сообщение balabolka » 31 окт 2018 15:35

wasyaka писал(а):
31 окт 2018 14:24
1.по какому принципу последовательность обработки файлов в папке?
Простой вопрос, казалось бы: я был уверен, что программа находит файлы в папке всегда в алфавитном порядке. Оказалось, что нет, и теперь самому странно, откуда взялась моя уверенность.

На сайте Microsoft в описании функций FindFirstFile/FindNextFile сказано: "The order in which the search returns the files, such as alphabetical order, is not guaranteed, and is dependent on the file system."
Если файловая система NTFS, файлы будут найдены в папке в алфавитном порядке. В FAT32 ситуация другая: файлы на диске размещаются по порядку, как они были созданы, но если какой-либо файл удалить, появится "дырка" в таблице размещения файлов, и новый файл будет записан вместо удаленного. Порядок следования файлов в FAT32 станет произвольным.

Попробую в следующей версии сортировать имена файлов, найденных в папке. Спасибо за сообщение.
wasyaka писал(а): 2.В процессе обработки - изменения содержания словарей, для ещё не обработаных файлов - сработает?
Нет, словари загружаются один раз при запуске программы.
wasyaka писал(а): 3.И есть ли возможность добавить команду выключить комп по окончанию обработок?
Создайте файл с расширением *.BAT. Первая строка файла - вызов утилиты blb2txt.exe, вторая строка будет выглядеть так:

Код: Выделить всё

shutdown /s

Аватара пользователя
Lecron
Обыватель

Утилита для извлечения текста из файлов (blb2txt.exe)

#27

Сообщение Lecron » 31 окт 2018 18:17

balabolka писал(а):
31 окт 2018 15:35
Создайте файл с расширением *.BAT. Первая строка файла - вызов утилиты blb2txt.exe, вторая строка будет выглядеть так:
shutdown /s
Можно и без bat/cmd файлов. В командной строке можно объединять команды символом "&"

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#28

Сообщение balabolka » 02 ноя 2018 21:09

Версия 1.69
  • Добавлено извлечение текста из файлов формата FB3.
  • Добавлен параметр -cvr <имя_папки> для извлечения обложки книги.
  • Обновлено извлечение текста из файлов формата FB2.
  • Параметр --skip-fb2-summary (-sfs) переименован в --skip-summary (-ss).

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#29

Сообщение balabolka » 10 ноя 2018 20:13

Версия 1.70
  • Страницы извлекаются из документа формата DjVu как графические файлы формата TIFF.

Аватара пользователя
Lecron
Обыватель

Утилита для извлечения текста из файлов (blb2txt.exe)

#30

Сообщение Lecron » 12 ноя 2018 10:07

balabolka писал(а):
10 ноя 2018 20:13
как графические файлы формата TIFF.
Может лучше PNG? Он тоже без потерь. Для текста, пусть даже с иллюстрациями, тифф избыточен.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#31

Сообщение balabolka » 12 ноя 2018 13:51

Lecron
Да, сложно было выбрать. Сравнивал извлеченные изображения в форматах TIFF и PNG, цветные иллюстрации в TIFF выглядят чуть лучше (на мой взгляд). Решил пренебречь разницей в размерах получающихся файлов в пользу качества. Но Вы правы, выбор формата неоднозначный.

Аватара пользователя
Lecron
Обыватель

Утилита для извлечения текста из файлов (blb2txt.exe)

#32

Сообщение Lecron » 12 ноя 2018 18:31

balabolka, Не понял. Оба формата сжимают без потерь. Что означает алгоритмически равное качество.
Сохраните в bat-ник, измените путь к файл ffmpeg, запустите с любой картинкой в качестве параметра.

Код: Выделить всё

set ffmpeg=D:\Program\_Media\_Codecs\ffmpeg_x64\bin\ffmpeg.exe

%ffmpeg% -i %1 %1.bmp

%ffmpeg% -i %1.bmp %1.tiff
%ffmpeg% -i %1.bmp %1.png

%ffmpeg% -i %1.tiff %1.tiff.bmp
%ffmpeg% -i %1.png %1.png.bmp

fc /b %1.bmp %1.png.bmp
fc /b %1.tiff.bmp %1.png.bmp
D:\Var\Temp\test>fc /b 0156.jpg.bmp 0156.jpg.png.bmp
Сравнение файлов 0156.jpg.bmp и 0156.JPG.PNG.BMP
FC: различия не найдены

D:\Var\Temp\test>fc /b 0156.jpg.tiff.bmp 0156.jpg.png.bmp
Сравнение файлов 0156.jpg.tiff.bmp и 0156.JPG.PNG.BMP
FC: различия не найдены
3 файла – оригинал и два результирующих побитово одинаковы.


Отправлено спустя 20 минут 10 секунд:
Проверил также размеры
полноцветное фото 1440/1080, выгода 10% (4600к TIFF/4139к PNG), что впрочем тоже немало
скриншот экрана FullHD, выгода 93% !!! (7028к TIFF/506к PNG).
Так что смысл есть.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#33

Сообщение balabolka » 12 ноя 2018 20:15

Lecron
Хорошо, можно использовать формат PNG.

Аватара пользователя
wasyaka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#34

Сообщение wasyaka » 15 ноя 2018 10:45

Код: Выделить всё

-f b:\blb2txt\первичка 1\Сборник\*.*
-v b:\blb2txt\пром 1\
-rs
-rp
-ocr
-ls
-sfs
-sn
-in 2
-d b:\Balabolka\dictionaries\1.0 corector.bxd
-d b:\Balabolka\dictionaries\1.1 corector омо.bxd
-d b:\Balabolka\dictionaries\1.1.1 corector омо.dic
-d b:\Balabolka\dictionaries\1.2 Словарь Ё.dic
-rs
После
► Показать
Тоже, но в Balabolka порт.:
► Показать
не удаляет антонацию,
не..на одну пустую строку,
не срабатывает словарь 1.1.1 corector омо.dic (замена Заглавной в омографах на прописную )
1.0 corector.bxd; 1.1 corector омо.bxd (Был цельный... срабатывала только верхняя часть в рэгах - В Balabolka срабатывает цельный)
1.2 Словарь Ё.dic срабатывают...
dictionaries.rar
(1.47 МБ) 32 скачивания
Что у меня не так?

Аватара пользователя
balaamster
Обыватель

Утилита для извлечения текста из файлов (blb2txt.exe)

#35

Сообщение balaamster » 15 ноя 2018 14:58

wasyaka писал(а):
15 ноя 2018 10:45
не удаляет антонацию,
В версии 1.70 -sfs заменён на -ss
wasyaka писал(а):
15 ноя 2018 10:45
не срабатывает словарь 1.1.1 corector омо.dic (замена Заглавной в омографах на прописную )
Проверил у себя - аналогично, в Балаболке срабатывают, в blb2txt нет.

wasyaka, тоже на ram-диске программу держите? (b:\blb2txt\)
Мне конфиг почти не пришлось править для тестов :)


Отправлено спустя 17 минут 56 секунд:
upd.
Понял причину "несрабатывания" - происходит сохранение первой заглавной буквы в применённом правиле. Как в Балаболке, при включённой опции "Общие настройки - Правила - Сохранять заглавную букву при использовании правил"
Для теста добавил в словарь:
$Раздались=раздались__
Получил:
Раздались__ отдельные смешки,

Аватара пользователя
wasyaka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#36

Сообщение wasyaka » 15 ноя 2018 17:00

balaamster писал(а):
15 ноя 2018 15:16
тоже на ram-диске программу держите?
Спс. Да, из за того что через день доступен комп


Отправлено спустя 13 часов 48 минут 4 секунды:
Сталкивался с подобным в Play_5. там в словаре ZAM - регистрозависимых срабатывало около 1500 штук. далее ни-ни.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#37

Сообщение balabolka » 17 ноя 2018 20:35

Версия 1.71
  • Добавлен параметр -rpn для удаления номеров страниц.
  • Страницы извлекаются из документа формата DjVu как графические файлы формата PNG.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#38

Сообщение balabolka » 08 дек 2018 23:46

Версия 1.72
  • Добавлен параметр --remove-comments (-rc) для удаления комментариев (однострочных и многострочных).

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#39

Сообщение balabolka » 22 дек 2018 00:20

Версия 1.73
  • Добавлен параметр --remove-round-brackets (-rrb) для удаления текста внутри круглых скобок.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#40

Сообщение balabolka » 26 дек 2018 23:34

Версия 1.74
  • Добавлен параметр -hh текст для вставки текста перед заголовками (например: ## Глава 1).
  • Исправлены мелкие ошибки.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#41

Сообщение balabolka » 02 фев 2019 22:11

Версия 1.75
  • Добавлено извлечение текста из файлов формата PPTX.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#42

Сообщение balabolka » 09 фев 2019 23:09

Версия 1.76
  • Добавлено извлечение текста из файлов форматов ODP и PPT.

Аватара пользователя
wasyaka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#43

Сообщение wasyaka » 14 фев 2019 19:45

Команды входящие в группу форматирования имеют приоритет ?
А в очередь поставить?

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#44

Сообщение balabolka » 14 фев 2019 21:45

wasyaka писал(а):
14 фев 2019 19:45
Команды входящие в группу форматирования имеют приоритет ?
А в очередь поставить?
Порядок выполнения операций неизменен:
  1. --remove-page-numbers
  2. --fix-letter-spacing
  3. --remove-square-brackets
  4. --remove-curly-brackets
  5. --remove-angle-brackets
  6. --remove-round-brackets
  7. --remove-comments
  8. --remove-spaces
  9. --remove-hyphens
  10. --remove-linebreaks
  11. --remove-empty-lines
  12. --replace-empty-lines
  13. --fix-ocr-errors
Насчет того, чтобы использовать произвольный порядок, не думал. А что, в этом есть необходимость? (Как мне кажется, разница в конечном тексте будет минимальной: идеального варианта для порядка выполнения операций всё равно нет.)

Аватара пользователя
wasyaka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#45

Сообщение wasyaka » 14 фев 2019 22:52

balabolka писал(а):
14 фев 2019 21:45
А что, в этом есть необходимость?
Пример
Фраза в самом начале
После словаря в регаг в сАмом начале(два пробела)
соответственно следующий имеющий строку
в самом начале=в сАмом начАле
не сработает...
лечил
(\w+)\s{1,4}(\w+)=$1 $2
(\n\n)(\n+)=$1
И после, если файл добивать в Homograph, отпала необходимость опции отделить абзац пустой строкой
После словаря chisla изредка остаются следы в виде
восемнадцать<tg1>
Вылечил
(\w+)\<(\w+)\>=$1
Но ... не факт что такое лечение где то не навредит...

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#46

Сообщение balabolka » 15 фев 2019 13:25

Не совсем понял, о чем именно идет речь.

Сложные преобразования текста лучше осуществлять при помощи регулярных выражений. В утилите словари применяются в том порядке, в котором они перечислены в командной строке. Сначала применяются заданные опции для форматирования текста, затем - правила из словарей.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#47

Сообщение balabolka » 23 фев 2019 21:59

Версия 1.77
  • Добавлена настройка --add-period (-ap): добавить точку, если вслед за последним словом абзаца нет знака препинания.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#48

Сообщение balabolka » 10 мар 2019 23:28

Версия 1.78
  • При разбиении текста заданное число обозначает не количество килобайтов, а количество символов (включая пробелы, знаки препинания, символы перевода строки и возврата каретки).
  • Добавлен параметр для минимального размера части текста при разбиении.
  • Параметр -m переименован в -j.

Аватара пользователя
balabolka
V.I.P.

Утилита для извлечения текста из файлов (blb2txt.exe)

#49

Сообщение balabolka » 22 мар 2019 22:29

Версия 1.79
  • Обновлено извлечение текста из файлов форматов DOCX, CHM, EPUB, HTML, ODP, ODT и PPTX.
  • Исправлено извлечение текста из файлов формата CHM.

Ответить

Вернуться в «Балаболка»