语音合成技术和文本语音转换 - Synthetic voice and Text to Speech technology - Синтетический голос и технологии преобразования текста в речь
 
TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  

Утилита для извлечения текста из файлов

Предыдущая тема Следующая тема Перейти вниз
На страницу : 1, 2  Следующий
АвторСообщениеУтилита для извлечения текста из файлов
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Мар 03 2013, 19:08
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Мар 03 2013, 19:08

Программа позволяет извлекать текст из файлов различных форматов. Извлеченный текст может быть объединен в один файл и/или разбит на несколько файлов. К тексту могут быть применены правила из словарей коррекции произношения программы "Балаболка". Поддерживаемые форматы файлов: AZW, AZW3, CHM, DOC, DOCX, EPUB, FB2, HTML, MHT, MOBI, ODT, PRC, RTF, TXT.

Утилита не имеет графического интерфейса и выполняется в текстовом режиме. Режим работы программы может быть задан при помощи параметров командной строки или файла конфигурации.

Программа выполняет операции в следующем порядке:
  1. Извлечь текст из файла.
  2. Форматировать текст (если заданы соответствующие параметры).
  3. Объединить текст в один файл (если задан соответствующий параметр).
  4. Разбить текст на части (если заданы соответствующие параметры).
  5. Применить правила коррекции произношения (если заданы соответствующие параметры).
  6. Сохранить файл или файлы на диске.


Командная строка

Программа может быть настроена с помощью параметров командной строки. Они отделяются друг от друга пробелом и начинаются с символа "-" (дефис). Полный список параметров командной строки можно получить, введя команду balabolka_text.exe с параметрами -? или -h.

-f имя_файла
Имя файла или маска для имен файлов, из которых требуется извлечь текст. Командная строка может содержать несколько параметров -f.

-v имя_папки
Имя папки для сохранения файла с извлеченным текстом.

-p имя_файла
Шаблон для имени файла с извлеченным текстом (например, "Текстовый документ"). Если параметр не задан, используется имя исходного файла.

-i
Читать текст из стандартного потока ввода (STDIN). Если параметр задан, параметр -f игнорируется.

-o
Записать текст в стандартный поток вывода (STDOUT). Если параметр задан, параметры -v и -p игнорируются.

-u
Объединить текст из нескольких файлов в один файл.

-b
Добавить порядковый номер перед именем файла.

-a
Добавить порядковый номер после имени файла.

-n число
Установить стартовый порядковый номер файла. По умолчанию значение равно 1.

-e кодировка
Кодировка файла с извлеченным текстом ("ansi", "utf8" or "unicode"). По умолчанию значение равно "ansi".

-t число
Задать способ разбиения текста: использование заданного размера файла. Число обозначает количество килобайт.

-k ключевое_слово
Задать способ разбиения текста: поиск ключевого слова в исходном файле. Параметр является регистрозависимым. Командная строка может содержать несколько параметров -k.

-r ключевое_слово
Поделить текст на ключевом слове и удалить его из текста. Параметр является регистрозависимым. Командная строка может содержать несколько параметров -r.

-w
Задать способ разбиения текста: поиск двух пустых строк подряд.

-l
Задать способ разбиения текста: поиск строки, где все буквы заглавные.

-d имя_файла
Использовать словарь для коррекции произношения (файл с расширением *.REX или *.DIC). Командная строка может содержать несколько параметров -d.

-? или -h
Показать описание параметров командной строки.

--remove-spaces
Удалить лишние пробелы (два и более пробела подряд, неразрывные пробелы).

--remove-hyphens
Удалить знаки переноса на концах строк в тексте.

--remove-linebreaks
Удалить разрывы строк внутри абзацев.

--remove-empty-lines
Удалить все пустые строки.

--replace-empty-lines
Заменить несколько пустых строк одной пустой строкой.

--remove-square-brackets
Удалить текст внутри [квадратных скобок].

--remove-curly-brackets
Удалить текст внутри {фигурных скобок}.

--remove-angle-brackets
Удалить текст внутри <угловых скобок>.

--fix-ocr-errors
Исправить ошибки, возникшие при распознавании текста (только для языков с кириллическими алфавитами).


Примеры команд запуска утилиты для извлечения текста:

balabolka_text.exe -f "d:\Docs\book.doc" -v "d:\Text\" -p "Новая книга"

balabolka_text.exe -f "d:\Docs\*.doc" -f "d:\Docs\*.rtf" -v "d:\Text\" -e "utf8" --replace-empty-lines

balabolka_text.exe -f "d:\Docs\*.*" -v "d:\Text\" -p "Документ" -u

balabolka_text.exe -f "d:\Docs\1.doc" -v "d:\Text\" -p "Документ" -a -n 20 -t 100

balabolka_text.exe -f "d:\Book\book.fb2" -v "d:\Text\" -p "Книга" -k "ГЛАВА" -k "ОГЛАВЛЕНИЕ"

balabolka_text.exe -f "d:\Book\book.epub" -v "d:\Text\" -p "Книга" -r "###"

balabolka_text.exe -i -o --remove-spaces --remove-linebreaks --replace-empty-lines


Файл конфигурации

Параметры можно сохранить как файл конфигурации balabolka_text.cfg в той же папке, что и консольное приложение.

Пример содержимого файла:
Код:
-f d:\Docs\*.rtf
-f d:\Books\*.epub
-f d:\Books\*.fb2
-v d:\Text
-b
-n 1
-t 25
-e utf8
-d d:\rex\rules.rex
-d d:\dic\rules.dic
--remove-spaces
--remove-linebreaks
--replace-empty-lines
Программа может комбинировать параметры из файла конфигурации и командной строки.

Веб-страница: http://www.cross-plus-a.ru/btext.html

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Мар 31 2013, 18:13
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Мар 31 2013, 18:13

Вышла версия 1.01.
Исправлены мелкие ошибки.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Апр 14 2013, 17:58
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Апр 14 2013, 17:58

Вышла версия 1.02.
Обновилась библиотека DELZIP190.DLL.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вт Апр 16 2013, 20:38
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вт Апр 16 2013, 20:38

Вышла версия 1.03.
Добавлено извлечение текста из файлов формата PDF.

-pwd текст
Задать пароль для извлечения текста из файла формата PDF.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Сб Авг 03 2013, 14:03
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Авг 03 2013, 14:03

Вышла версия 1.05.
Исправлено извлечение текста из файлов форматов EPUB и PDF.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Ср Авг 14 2013, 16:11
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Ср Авг 14 2013, 16:11

Вышла версия 1.06.
Обновлен способ извлечения текста из файлов формата PDF.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Авг 18 2013, 16:52
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Авг 18 2013, 16:52

Вышла версия 1.07.
Исправлена поддержка кодировки текста для STDOUT.

Библиотека DELZIP190.DLL не используется.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Дек 01 2013, 17:16
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Дек 01 2013, 17:16

Вышла версия 1.08.
Улучшено извлечение текста из файлов формата DOCX и ODT.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Янв 19 2014, 17:15
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Янв 19 2014, 17:15

Вышла версия 1.09.
Небольшие улучшения.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Янв 26 2014, 20:52
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Янв 26 2014, 20:52

Версия 1.10.
Исправлено извлечение текста из файлов формата EPUB.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Чт Апр 24 2014, 02:43
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Чт Апр 24 2014, 02:43

Версия 1.11.
Небольшие улучшения.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Май 18 2014, 18:59
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Май 18 2014, 18:59

Версия 1.12.
Исправлены мелкие ошибки.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Май 25 2014, 00:46
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Май 25 2014, 00:46

Версия 1.13.
Исправлено извлечение текста из файлов формата FB2.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Сб Авг 30 2014, 23:37
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Авг 30 2014, 23:37

Версия 1.14.
Небольшие улучшения.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Сб Сен 27 2014, 17:34
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Сен 27 2014, 17:34

Версия 1.15.
Исправлено извлечение текста из файлов формата CHM.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Сб Окт 11 2014, 17:01
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Окт 11 2014, 17:01

Версия 1.16.
Небольшие улучшения.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Апр 12 2015, 23:47
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Апр 12 2015, 23:47

Версия 1.17.
Добавлено удаление мягких переносов в форматирование текста.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Июн 07 2015, 19:42
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Июн 07 2015, 19:42

Версия 1.18
Обновлено применение правил из словарей формата REX.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Пн Июл 20 2015, 21:14
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Пн Июл 20 2015, 21:14

Версия 1.19
Обновлен метод деления текста на части: если задан размер частей текста, это значение будет использовано как верхний предел, а не как целевое значение. Текст будет поделен на части одинакового размера.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Чт Авг 06 2015, 16:42
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Чт Авг 06 2015, 16:42

Версия 1.20
Исправлено извлечение текста из файлов формата EPUB.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Янв 03 2016, 15:18
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Янв 03 2016, 15:18

Версия 1.22
Исправлено извлечение текста из файлов формата HTML.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Сб Апр 23 2016, 18:09
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Апр 23 2016, 18:09

Версия 1.24
Исправлена запись текста в STDOUT.

Вернуться к началу Перейти вниз
Dimsok
Участник


Сообщений : 55
Репутация : 1

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 Dimsok :: Вс Апр 24 2016, 18:22
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Апр 24 2016, 18:22

А stdin работает корректно?

Вот эта кнопка для тотал коммандер к примеру срабатывает, читает текст из архивов

Код:

TOTALCMD#BAR#DATA
%ComSpec% /c for /f "delims=" %# in
('type %WF') do "c:\Program Files\7-Zip\7z.exe" e "%%#" -so| "%%COMMANDER_PATH%%\Plugins\exe\balabolka\balabolka_cp.exe" -i -n Alyona -q -tray -d "c:\Program Files\Total Commander\Plugins\exe\balabolka\dicts\bi_Eng_Rachel.rex"
%COMMANDER_PATH%\Plugins\exe\balabolka\balabolka_cp.exe
Read text aloud from archives (query) (ru+eng)

1
-1


А вот эта уже нет, вместо запакованных книг почему-то все время читает пособие по руководству:

Код:

TOTALCMD#BAR#DATA
%ComSpec% /c for /f "delims=" %# in
('type %WF') do "c:\Program Files\7-Zip\7z.exe" e "%%#" -so| "%%COMMANDER_PATH%%\Plugins\exe\balabolka\Text extract\balabolka_text" -i -o | "%%COMMANDER_PATH%%\Plugins\exe\balabolka\balabolka_cp.exe" -i -n Alyona -q -tray -d "c:\Program Files\Total Commander\Plugins\exe\balabolka\dicts\bi_Eng_Rachel.rex"
%COMMANDER_PATH%\Plugins\exe\balabolka\balabolka_cp.exe
Read ebooks aloud from archives (query) (ru+eng)

1
-1


Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Апр 24 2016, 22:04
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Апр 24 2016, 22:04

Версия 1.25
Исправлено чтение текста из STDIN.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Апр 24 2016, 22:33
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Апр 24 2016, 22:33

Dimsok
Чтение текста из стандартного потока я вообще не тестировал, моя вина; спасибо за сообщение об ошибке. Выложил исправленную версию на сервер. Заодно, к сожалению, пришлось отказаться от компрессии исполняемых файлов - по какой-то непонятной причине программа в сжатом виде работает неправильно, если запускать ее как конвейер в командной строке.

Однако, результат всё равно может Вас разочаровать: Ваша командная строка должна извлекать из архивов файлы форматов FB2, DOC, PDF и т.д. и пересылать их в STDOUT, а моя утилита ожидает, что STDIN будет содержать только лишь обычный текст. Программа не может распознать, что STDIN содержит электронный документ, и в моих планах нет добавления такой возможности. Это будет уж слишком хитроумно. Проще, все-таки, читать файлы с диска, определяя формат по расширению имени файла.

Вам придется изменить текст команды и распаковывать файлы на диск, прежде чем извлекать из них текст. Мне жаль, но сейчас это единственный способ.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Ср Апр 27 2016, 01:38
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Ср Апр 27 2016, 01:38

Версия 1.26
Исправлено чтение данных из STDIN.

При чтении из STDIN формат файла автоматически определяется по содержимому потока данных.

Вернуться к началу Перейти вниз
Dimsok
Участник


Сообщений : 55
Репутация : 1

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 Dimsok :: Ср Апр 27 2016, 09:20
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Ср Апр 27 2016, 09:20

Цитата :
Исправлено чтение данных из STDIN
Вот спасибо, попозже потестирую

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Сб Май 28 2016, 15:50
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Май 28 2016, 15:50

Версия 1.27
Небольшие улучшения.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Сб Июл 02 2016, 20:28
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Июл 02 2016, 20:28

Версия 1.28
Добавлена возможность использования переменной %FirstLine% в шаблоне для имени файла (параметр -p). При делении документа на части переменная будет заменяться первой строкой текста из каждой части.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Сб Июл 16 2016, 17:17
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Июл 16 2016, 17:17

Версия 1.29
Исправлено извлечение текста из файлов форматов DOCX и ODT.

Вернуться к началу Перейти вниз
Dimsok
Участник


Сообщений : 55
Репутация : 1

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 Dimsok :: Вс Окт 09 2016, 22:36
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Окт 09 2016, 22:36

Mht, сохранённые из оперы, не переводятся в текст корректно, вместо них закорючки. Пробовал в разных кодировках. Программа японского разработчика "xdoc2txt" переводит корректно. Пример файла:
https://yadi.sk/d/7-YJlE2nwYMjv

Вернуться к началу Перейти вниз
Dimsok
Участник


Сообщений : 55
Репутация : 1

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 Dimsok :: Пн Окт 10 2016, 01:16
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Пн Окт 10 2016, 01:16

При конвертации mht в ansi (без ключа -e), txt получаются в кодировке utf8

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Пн Окт 10 2016, 12:20
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Пн Окт 10 2016, 12:20

Dimsok
Спасибо за сообщение, постараюсь решить проблему в следующей версии.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вт Окт 11 2016, 21:07
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вт Окт 11 2016, 21:07

Версия 1.31
Исправлено извлечение текста из файлов формата MHTML.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Сб Окт 15 2016, 15:54
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Окт 15 2016, 15:54

Версия 1.32
Добавлено извлечение текста из файлов формата Corel WordPerfect (*.WPD).

Утилита переименована в "blb2txt.exe".

Исправлены мелкие ошибки.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Чт Окт 27 2016, 21:52
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Чт Окт 27 2016, 21:52

Версия 1.33
Добавлена поддержка формата PalmDoc eBooks (*.PDB). Поддерживаемые форматы PDB: PalmDOC, Palm Reader/eReader, zTXT.

Добавлена поддержка формата книг Psion/EPOC (*.TCR).

Исправлено извлечение текста из файлов формата AZW3.

Небольшие улучшения.

Вернуться к началу Перейти вниз
Dimsok
Участник


Сообщений : 55
Репутация : 1

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 Dimsok :: Чт Окт 27 2016, 22:14
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Чт Окт 27 2016, 22:14

Отлично, ещё Lit и Djvu добавить, и сравняется с балаболкой по количеству форматов. А там может и до Sony Lrf дело дойдёт.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Сб Ноя 05 2016, 17:12
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Ноя 05 2016, 17:12

Версия 1.34
Добавлено извлечение текста из файлов формата PDB (Plucker).

Вернуться к началу Перейти вниз
Dimsok
Участник


Сообщений : 55
Репутация : 1

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 Dimsok :: Сб Ноя 19 2016, 17:09
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Ноя 19 2016, 17:09

Слияние файлов не выходит. С ключом -u программа сообщает об ошибке

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Ноя 20 2016, 03:18
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Ноя 20 2016, 03:18

Dimsok
Спасибо за сообщение, исправлю в следующей версии.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Сб Ноя 26 2016, 17:19
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Ноя 26 2016, 17:19

Версия 1.35
Добавлена возможность использования интерфейса IFilter для извлечения текста. IFilter будет использован для неизвестных программе форматов файлов.

Исправлены мелкие ошибки.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Сб Янв 21 2017, 16:50
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Янв 21 2017, 16:50

Версия 1.36
Добавлена возможность использования переменной %Number% в шаблоне для имени файла (параметр -p). Используйте переменную, чтобы поменять позицию порядкового номера внутри имени файла.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Сб Янв 28 2017, 17:16
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Янв 28 2017, 17:16

Версия 1.37
Добавлено извлечение текста из файлов формата DjVu.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Фев 05 2017, 15:54
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Фев 05 2017, 15:54

Версия 1.38
Добавлено извлечение текста из файлов формата LIT.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Сб Фев 11 2017, 18:23
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Фев 11 2017, 18:23

Версия 1.39
Добавлена поддержка новых специальных символов для регулярных выражений (\U, \L, \E, \u, \l).

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Сб Фев 18 2017, 22:04
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Фев 18 2017, 22:04

Версия 1.40
Исправлено извлечение текста из файлов, когда количество файлов очень большое.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вт Мар 21 2017, 21:43
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вт Мар 21 2017, 21:43

Версия 1.41
Исправлены мелкие ошибки.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Вс Апр 02 2017, 16:15
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Апр 02 2017, 16:15

Версия 1.42
Исправлено извлечение текста из файлов формата HTML.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Пт Сен 08 2017, 20:26
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Пт Сен 08 2017, 20:26

Версия 1.43
Исправлено извлечение текста из файлов формата EPUB.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
balabolka


Сообщений : 1228
Репутация : 986

Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 balabolka :: Чт Сен 14 2017, 21:31
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Чт Сен 14 2017, 21:31

Версия 1.44
Добавлено извлечение текста из файлов форматов XLS, XLSX, ODS. Текст извлекается в виде CSV; это текстовый формат, предназначенный для представления табличных данных:
  • Каждая строка - это одна строка таблицы.
  • Колонки отделены друг от друга запятыми.
  • Поля, содержащие зарезервированные символы (двойная кавычка, запятая, точка с запятой), обрамляются двойными кавычками.

Новые параметры командной строки:

--csv-comma
Использовать запятую как разделитель значений колонок при извлечении данных из файлов форматов XLS/XLSX/ODS (используется по умолчанию).

--csv-semicolon
Использовать точку с запятой как разделитель значений колонок.

--csv-space
Использовать пробел как разделитель значений колонок.

--csv-tab
Использовать табуляцию как разделитель значений колонок.

--csv-double-quote
Использовать двойные кавычки как ограничитель строк при извлечении данных из файлов форматов XLS/XLSX/ODS (используются по умолчанию).

--csv-single-quote
Использовать одиночные кавычки как ограничитель строк.

Вернуться к началу Перейти вниз
Спонсируемый контент




Утилита для извлечения текста из файлов WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 Спонсируемый контент ::
Утилита для извлечения текста из файлов FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7


Вернуться к началу Перейти вниз

Утилита для извлечения текста из файлов

Предыдущая тема Следующая тема Вернуться к началу
Утилита для извлечения текста из файлов
Страница 1 из 2Страница 1 из 2На страницу : 1, 2  Следующий
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении
Создать форум | © phpBB | Бесплатный форум поддержки | Сообщить о нарушении | Последние обсуждения