Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Офис довольно давно умеет распознавать текст. Используя бесплатную OneNote, получить текст из PDF можно в 2 клика:
Аналогично можно распознавать и другие форматы, например DJVU, открыв документ в соответствующем приложении и отправив на печать на виртуальный принтер OneNote.
pdfimages.exe -j some_file.pdf C:\images\
Получилась кучка текстовых файлов, которые осталось объединить в один. Это можно сделать ручками. Но проще было написать скриптик на python'е
sCmd = '"C:/Program Files (x86)/Tesseract-OCR/tesseract.exe" {} {} -l rus'
3) И насчёт with — в принципе согласен. С файлами лучше использовать его. Даже в коде на скорую руку. По крайней мере потому, что вызов close тогда не нужен. Имеется ввиду такой код:with open(sFileOut, "ab") as fOut:
временного прерывания, промежуточного сохранения и повторного запуска
процесса моделирования из приостановленного состояния, задания различных
начальных условий, ввода отказов бортовых систем, метеоусловий, времени
суток, различных возмущающих факторов (ветер, турбулентность и др.);
Как pdf (изображения) преобразовать в текстовый txt-файл