Comments 8
Удивительно, у нас одинаковая фамилия и я тоже пишу на python. Кажется, что это судьба
Ужас. Срочно обязать всегда хранить текстовый слой. Всех. Поголовно.
С формулами которые в pdf в виде картинок?
Формулы тоже должны иметь текстовый слой. Другое дело, что PDF нужен для печати. А не для хранения как такового. Сама по себе задача, вроде "оцифровки" PDF, выглядит вызывающей для мира информационных технологий.
fitz это сильно устаревшее название библиотеки, но его всегда упорно советует ИИ, который видимо и является автором вашего кода. И эта библиотека имеет встроенную поддержку OCR, основанную на Tesseract.
Sign up to leave a comment.
Учебник под микроскопом. Часть 1: из PDF в TXT