All streams
Search
Write a publication
Pull to refresh

Comments 8

Удивительно, у нас одинаковая фамилия и я тоже пишу на python. Кажется, что это судьба

Ужас. Срочно обязать всегда хранить текстовый слой. Всех. Поголовно.

С формулами которые в pdf в виде картинок?

Формулы тоже должны иметь текстовый слой. Другое дело, что PDF нужен для печати. А не для хранения как такового. Сама по себе задача, вроде "оцифровки" PDF, выглядит вызывающей для мира информационных технологий.

Ну вобще то pdf это portable, то есть он нужее для одинакового отображееия на разеых устпойствах, в частности на ппинтерах.в осеовном испооьзуется именно для хранения.

fitz это сильно устаревшее название библиотеки, но его всегда упорно советует ИИ, который видимо и является автором вашего кода. И эта библиотека имеет встроенную поддержку OCR, основанную на Tesseract.

Спасибо, fitz - это модуль pymupdf, оставшийся для совместимости. импортировать можно как его, так и pymupdf. Для ocr мы используем easy ocr

А сравнение с Tesseract делали? Кто лучше с русским текстом работает?

Sign up to leave a comment.

Articles