Pull to refresh
7
0
Андрей@aak204

User

Send message

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Level of difficultyMedium
Reading time6 min
Reach and readers17K

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.

Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

Читать далее

Information

Rating
Does not participate
Registered
Activity

Specialization

ML разработчик
Средний
Git
SQL
PostgreSQL
Docker
Python
ООП
Английский язык
C++
Visual Studio