Обновить
7
35
Андрей@aak204

Пользователь

Отправить сообщение

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели16K

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.

Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

Читать далее

Информация

В рейтинге
221-й
Зарегистрирован
Активность

Специализация

ML разработчик
Средний
Git
SQL
PostgreSQL
Docker
Python
ООП
Английский язык
C++
Visual Studio