Статьи / Профиль aak204 / Хабр

@aak204 16 ноя в 06:31

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Средний

6 мин

16K

Искусственный интеллектМашинное обучение * Обработка изображений *

Из песочницы

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.

Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

+35

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Информация

Специализация