aak204 Nov 16 2025 at 06:31

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Medium

6 min

21K

Artificial IntelligenceMachine learning * Image processing *

From sandbox

+35

Comments 40

shadrap Nov 16 2025 at 07:53

Спасибо за обзор ! Насколько я понимаю , Квен может работать на цпу ? Можно ваши тайминги по железу на котором вы запускали модели ? Что есть низкая скорость а что высокая ?

aak204 Nov 16 2025 at 12:51

Сейчас вышла версия GGUF формата для квена, поэтому да, может. Мы запускали всё на ГПУ. У нас серверная машина, 3xA4000, 256 ОЗУ плюс Xeon. Высокая скорость у нас - это меньше секунды на изображение, квенчик сильно дольше, лайтоср из-за этого выигрывает, конечно.

gmtd Nov 16 2025 at 08:06

Где же главный игрок Mistral OCR?

pol_pot Nov 16 2025 at 09:29

В каком месте он главный. Что бы он сел в лужу достаточно просто боком текст повернуть.

gmtd Nov 16 2025 at 09:45

Здесь в комментариях объясняется почему мистраль ocr лучше любой vision llm

https://habr.com/ru/articles/893460/

А здесь пример с метрическими книгами

https://habr.com/ru/articles/895664/

За полгода качество и там и там значительно улучшилось

aak204 Nov 16 2025 at 12:49

Хорошее уточнение ! Обязательно его рассмотрим в будущем)

SimSonic Nov 16 2025 at 16:14

Плюсую, было бы интересно и его увидеть )

Ilya_JOATMON Nov 16 2025 at 08:24

Я не понял, это просто потоковое распознавание с командной строки? В Файнридере можно было корректировать места где распознаватель лажал.

alan008 Nov 16 2025 at 09:39

Это распознавание через инференс моделями искусственного интеллекта ) А уж каким способом/фреймворком его вызывать - дело хозяйское (зависит от вашей ОС, железа, используемой модели (локальная или онлайн) и других параметров).

https://habr.com/ru/articles/948934/

aak204 Nov 16 2025 at 12:56

Верно, это был инференс, все модели были на vLLM развёрнуты)

alexhu Nov 16 2025 at 08:51

Вот мои скорости распознавания текста - текст местами не читаемый на затёртых местах, слабая контрастность и всё остальное мешающее OCR.

Одна страница печаталась за 20 минут в среднем на протяжении 10 часов едедневно и много дней подряд; документация на 45 листов занимала 3 - 3,5 дня. Два дня на напечатать текст, 5 часов на проверку работы, день на сделать чертежи в CAD и отформатировать таблицы; немного перевода в тексте и чертежах не считалось за труд.

Ну это были совершенно не читаемые документы, даже возглавлял небольшую команду по распознаванию этого архива. Модели тогда были не на слуху, а вот OCR перепробовал и в целом перепечатать было легче и быстрее, чем постоянно сравнивать где не распозналось, где неправильно распозналось, где заменило знаки и всё это бесконечно править, Это была техническая документация, ошибки были критично недопустимы.

Rive Nov 16 2025 at 08:55

Если не секрет, использовался ли перекрёстный контроль команды для контроля ошибок ручного распознавания?

alexhu Nov 16 2025 at 09:17

Да, использовался.

sundmoon Nov 16 2025 at 09:02

А подскажите пожалуйста, лучшее на сегодня флоу для распознавания пары тысяч вот таких разворотов (фотографии русских метрических книг 18 века).

Или пока рано о таком задумываться?

gmtd Nov 16 2025 at 09:14

Не рано. Лучшие коммерческие модели типа Gemini pro надо пробовать

Потом, естественно, корректировать, но процентов 80-90 может распознать

А если обучить, то вообще шикарно будет

Roma97 Jan 13 at 09:48

Здравствуйте! А не подскажете как дообучать такие модели для подобных задач? Использовать lora? Я как-то пробовал и у меня наоборот произошло что-то наподобие катастрофического забывания. Не понимаю как дообучать для подобных задач(((

aborouhin Nov 16 2025 at 09:23

Яндекс тут пару лет назад рассказывал, как решал такую задачу. К сожалению, их инструменты для этого, как понимаю, не публичные, но если у Вас какой-то некоммерческий проект - может, постучитесь к ним, помогут.

0mogol0 Nov 16 2025 at 10:13

ну вот тут недавно писали про OCR манускриптов. Правда в комментах авторы упоминали, что в гитхабе вроде лежит старая версия, но наверное можно написать им напрямую и уточнить.

aak204 Nov 16 2025 at 12:53

Я думаю, либо лучшие модели, которые сейчас есть, как, например, Квен 235Б или Gemini. Ну, либо какие-то коммерческие решения.

tmxx Nov 16 2025 at 09:36

так появился Гикабу

dibu28 Nov 16 2025 at 12:39

Пробовал несколько открытых моделей пол года назад, но у всех у них были проблемы с распознаванием таблиц в сканах печатных документом. И самая большая проблема была с определением направления таблицы - то есть горизонтальная она или вертикальная. (Ну и да ещё с вертикальным текстом в колонках.) Как сейчас с этим обстаят дела? Какие модели сейчас лучше всего распознают документы с таблицами? Qwen3 Omni ?

aak204 Nov 16 2025 at 12:55

Я думаю, что qwen3 VL большой, например, 235Б, либо же, если касаться только таблиц, paddle VL умеет их отлично распознавать. Там есть настройки, чтобы он понимал ориентацию их, да и вообще довольно гибок в этом плане.

SlavikF Nov 16 2025 at 13:36

Qwen3 VL 30B A3B (MoE) - флагман.

Если флагман, то - Qwen3-VL-235B-A22B

aak204 Nov 16 2025 at 13:39

Это да, но мощности были ограничены на нашей серверной машине, и не все могут запустить 235 кВ локально. Тут рассмотрены модели, которые используются у нас.

RomanVelichkin Nov 16 2025 at 17:33

допустила несколько странных ошибок, заменив кириллические буквы на похожие латинские

А вы указывали, какой язык собираетесь распознавать?

aak204 Nov 16 2025 at 17:40

Конечно)

RomanVelichkin Nov 16 2025 at 17:35

PaddleOCR вы можете дообучить и он будет отлично распознавать, а вот LLMки дообучать проблематично

aak204 Nov 16 2025 at 17:41

Тут данные из интернета, но в нашем проде важно было решение из коробки, так как данных даже для теста не так много, не говоря уж про дообучение.

melodictsk Nov 16 2025 at 20:29

Как референс наверное надо было использовать специальный коммерческий продукт по типу Abbyy fine reader. Печатный текст с таблицами лет как 20 распознает лучше современным ллмок. Что в последних версиях не знаю, не было нужды использовать. Но всякую скснированную бухгалтерскую первичку распознает с точностью 99%.

aak204 Nov 16 2025 at 20:37

Да, знаем об этом решении, но нам нужны были решения с открытым исходным кодом)

brizol Nov 17 2025 at 02:19

С печатной таблицей тоже можно справиться, просто не ллмкой. При помощи функций cv2 и numpy можно выявлять таблицу в документе, вырезать её и её ячейки, а потом просить расшифровывать конкретные ячейки и самим восстанавливать таблицу

Dr_Faksov Nov 17 2025 at 02:24

Я вас очень сильно огорчу. Модели:

LightOnOCR 1B
Gemma 27B Vision
Qwen3 Omni
Qwen3 VL 30B A3B - с задачей не справились. Все они пропустили букву "ф" в заголовке. Зачем она там нужна - не вашего ума дело. "Водяные знаки" бывают не только в бумаге. В документах такого уровня ошибок не бывает, спросите юристов. Такие документы воспринимаются буквально, побуквенно. Если написано "карава", значит речь идёт про караву, а не про корову, как вам могло показаться. У программы распознавания нет права на редактирование таких бумаг.

Тем кто спросит: "А что, если карава это всё-таки корова, таки ошиблись?" Отвечаю - появится новый документ, за подписью издателя или его руководителя в котором будет сказано что "в документе номер такой-то от такого-то числа слово "карава" читать как "корова"". Только так.

divinecat Nov 17 2025 at 10:16

Гугл картинки справляется почти со всем почти идеально

Но я не знаю ни как его на поток поставить ни как ваши штучки, я не из мира IT

Эх...

denismartyanov Nov 20 2025 at 11:31

А на картинках худшего качества (например, не сканах, а фотографиях - под углом, с искажениями, etc) не тестировали?

aak204 Nov 20 2025 at 20:06

Тестировали, конечно. Просто в данной статье это не было указано :)

denismartyanov Nov 21 2025 at 10:01

И как там себя какие LLM показали, если не секрет?

Или собираетесь в будущем ещё статью делать?

aak204 Nov 21 2025 at 10:38

Время покажет. На таблицах paddle, всё остальное — VL-модели какие-то, с хорошими промтами. Если задача чисто OCR без проверки и всего остального, можно и что-то попроще. Qwen8b VL отлично справлялся.

nervnomancer Jan 15 at 20:26

Хорошая тема, но вообще нет технических подробностей.

4-6 модели, как понимаю, запускались через что-то в духе ollama?

а PaddleOCR VL 0.9B ? через штатную питоновую обвязку?

Сам два дня мучаю PaddleOCR VL 0.9B - вообще не вижу никакого превосходства над tesseract по качеству. И на порядок медленнее (т.к. PaddleOCR VL надо GPU - у меня одна A4000, а за те же деньги можно взять 32ядерный ryzen где каждое ядро по скорости как падла на А4000). Скармливаю сложные картинки - навроде плохих сканов с рукописными кусками и товарных чеков. Непонятно зачем у PaddleOCR столько самовосхваления на сайте.

aak204 Jan 15 at 21:20

Я выше писал, что всё через vllm и докер было запущено. Насчёт Тессеракта: возьмите большую таблицу и текст и посмотрите, что вернёт Тессеракт и в каком формате, а также что вернёт PaddleVL.

maxcat Feb 11 at 00:20

обычное виндовое приложение фотографии распознает рукопись неплохо. Так ещё и очень быстро даже на встроенной gpu или вообще cpu. Вот бы иметь эту модель отдельно от приложения фотографии (а лучше вообще отдельно от фич винды)

Результат такой:
1. Что такое Тикабу? Пикабу-это информационно-развлекательное сообщество, весь контент которого создают пользователи. Админист- пация сайта лишь следит за порядком и соблюдением правил. Все добавленные новости и комментарии имеют свой рейтинг. Новости на главной странице формируются по особому алгоритму, который отобража- ет в топе наиболее актуальные посты на данный момент. Сайт имеет и основных раздела: Горячее, Лучшее, Свежее и Сообщества. Горячее в свою очередь делится на 2 подраздела: по времени, где отображают- ся недавно добавленные и набирающие популярность новости и по актуальности, где отображаются наиболее