Comments 34
Спасибо за обзор ! Насколько я понимаю , Квен может работать на цпу ? Можно ваши тайминги по железу на котором вы запускали модели ? Что есть низкая скорость а что высокая ?
Где же главный игрок Mistral OCR?
В каком месте он главный. Что бы он сел в лужу достаточно просто боком текст повернуть.
Здесь в комментариях объясняется почему мистраль ocr лучше любой vision llm
https://habr.com/ru/articles/893460/
А здесь пример с метрическими книгами
https://habr.com/ru/articles/895664/
За полгода качество и там и там значительно улучшилось
Хорошее уточнение ! Обязательно его рассмотрим в будущем)
Я не понял, это просто потоковое распознавание с командной строки? В Файнридере можно было корректировать места где распознаватель лажал.
Вот мои скорости распознавания текста - текст местами не читаемый на затёртых местах, слабая контрастность и всё остальное мешающее OCR.
Одна страница печаталась за 20 минут в среднем на протяжении 10 часов едедневно и много дней подряд; документация на 45 листов занимала 3 - 3,5 дня. Два дня на напечатать текст, 5 часов на проверку работы, день на сделать чертежи в CAD и отформатировать таблицы; немного перевода в тексте и чертежах не считалось за труд.
Ну это были совершенно не читаемые документы, даже возглавлял небольшую команду по распознаванию этого архива. Модели тогда были не на слуху, а вот OCR перепробовал и в целом перепечатать было легче и быстрее, чем постоянно сравнивать где не распозналось, где неправильно распозналось, где заменило знаки и всё это бесконечно править, Это была техническая документация, ошибки были критично недопустимы.

А подскажите пожалуйста, лучшее на сегодня флоу для распознавания пары тысяч вот таких разворотов (фотографии русских метрических книг 18 века).
Или пока рано о таком задумываться?
Не рано. Лучшие коммерческие модели типа Gemini pro надо пробовать
Потом, естественно, корректировать, но процентов 80-90 может распознать
А если обучить, то вообще шикарно будет
Яндекс тут пару лет назад рассказывал, как решал такую задачу. К сожалению, их инструменты для этого, как понимаю, не публичные, но если у Вас какой-то некоммерческий проект - может, постучитесь к ним, помогут.
Я думаю, либо лучшие модели, которые сейчас есть, как, например, Квен 235Б или Gemini. Ну, либо какие-то коммерческие решения.
так появился Гикабу
Пробовал несколько открытых моделей пол года назад, но у всех у них были проблемы с распознаванием таблиц в сканах печатных документом. И самая большая проблема была с определением направления таблицы - то есть горизонтальная она или вертикальная. (Ну и да ещё с вертикальным текстом в колонках.) Как сейчас с этим обстаят дела? Какие модели сейчас лучше всего распознают документы с таблицами? Qwen3 Omni ?
Qwen3 VL 30B A3B (MoE) - флагман.
Если флагман, то - Qwen3-VL-235B-A22B
допустила несколько странных ошибок, заменив кириллические буквы на похожие латинские
А вы указывали, какой язык собираетесь распознавать?
PaddleOCR вы можете дообучить и он будет отлично распознавать, а вот LLMки дообучать проблематично
Как референс наверное надо было использовать специальный коммерческий продукт по типу Abbyy fine reader. Печатный текст с таблицами лет как 20 распознает лучше современным ллмок. Что в последних версиях не знаю, не было нужды использовать. Но всякую скснированную бухгалтерскую первичку распознает с точностью 99%.
С печатной таблицей тоже можно справиться, просто не ллмкой. При помощи функций cv2 и numpy можно выявлять таблицу в документе, вырезать её и её ячейки, а потом просить расшифровывать конкретные ячейки и самим восстанавливать таблицу
Я вас очень сильно огорчу. Модели:
LightOnOCR 1B
Gemma 27B Vision
Qwen3 Omni
Qwen3 VL 30B A3B - с задачей не справились. Все они пропустили букву "ф" в заголовке. Зачем она там нужна - не вашего ума дело. "Водяные знаки" бывают не только в бумаге. В документах такого уровня ошибок не бывает, спросите юристов. Такие документы воспринимаются буквально, побуквенно. Если написано "карава", значит речь идёт про караву, а не про корову, как вам могло показаться. У программы распознавания нет права на редактирование таких бумаг.
Тем кто спросит: "А что, если карава это всё-таки корова, таки ошиблись?" Отвечаю - появится новый документ, за подписью издателя или его руководителя в котором будет сказано что "в документе номер такой-то от такого-то числа слово "карава" читать как "корова"". Только так.
Гугл картинки справляется почти со всем почти идеально
Но я не знаю ни как его на поток поставить ни как ваши штучки, я не из мира IT
Эх...
А на картинках худшего качества (например, не сканах, а фотографиях - под углом, с искажениями, etc) не тестировали?
Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера