Как гибрид IDP и VLM экономит миллионы на верификации данных

Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах.
В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом, когда VLM усиливает IDP-решения.
В этот раз мы проверили гипотезу: пусть VLM не распознает документ с нуля, а проверяет черновик из IDP-системы и исправляет ошибки, опираясь на исходное изображение. Базовым OCR движком выступила наша платформа ContentCapture.
Практическая цель эксперимента — автоматизировать верификацию документов. Сейчас в крупных компаниях сотни операторов вручную сверяют распознанные данные с оригиналами.

















