Dmitrii-Chashchin Dec 11 2025 at 14:53

Оцифровываем сырую документацию компании с помощью ИИ локально! DeepSeek-OCR + Qwen 1.5

Medium

6 min

12K

Machine learning * Artificial IntelligenceProduct Management * Project management * DevOps *

Case

AI in developers season

+14

Comments 12

veriga Dec 11 2025 at 15:35

Судя по формату входных данных, DeepSeek-OCR спилена у Google, я в Gemini API такие промпты писал. И Gemini как раз читает документы этих форматов: pdf, doc и картинки. Возможно, DeepSeek-OCR -- это урезанная Gemma 3 4B. Только у Gemma контекст 128K. Я ее тоже на 24GB GPU ставил и тюнил

Dmitrii-Chashchin Dec 11 2025 at 15:35

Интересное наблюдение, никогда не думал об этом :)

igor_suhorukov Dec 13 2025 at 07:20

Интересно как справился бы с вашей задачей qwen3-vl:8b? Одна LLM вместо двух сэкономили бы память для большего контекста, ну и эта визуальная модель отлично выдает JSON на выходе по заданной схеме.

maxwolf Dec 11 2025 at 18:49

Спасибо! А вы пытались, хотя бы приблизительно, оценить достоверность и устойчивость результатов? Типа, сколько на 100 обработанных пдфок, получается описаний собственно вёдер, сколько из них - реальных, а сколько - "скидок по альфа-карте" с длиной шириной и массой по 40%?

Dmitrii-Chashchin Dec 11 2025 at 18:57

Спасибо за комментарий! Слушай, руки не дошли, но есть очень простая, но неплохая статья сравнения deepseek / qwen vl / mistral ocr - https://www.analyticsvidhya.com/blog/2025/11/deepseek-ocr-vs-qwen-3-vl-vs-mistral-ocr/

SurMaster Dec 12 2025 at 06:40

Супер. Осталось только достать видеокарту на 24 Gb VRAM из ящика стола, стряхнуть с нее пыль и всё заверте...
Строил подобное - обработка сканов жд накладных для таможенных брокеров, но у меня обработкой занимается GPT (разные модели для разных полей для оптимизации стоимости/качества), только предобученная YOLO выдирает нужные поля. Потом данные пишутся в таблицу и скрипт перекидывает их уже в другую в нужный момент и в нужное место. В целом обработка одного файла занимает примерно 30 секунд, стоимость - меньше цента USD.
DeepSeek-OCR пробовал - не лезет в память, к сожалению. PaddleOCR, TesseractOCR, EasyOCR в полной мере с задачей не справлялись из-за жуткого качества исходников. Пришлось выкручиваться так

Dmitrii-Chashchin Dec 12 2025 at 06:56

Классный кейс! Мне в целом понравилось качество deepseek + она еще маленькая. Тут главное, чтобы уже вторая модель, qwen и любая другая, не подвела со структуризацией и вытягиванием) в моем кейсе создается поле и пояснение к полям, чтобы Ии лучше вычленял инфу! Вроде неплохо справляется пока, надо бы мне тоже замерить для профессионализма :)

SurMaster Dec 12 2025 at 07:16

У вас сколько по итогу потребляет VRAM весь этот комбайн?

Dmitrii-Chashchin Dec 12 2025 at 07:33

примерно 17-18VRAM вышло, кстати терпимо, но это за счет всяких ужимок и Qwen-1.5b, но скорость не разочаровывает тоже

ArtCat Jan 15 at 20:02

Есть пару вариантов улучшить комбинат - попробуй qwen3-vl-8b-thinking для OCR, при контексте в 32к токенов занимает 11Gb VRAM и qwen3-1.7b при Q6 квантовании и тех же 32к токенах - 5,5Gb VRAM, либо qwen3-4b-thinking-2507 так же в Q6 кванте с контекстом в 71к 10Gb VRAM. Очень достойные модельки, что 1.7, что 4, что 8, увеличив квант - увеличиваешь и качество на выходе, которое никто не проверял).

Dmitrii-Chashchin Jan 16 at 05:39

Спасибо за ОС, надо тестить, пробовать!

CapToYou Dec 13 2025 at 09:59

Спасибо за статью!

Было бы еще более информативно, если бы вы сформировали тестовый датасет, прогнали его через ваше решение и продемонстрировали с помощью метрик качество результатов.

Также было бы интересно увидеть сравнение с проприетарными решеними, например если бы вы заменили связку DeepseekOCR+Qwen на AzureOCR+Claude