Pull to refresh

Comments 12

Судя по формату входных данных, DeepSeek-OCR спилена у Google, я в Gemini API такие промпты писал. И Gemini как раз читает документы этих форматов: pdf, doc и картинки. Возможно, DeepSeek-OCR -- это урезанная Gemma 3 4B. Только у Gemma контекст 128K. Я ее тоже на 24GB GPU ставил и тюнил

Интересное наблюдение, никогда не думал об этом :)

Интересно как справился бы с вашей задачей qwen3-vl:8b? Одна LLM вместо двух сэкономили бы память для большего контекста, ну и эта визуальная модель отлично выдает JSON на выходе по заданной схеме.

Спасибо! А вы пытались, хотя бы приблизительно, оценить достоверность и устойчивость результатов? Типа, сколько на 100 обработанных пдфок, получается описаний собственно вёдер, сколько из них - реальных, а сколько - "скидок по альфа-карте" с длиной шириной и массой по 40%?

Супер. Осталось только достать видеокарту на 24 Gb VRAM из ящика стола, стряхнуть с нее пыль и всё заверте...
Строил подобное - обработка сканов жд накладных для таможенных брокеров, но у меня обработкой занимается GPT (разные модели для разных полей для оптимизации стоимости/качества), только предобученная YOLO выдирает нужные поля. Потом данные пишутся в таблицу и скрипт перекидывает их уже в другую в нужный момент и в нужное место. В целом обработка одного файла занимает примерно 30 секунд, стоимость - меньше цента USD.
DeepSeek-OCR пробовал - не лезет в память, к сожалению. PaddleOCR, TesseractOCR, EasyOCR в полной мере с задачей не справлялись из-за жуткого качества исходников. Пришлось выкручиваться так

Классный кейс! Мне в целом понравилось качество deepseek + она еще маленькая. Тут главное, чтобы уже вторая модель, qwen и любая другая, не подвела со структуризацией и вытягиванием) в моем кейсе создается поле и пояснение к полям, чтобы Ии лучше вычленял инфу! Вроде неплохо справляется пока, надо бы мне тоже замерить для профессионализма :)

примерно 17-18VRAM вышло, кстати терпимо, но это за счет всяких ужимок и Qwen-1.5b, но скорость не разочаровывает тоже

Есть пару вариантов улучшить комбинат - попробуй qwen3-vl-8b-thinking для OCR, при контексте в 32к токенов занимает 11Gb VRAM и qwen3-1.7b при Q6 квантовании и тех же 32к токенах - 5,5Gb VRAM, либо qwen3-4b-thinking-2507 так же в Q6 кванте с контекстом в 71к 10Gb VRAM. Очень достойные модельки, что 1.7, что 4, что 8, увеличив квант - увеличиваешь и качество на выходе, которое никто не проверял).

Спасибо за ОС, надо тестить, пробовать!

Спасибо за статью!

Было бы еще более информативно, если бы вы сформировали тестовый датасет, прогнали его через ваше решение и продемонстрировали с помощью метрик качество результатов.

Также было бы интересно увидеть сравнение с проприетарными решеними, например если бы вы заменили связку DeepseekOCR+Qwen на AzureOCR+Claude

Sign up to leave a comment.

Articles