Pull to refresh

Comments 10

Судя по формату входных данных, DeepSeek-OCR спилена у Google, я в Gemini API такие промпты писал. И Gemini как раз читает документы этих форматов: pdf, doc и картинки. Возможно, DeepSeek-OCR -- это урезанная Gemma 3 4B. Только у Gemma контекст 128K. Я ее тоже на 24GB GPU ставил и тюнил

Интересное наблюдение, никогда не думал об этом :)

Интересно как справился бы с вашей задачей qwen3-vl:8b? Одна LLM вместо двух сэкономили бы память для большего контекста, ну и эта визуальная модель отлично выдает JSON на выходе по заданной схеме.

Спасибо! А вы пытались, хотя бы приблизительно, оценить достоверность и устойчивость результатов? Типа, сколько на 100 обработанных пдфок, получается описаний собственно вёдер, сколько из них - реальных, а сколько - "скидок по альфа-карте" с длиной шириной и массой по 40%?

Супер. Осталось только достать видеокарту на 24 Gb VRAM из ящика стола, стряхнуть с нее пыль и всё заверте...
Строил подобное - обработка сканов жд накладных для таможенных брокеров, но у меня обработкой занимается GPT (разные модели для разных полей для оптимизации стоимости/качества), только предобученная YOLO выдирает нужные поля. Потом данные пишутся в таблицу и скрипт перекидывает их уже в другую в нужный момент и в нужное место. В целом обработка одного файла занимает примерно 30 секунд, стоимость - меньше цента USD.
DeepSeek-OCR пробовал - не лезет в память, к сожалению. PaddleOCR, TesseractOCR, EasyOCR в полной мере с задачей не справлялись из-за жуткого качества исходников. Пришлось выкручиваться так

Классный кейс! Мне в целом понравилось качество deepseek + она еще маленькая. Тут главное, чтобы уже вторая модель, qwen и любая другая, не подвела со структуризацией и вытягиванием) в моем кейсе создается поле и пояснение к полям, чтобы Ии лучше вычленял инфу! Вроде неплохо справляется пока, надо бы мне тоже замерить для профессионализма :)

примерно 17-18VRAM вышло, кстати терпимо, но это за счет всяких ужимок и Qwen-1.5b, но скорость не разочаровывает тоже

Спасибо за статью!

Было бы еще более информативно, если бы вы сформировали тестовый датасет, прогнали его через ваше решение и продемонстрировали с помощью метрик качество результатов.

Также было бы интересно увидеть сравнение с проприетарными решеними, например если бы вы заменили связку DeepseekOCR+Qwen на AzureOCR+Claude

Sign up to leave a comment.

Articles