Comments 10
Судя по формату входных данных, DeepSeek-OCR спилена у Google, я в Gemini API такие промпты писал. И Gemini как раз читает документы этих форматов: pdf, doc и картинки. Возможно, DeepSeek-OCR -- это урезанная Gemma 3 4B. Только у Gemma контекст 128K. Я ее тоже на 24GB GPU ставил и тюнил
Спасибо! А вы пытались, хотя бы приблизительно, оценить достоверность и устойчивость результатов? Типа, сколько на 100 обработанных пдфок, получается описаний собственно вёдер, сколько из них - реальных, а сколько - "скидок по альфа-карте" с длиной шириной и массой по 40%?
Спасибо за комментарий! Слушай, руки не дошли, но есть очень простая, но неплохая статья сравнения deepseek / qwen vl / mistral ocr - https://www.analyticsvidhya.com/blog/2025/11/deepseek-ocr-vs-qwen-3-vl-vs-mistral-ocr/
Супер. Осталось только достать видеокарту на 24 Gb VRAM из ящика стола, стряхнуть с нее пыль и всё заверте...
Строил подобное - обработка сканов жд накладных для таможенных брокеров, но у меня обработкой занимается GPT (разные модели для разных полей для оптимизации стоимости/качества), только предобученная YOLO выдирает нужные поля. Потом данные пишутся в таблицу и скрипт перекидывает их уже в другую в нужный момент и в нужное место. В целом обработка одного файла занимает примерно 30 секунд, стоимость - меньше цента USD.
DeepSeek-OCR пробовал - не лезет в память, к сожалению. PaddleOCR, TesseractOCR, EasyOCR в полной мере с задачей не справлялись из-за жуткого качества исходников. Пришлось выкручиваться так
Классный кейс! Мне в целом понравилось качество deepseek + она еще маленькая. Тут главное, чтобы уже вторая модель, qwen и любая другая, не подвела со структуризацией и вытягиванием) в моем кейсе создается поле и пояснение к полям, чтобы Ии лучше вычленял инфу! Вроде неплохо справляется пока, надо бы мне тоже замерить для профессионализма :)
Спасибо за статью!
Было бы еще более информативно, если бы вы сформировали тестовый датасет, прогнали его через ваше решение и продемонстрировали с помощью метрик качество результатов.
Также было бы интересно увидеть сравнение с проприетарными решеними, например если бы вы заменили связку DeepseekOCR+Qwen на AzureOCR+Claude
Оцифровываем сырую документацию компании с помощью ИИ локально! DeepSeek-OCR + Qwen 1.5