BlackEric00130 ноя 2025 в 20:37

Применение локальных LLM для OCR

Простой

4 мин

14K

.NET * Искусственный интеллект

Аналитика

+14

Комментарии 13

Bu9cho7 1 дек 2025 в 02:36

Здравствуйте! Эта программа может ли , распознать другие фотки?

BlackEric001 1 дек 2025 в 07:01

Да. Только распознает не приложение, а LMM модель из него вызываемая. Поэтому нужно пробовать. Подбирать промпт и модель. Модель нужно брать исходя из возможностей вашего железа.

Bu9cho7 1 дек 2025 в 07:06

А если у меня, тововый игровой комп?

BlackEric001 1 дек 2025 в 07:15

Работать будет. Вопрос в том насколько быстро.

Пробуйте!

dibu28 1 дек 2025 в 19:34

Для теста можно попробовать эти модели в приложении LM Studio. В нём можно скачать все те-же модели и давно добавили поддержку мульти-модальных моделей и загрузку картинок в чат.

А по поводу компьютера - тут важна не столько скорость видеокарты, сколько объем видеопамяти и чем больше тем лучше.

StrawberryPie 1 дек 2025 в 05:10

Лучше бы deepseek-ocr попробовали

BlackEric001 1 дек 2025 в 07:04

Он только появился в ollama. А так попробуем, спасибо.

virex 1 дек 2025 в 08:25

Решал схожую задачу Поиск в личном фото архиве по текстовому описанию. Но в вашем случае ollama не нужна. Это умеет llama.cpp, на которой собственно основана ollama.

Запускаете модель через llama-server

Ставите пакет Microsoft.Extensions.AI, код можно посмотреть в разделе "Мультимодальность" https://habr.com/ru/articles/914392/

Kwentin3 1 дек 2025 в 18:07

PaddleOcr-vl не рассматривали?

BlackEric001 1 дек 2025 в 18:19

Нет. Её не так-то просто запустить под Ollama. А вызова через Python хотелось избежать.

dibu28 1 дек 2025 в 19:27

Ещё пару дней назад появилась

HunyuanOCR - обещают топ по бенчмаркам и размер меньше.

LittleMeN 7 дек 2025 в 12:07

При всём уважении к автору и проделанной работе! Но данные модели сомнительный выбор для задачи OCR. Текущие модели в первую очередь llm и они лучше будут отвечать на вопросы что на изображении. Ну то есть, на вопрос "Какая фамилия автора?" — они все ответят прилично.

Рекомендую присмотреться:

Nanotes ocr
Deepseek ocr
Paddle ocr

Последний особенно четко распознает сложные структуры сканов/публикаций.

dmytrobogovych 17 дек 2025 в 08:02

Немного экспериментировал с PaddleOCR - рецепты которые врачи выписывают... Здесь помесь печатного и рукописного текста, несколько вариантов форм - PaddleOCR "плавает". Пропускает данные влегкую.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий