Комментарии 13
Здравствуйте! Эта программа может ли , распознать другие фотки?
Да. Только распознает не приложение, а LMM модель из него вызываемая. Поэтому нужно пробовать. Подбирать промпт и модель. Модель нужно брать исходя из возможностей вашего железа.
А если у меня, тововый игровой комп?
Работать будет. Вопрос в том насколько быстро.
Пробуйте!
Для теста можно попробовать эти модели в приложении LM Studio. В нём можно скачать все те-же модели и давно добавили поддержку мульти-модальных моделей и загрузку картинок в чат.
А по поводу компьютера - тут важна не столько скорость видеокарты, сколько объем видеопамяти и чем больше тем лучше.
Лучше бы deepseek-ocr попробовали
Решал схожую задачу Поиск в личном фото архиве по текстовому описанию. Но в вашем случае ollama не нужна. Это умеет llama.cpp, на которой собственно основана ollama.
Запускаете модель через llama-server
Ставите пакет Microsoft.Extensions.AI, код можно посмотреть в разделе "Мультимодальность" https://habr.com/ru/articles/914392/
PaddleOcr-vl не рассматривали?
Ещё пару дней назад появилась
HunyuanOCR - обещают топ по бенчмаркам и размер меньше.
При всём уважении к автору и проделанной работе! Но данные модели сомнительный выбор для задачи OCR. Текущие модели в первую очередь llm и они лучше будут отвечать на вопросы что на изображении. Ну то есть, на вопрос "Какая фамилия автора?" — они все ответят прилично.
Рекомендую присмотреться:
Nanotes ocr
Deepseek ocr
Paddle ocr
Последний особенно четко распознает сложные структуры сканов/публикаций.

Применение локальных LLM для OCR