Обновить

Комментарии 13

Здравствуйте! Эта программа может ли , распознать другие фотки?

Да. Только распознает не приложение, а LMM модель из него вызываемая. Поэтому нужно пробовать. Подбирать промпт и модель. Модель нужно брать исходя из возможностей вашего железа.

А если у меня, тововый игровой комп?

Работать будет. Вопрос в том насколько быстро.

Пробуйте!

Для теста можно попробовать эти модели в приложении LM Studio. В нём можно скачать все те-же модели и давно добавили поддержку мульти-модальных моделей и загрузку картинок в чат.

А по поводу компьютера - тут важна не столько скорость видеокарты, сколько объем видеопамяти и чем больше тем лучше.

Лучше бы deepseek-ocr попробовали

Он только появился в ollama. А так попробуем, спасибо.

Решал схожую задачу Поиск в личном фото архиве по текстовому описанию. Но в вашем случае ollama не нужна. Это умеет llama.cpp, на которой собственно основана ollama.

Запускаете модель через llama-server

Ставите пакет Microsoft.Extensions.AI, код можно посмотреть в разделе "Мультимодальность" https://habr.com/ru/articles/914392/

PaddleOcr-vl не рассматривали?

Нет. Её не так-то просто запустить под Ollama. А вызова через Python хотелось избежать.

Ещё пару дней назад появилась

HunyuanOCR - обещают топ по бенчмаркам и размер меньше.

При всём уважении к автору и проделанной работе! Но данные модели сомнительный выбор для задачи OCR. Текущие модели в первую очередь llm и они лучше будут отвечать на вопросы что на изображении. Ну то есть, на вопрос "Какая фамилия автора?" — они все ответят прилично.

Рекомендую присмотреться:

  • Nanotes ocr

  • Deepseek ocr

  • Paddle ocr

Последний особенно четко распознает сложные структуры сканов/публикаций.

Немного экспериментировал с PaddleOCR - рецепты которые врачи выписывают... Здесь помесь печатного и рукописного текста, несколько вариантов форм - PaddleOCR "плавает". Пропускает данные влегкую.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации