Comments 14
В дополнение хочу отметить, что apple давно уже ввели чтение текста с картинки (очень достойное, рукописный текст, иероглифы тоже разбирает) и даже необязательно сохранять ее в галерею.
Нормальные ответы по картинкам есть только у гугол джемини и чатгпт, большинство остальных фейлятся даже если картинка с текстом просто набок завалена.
Чатгпт с картинками доступен для великих россиян через перплексити (официальный бот есть в вотсапе и телеграме) и через копилот в телеграме (он перестал там требовать подтверждение по нерусскому телефону).
А для этого точно нужна нейросеть? Оно неплохо работало вроде и 10-15 лет назад, не зря уже тогда приходилось капчи делать такие что и человеку-то сложно прочесть...
Школьникам нужна Ж) Типичная картинка с вопросом от них выглядит как то так

Надо распознать картинку сделанную криво косо в темноте под партой, и написать решение.
Как человек, который пытался использовать фичи тех времен могу сказать, что всё-таки они делали это достаточно плохо, хотя такое распознание текстов можно было легко фиксить даже простым скриптом или просто автозаменой, но не всегда, конечно
рукописное конечно нет, но в начале нулевых активно распознавал сканы книг для библиотеки в FineReader - практически не было никаких ошибок, а 25 лет назад как бы дело было, без всяких ИИ. Я до сих пор FR пользуюсь для сканирования документов - весьма хорошо чистит от мусора и практически единственный умеет сохранять в TIFF CCITT G4, когда лист А4 текста получается в 2 Кб TIFF, JPG теряет качество, а GS PNG будет сильно тяжелее. Конечно на современном железе пофигу, но у меня есть ретро ноуты еще на Win98, там TIFF откроется нормально, а PNG повесит машинку надолго.




Вот распознавание локальной моделью gemma-3 4b
лекарства указаны другие, не такие, какие были в рецепте. К тому же очевидно, что изначально они записаны не на английском.
Вообще‑то латинскими буквами, так что в какой‑то мере «на английском».
Я, честно, не хочу обламывать любителей посравнивать нейросети, но если спросить у той же ChatGPT чем оно смотрит картинки, то оказывается, что там под капотом https://github.com/tesseract-ocr/tesseract
Подозреваю, что другие LLM в своей работе используют тоже что-нибудь подобное.
Ну, т.е. там на вход LLM подается выход с чего-то заточенного под извлечения текста с картинок.
А дальше LLM "видит", вот тут слово "рецепт", вот тут "Ф.И.О. врача", дальше "белиберда какая-то" видимо это подпись врача, дальше "подпись и личная печать врача". Дальше опять "белиберда", это, видимо, оттиск печати.
Т.е. тут идет сравнение не LLM, а тех решений, которые занимаются извлечением данных из картинок.
Тессеракт работает только с текстом, причем ему требуется хорошее качество, он может не прочитать текст просто потому что он вверх ногами сфотан.
Хорошая ллм работает с картинками и без текста, может прочитать текст замыленный так что ты не прочитаешь.


Ну вот вы сейчас к tesseract привязались, но мой посыл был про то, что LLM не обрабатывают сырую картинку. Они оттуда данные извлекают с использованием специализированных модулей. Ок, будет это не tesseract, а кастомное решение на OpenCV. Это все равно подмодуль, а не сама LLM
мой посыл был про то, что LLM не обрабатывают сырую картинку.
Ок, будет это не tesseract, а кастомное решение на OpenCV. Это все равно подмодуль, а не сама LLM
В своей сути вы правы, но не совсем.
Бывают мультимодальные модели, где обработкой изображений занимаются отдельные тензоры целой модели, например, визуальный трансформер (ViT), который обучен обрабатывать сырую картинку, но он выдает не какую-то конкретную информацию, а создает по картинке скрытый вектор, покрывающий её признаки. Этот скрытый вектор напрямую передается в текстовую LLM, и уже LLM может извлекать оттуда нужные признаки в зависимости от запроса. То есть это не внешний модуль, это некая гибридная архитектура, поэтому сравнивать одни мультимодальные модели можно с другими, на то как хорошо обучили ViT, как текстовая часть хорошо работает со скрытым ViT вектором и т.д.
Поэтому мультимодальная модель может давать любые ответы по картинке, а не строго заданные через внешний модуль, вроде распознания текста.

DeepSeek - это не мультимодальная модель, в веб-интерфейсе распознанием текста занимается внешний модуль, который выдирает текст и просто передает его в контекст. В случае gpt-4o заявлено, что она мультимодальная.

Помимо изображений, мультимодальные могут обрабатывать звук, видео, голос, принцип у них одинаковый, создается латентное представление, с которым уже работает текстовая часть.
Примеров мультимодальных моделей много, в основном они конечно двумодальные, но бывают и более разнообразные:
Gemma3, Llama4, V-версии - работают и с текстом и с изображениями, на выходе текст
Janus-Pro-7B может принимать на вход и картинку и текст, выдавать картину или текст на выходе
Qwen2.5-Omni-7B может принимать звук, изображение, видео, текст на вход, на выходе выдает голос и текст
Как извлечь текст с изображения с помощью нейросети: распознавание текста на фото онлайн