Всем привет, Меня зовут Богдан, Я фаундер Vibe AI – это AI Dating Copilot для парней и девушек, который помогает в переписке на сайтах знакомств и в мессенджерах (в сервисе зарегистрировано уже 13,000+ пользователей).
Сегодня Я расскажу, как мы заставили GPT-4o работать с детекцией объектов на изображении (выделять координаты объекта на изображении) на примере задачи распознавания сообщений по скриншоту, которая лежит в основе нашего приложения.
Обсудим, какие ограничения у Vision-модулей в языковых моделях, как происходит обработка картинок, где теряется информация и как преодолеть эти лимиты.