
Современные ИИ-модели достигли впечатляющих успехов в понимании текстов и изображений, однако все еще не идеальны в задачах, где важна визуальная интуиция, таких как навигация и планирование действий. Сегодня большинство моделей конвертируют визуальную информацию в текстовую и только затем принимают решения, что приводит к потере важных деталей и делает решение задач менее интуитивным.
Когнитивная наука подтверждает, что человеческий мозг использует два канала мышления — текстовый (вербальный) и визуальный (невербальный). Но современные мультимодальные модели (MLLM) чаще всего полагаются на текстовые объяснения даже там, где визуальное мышление было бы намного эффективнее. До мая 2025 года не было серьезных исследований, которые бы ответили на вопрос: могут ли современные модели решать задачи исключительно с помощью визуальной информации без использования слов?

Исследователи поставили перед собой цель создать новую парадигму — Visual Planning, где модели принимают решения и планируют действия, опираясь только на изображения. Для проверки такой идеи был разработан специальный подход под названием Visual Planning via Reinforcement Learning (VPRL).
Что именно исследователи проверяли? Они хотели выяснить, может ли ИИ-модель строить точные визуальные траектории действий без использования слов. Проверка велась на трех классических задачах навигации:
FROZENLAKE – агент должен пройти по замёрзшему озеру, избегая дырок.
MAZE – агент ищет выход из лабиринта.
MINIBEHAVIOR – агент должен перенести принтер от одного места к другому.

Для тестов использовались несколько моделей: чисто визуальная модель LVM-3B и мультимодальные модели Qwen 2.5-VL-Instruct и Gemini (версии 2.0 и 2.5 Pro).
В чём же суть Visual Planning? Модель получает стартовое изображение и затем должна самостоятельно создать последовательность картинок, каждое из которых показывает результат её следующего действия, вплоть до достижения цели.
Исследователи разработали специальный метод VPRL, который состоит из двух этапов:
Этап 1 (инициализация): модель обучается на случайных наборах картинок, чтобы понять, какие действия возможны.
Этап 2 (обучение с подкреплением): модель учится выбирать оптимальные шаги, учитывая их последствия, и избегать ошибок (например, столкновения со стенами).

Результаты оказались впечатляющими. Сравнивая новую визуальную модель с обычными текстовыми, исследователи выяснили, что модель без использования слов (VPFT, упрощенный подход без обучения с подкреплением) была эффективнее текстовых аналогов примерно на 22%. Однако, когда использовали полноценный подход VPRL с обучением с подкреплением, результат вырос ещё на 20%!
Конкретные цифры следующие:
FROZENLAKE: VPFT – 75,4%, VPRL – 91,6%
MAZE: VPFT – 59,0%, VPRL – 74,5%
MINIBEHAVIOR: VPFT – 64,0%, VPRL – 75,8%
В среднем, визуальный подход VPRL показал точность 80,6% против 66,1% у упрощённого подхода. Это доказывает, что обучение с подкреплением значительно улучшает способность модели планировать визуально.
Когда размер среды увеличивали, точность текстовых моделей резко падала, а визуальные модели справлялись гораздо лучше. Например, на FROZENLAKE с ростом размера с 3×3 до 6×6, точность текстовых моделей падала с 98% до 38,8%, тогда как VPRL снижалась всего лишь с 97,6% до 82,4%.

Ещё одно преимущество нового подхода — это меньшее число недопустимых действий. Модели на основе VPRL делали намного меньше ошибок, связанных с невозможными движениями (например, столкновением со стенами). Например, в задаче MAZE количество таких ошибок снизилось почти в три раза — с 73,7% у VPFT до 25,1% у VPRL.
Однако, несмотря на преимущества, у подхода есть и ограничения:
Визуальное планирование требует больше вычислительных ресурсов.
Пока сложно применять подход в очень сложных сценах без специальных доработок, таких как более продвинутый анализ изображений.
Модели могут «заучивать» конкретные маршруты, что снижает их гибкость.
Кроме того, хотя визуальные траектории легче воспринимаются людьми, сам процесс принятия решений внутри модели остаётся непрозрачным.
Авторы исследования убеждены, что подход Visual Planning может быть полезен в робототехнике, автономном транспорте и других областях, где важна визуальная информация. Но перед массовым применением нужно решить проблемы с масштабируемостью и ресурсами, а также обеспечить безопасность и прозрачность работы моделей.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.