Джим Фан, директор по робототехнике NVIDIA, заявил о смене парадигмы в ИИ. Предсказание следующего слова — прошлый век. Новая цель — предсказание физических состояний мира.

Суть в том, что современные VLA-модели для роботов строятся поверх языковых моделей, но большинство их параметров хранят знания («это лого Coca-Cola»), а не физику («наклонишь бутылку — жидкость прольётся»). Это архитектурный тупик.

Аргумент от обезьяны: приматы водят гольф-кары, понимая язык хуже BERT. Треть коры мозга обрабатывает зрение, язык — компактная надстройка. Зрение замыкает сенсомоторику напрямую, без слов.

Вероятно, что в текущем году «модели мира» (предсказание будущих состояний по действиям) станут основой робототехники. Рассуждения будут происходить в визуальном пространстве — симуляция геометрии вместо перевода в текст.

Редкий случай, когда человек из большой корпорации публично говорит: возможно, мы копали не туда.


Иногда пишу про такое в токены на ветер — иногда о том, как LLM думают, или просто притворяются.