Мультимодальный AI в 2025: как GPT‑5.1, Gemini, Claude и Grok научились понимать текст, изображения и видео одновременно / Comments / Habr

Karel Nov 24 2025 at 20:06

Есть такой "системно-исторический метод", по которому, чтобы понять систему, нужно исследовать ее историю. Так вот, в этом смысле нужно понять эволюцию мозга с самых простых существ, чтобы понять, как работает человеческий.
И самое перовое, что им было нужно - это модели (карты) местности: где можно что-то съесть и куда убегать от хищников. Это еще черви какие-то. Ну же тут нужна не только карта, а управление организмом, чтобы ползти куда надо.
Потом появляется зрение, значит, нужно распознавать картинки. Нужно уже не ползать, а бегать, значит, нужна физическая модель себя. Нужны физические модели других объектов: камней, веток, пищи. Вот это можно скушать, а это - не стоит. Нужны модели других существ (тоже физические) - вот это можно догнать, а это нельзя; это я могу схватить и унести в зубах, а это - не могу. А вот от этого надо бежать...

Язык на все это наслаивается намного позже. Я вот к чему: может, самые базовые модели все-же физические? И только потом картинки, и в последнюю очередь языковые модели.

А сейчас это нужно роботам, физические модели, вращение в 3 измерениях, масса, сила, ускорение. Твердость, эластичность. И от этого связи с картинками.

Comments 2

xonika9 Nov 24 2025 at 20:14

Да, если смотреть эволюционно, базовый слой - именно сенсомоторные и физические модели среды, язык приходит сильно позже. В тексте я разбираю в первую очередь “цифровую” ветку (NTP + токенизация), но то, что вы описываете, это как раз недостающий кусок embodied AI, без которого роботам и настоящей агентности никак.