Нейросети не смогут в AGI / Хабр

Современный AI не может накапливать интеллект со временем — каждый навык приобретается ценой забывания других. Это архитектурный тупик, а не вопрос масштаба.

Количество параметров нейросетей уходит в бесконечность. Чипы дорожают. Масштабирование продолжается. Илон Маск обещает рождение AGI к концу этого года. И единственный лимит, который он видит, это количество доступной энергии и сами чипы.

Но что вкратце делает трансформер-сеть?

Любая нейросеть (включая LLM) — это статическая функция, которая аппроксимирует распределение вероятностей следующего состояния (токена) по данным прошлого опыта, зафиксированного в весах. Это простое предсказание следующего токена оказалось революцией, когда вышел chatGPT4. И стало казаться, что именно на этих принципах работает и наш мозг. Ну а если даже не на ��тих, то какая разница, если оно может делать то же самое, что и наш интеллект?

LLM не думает, не учится и не помнит во время работы — она лишь применяет заранее сжатый опыт, замороженный в параметрах.
LLM = f(context, weights) → next token,
где weights — прошлое, а context — краткосрочный костыль вместо памяти.

То есть ограничением любой LLM является даже не количество параметров, теоретически их можно увеличивать до бесконечности.

Параметры — это замороженное прошлое
Их можно увеличивать бесконечно
Но они не меняются во время мышления

И даже не контекст, хотя он по факту является ещё большим ограничением, он уже точно не может стремиться к бесконечности.

Почему контекст — реальный рабочий потолок?

Контекст — это:

единственное «временное окно памяти»
линейное
дорогое
стираемое при каждом новом запросе (как минимум старая часть)

То есть модель:

не помнит, а получает подсказку
не накапливает опыт, а симулирует его наличие

Если знание не попало в веса, оно не существует.
Если знание в контексте — оно временное и не интегрировано.

Реальная проблема

Но это все ерунда, потому что реальным ограничением является отсутствие собственного долговременного изменяемого состояния во время инференса, то есть во время взаимодействия.

В кратце, мозг человека меняется во время взаимодействия со средой, физически меняется. Строятся новые связи и разрушаются старые. Мозг нейросети заморожен до следующего переобучения (параметры), которое занимает много времени и требует много денег.

Костылем к этому является fine-tune, то есть дообучение нейросети на своей области, но оно тоже дорогое и времязатратное.

И главное, оба варианты могут привести к ухудшению качества генерации. Этот цикл дорогой и в дарвиновской эволюции такой мозг бы умер первым, потому что борьба шла иногда за миллисекунды.

Выживал мозг, который не умнее (довольно абстрактное понятие), а мозг, который быстрее выдал решение, которое сработало.

У нейросети нет такого дарвиновского давления и отбора. Его уж точно нет в реальном времени, если даже рассматривать соревнование сетей в бенчмарках как отбор.

Предельная точка:

модели станут очень хорошими инструментами
они будут писать код, планировать, рассуждать
но не будут агентами в сильном смысле

Агент без устойчивого внутреннего мира — это скрипт с интеллектом, а не интеллект с волей

Текущая архитетура не создают когнитивного времени. Модель остаётся: реактивной, а не развивающейся. Поэтому SkyNet нам пока не светит :-)

Как сделать?

Значит, неизбежно для достижения AGI необходимо создать дарвиновский отбор, и нужно поменять архитектуру нейросети, чтобы веса могли меняться в реальном времени, без переобучения и без fine-tune, просто во время чата.

Такой архитектуры пока нет.

Единственный вариант создания AGI при текущей архитектуре - это Agentic AI, то есть набор агентов над нейросетями, которые меняют свое состояние после контакта с реальностью. И так как агент - это по сути просто промпт + контекст над нейросетью, то менять его поведение очень легко в реальном времени, просто меняя промпт.

Еще одно важное условие - агенты должны общаться без протокола. Иначе мы опять получаем тупой "if x then y". У агентов должно быть общее когнитивное пространство. И должна быть эволюция по Дарвину.

Agentic AI + нет протокола + эволюция по Дарвину - это по сути нейрокортекс над нейросетью. Нейросеть здесь выступает в роли древнего мозга.

Мы уже внедряем такие подходы в компаниях, пока без эволюции по Дарвину, но это неизбежный следующий шаг. Подробнее тут.

Выводы

Transformer — это статическая функция.

Обучение происходит:

оффлайн
батчами
через глобальную оптимизацию

Это фундаментально несовместимо с:

непрерывным обучением
многоцелевой адаптацией
саморазвитием

Тупик Джона Кармака:
Текущие модели не накапливают опыт — они его перезаписывают.

Если модель:

научилась игре A
затем обучается игре B
она деградирует в A

Это означает: обучение = переписывание весов, а не расширение когнитивной структуры.

Человеческий интеллект так не работает.

Надо либо искать другую архитектуру, чем занимается John Carmack. Почитайте про его эксперименты - он уже пришел к такому же выводу. Например, обучение нейросети играть в игру занимает три дня, обучение этой же нейросети играть в другую похожую игру занимает семь дней. Мозг так не работает.

Реалистичный вариант - это буст в развитии Agentic AI, в котором еще можно сделать квантовы�� скачок, избавившись от текущих if-then фреймворков типа LangChain.

Фантастический вариант это новая архитектура нейронок. В этот вариант вложили только $20 миллионов. А в маcштабирование текущих уже триллионы долларов.

Необходимо прекращать гонку вооружений в погоне за чипами и параметрами, и вкладывать больше денег в новую архитектуру (тут вообще нет гарантий), и в Agentic AI в виде неокортекса над нейронками (это легче сделать).