Современный AI не может накапливать интеллект со временем — каждый навык приобретается ценой забывания других. Это архитектурный тупик, а не вопрос масштаба.
Количество параметров нейросетей уходит в бесконечность. Чипы дорожают. Масштабирование продолжается. Илон Маск обещает рождение AGI к концу этого года. И единственный лимит, который он видит, это количество доступной энергии и сами чипы.
Но что вкратце делает трансформер-сеть?
Любая нейросеть (включая LLM) — это статическая функция, которая аппроксимирует распределение вероятностей следующего состояния (токена) по данным прошлого опыта, зафиксированного в весах. Это простое предсказание следующего токена оказалось революцией, когда вышел chatGPT4. И стало казаться, что именно на этих принципах работает и наш мозг. Ну а если даже не на этих, то какая разница, если оно может делать то же самое, что и наш интеллект?
LLM не думает, не учится и не помнит во время работы — она лишь применяет заранее сжатый опыт, замороженный в параметрах.
LLM = f(context, weights) → next token,
где weights — прошлое, а context — краткосрочный костыль вместо памяти.
То есть ограничением любой LLM является даже не количество параметров, теоретически их можно увеличивать до бесконечности.
Параметры — это замороженное прошлое
Их можно увеличивать бесконечно
Но они не меняются во время мышления
И даже не контекст, хотя он по факту является ещё большим ограничением, он уже точно не может стремиться к бесконечности.
Почему контекст — реальный рабочий потолок?
Контекст — это:
единственное «временное окно памяти»
линейное
дорогое
стираемое при каждом новом запросе (как минимум старая часть)
То есть модель:
не помнит, а получает подсказку
не накапливает опыт, а симулирует его наличие
Если знание не попало в веса, оно не существует.
Если знание в контексте — оно временное и не интегрировано.
Реальная проблема
Но это все ерунда, потому что реальным ограничением является отсутствие собственного долговременного изменяемого состояния во время инференса, то есть во время взаимодействия.
В кратце, мозг человека меняется во время взаимодействия со средой, физически меняется. Строятся новые связи и разрушаются старые. Мозг нейросети заморожен до следующего переобучения (параметры), которое занимает много времени и требует много денег.
Костылем к этому является fine-tune, то есть дообучение нейросети на своей области, но оно тоже дорогое и времязатратное.
И главное, оба варианты могут привести к ухудшению качества генерации. Этот цикл дорогой и в дарвиновской эволюции такой мозг бы умер первым, потому что борьба шла иногда за миллисекунды.
Выживал мозг, который не умнее (довольно абстрактное понятие), а мозг, который быстрее выдал решение, которое сработало.
У нейросети нет такого дарвиновского давления и отбора. Его уж точно нет в реальном времени, если даже рассматривать соревнование сетей в бенчмарках как отбор.
Предельная точка:
модели станут очень хорошими инструментами
они будут писать код, планировать, рассуждать
но не будут агентами в сильном смысле
Агент без устойчивого внутреннего мира — это скрипт с интеллектом, а не интеллект с волей
Текущая архитетура не создают когнитивного времени. Модель остаётся: реактивной, а не развивающейся. Поэтому SkyNet нам пока не светит :-)
Как сделать?
Значит, неизбежно для достижения AGI необходимо создать дарвиновский отбор, и нужно поменять архитектуру нейросети, чтобы веса могли меняться в реальном времени, без переобучения и без fine-tune, просто во время чата.
Такой архитектуры пока нет.
Единственный вариант создания AGI при текущей архитектуре - это Agentic AI, то есть набор агентов над нейросетями, которые меняют свое состояние после контакта с реальностью. И так как агент - это по сути просто промпт + контекст над нейросетью, то менять его поведение очень легко в реальном времени, просто меняя промпт.
Еще одно важное условие - агенты должны общаться без протокола. Иначе мы опять получаем тупой "if x then y". У агентов должно быть общее когнитивное пространство. И должна быть эволюция по Дарвину.
Agentic AI + нет протокола + эволюция по Дарвину - это по сути нейрокортекс над нейросетью. Нейросеть здесь выступает в роли древнего мозга.
Мы уже внедряем такие подходы в компаниях, пока без эволюции по Дарвину, но это неизбежный следующий шаг. Подробнее тут.
Выводы
Transformer — это статическая функция.
Обучение происходит:
оффлайн
батчами
через глобальную оптимизацию
Это фундаментально несовместимо с:
непрерывным обучением
многоцелевой адаптацией
саморазвитием
Тупик Джона Кармака:
Текущие модели не накапливают опыт — они его перезаписывают.
Если модель:
научилась игре A
затем обучается игре B
она деградирует в A
Это означает: обучение = переписывание весов, а не расширение когнитивной структуры.
Человеческий интеллект так не работает.
Надо либо искать другую архитектуру, чем занимается John Carmack. Почитайте про его эксперименты - он уже пришел к такому же выводу. Например, обучение нейросети играть в игру занимает три дня, обучение этой же нейросети играть в другую похожую игру занимает семь дней. Мозг так не работает.
Реалистичный вариант - это буст в развитии Agentic AI, в котором еще можно сделать квантовый скачо��, избавившись от текущих if-then фреймворков типа LangChain.
Фантастический вариант это новая архитектура нейронок. В этот вариант вложили только $20 миллионов. А в маcштабирование текущих уже триллионы долларов.
Необходимо прекращать гонку вооружений в погоне за чипами и параметрами, и вкладывать больше денег в новую архитектуру (тут вообще нет гарантий), и в Agentic AI в виде неокортекса над нейронками (это легче сделать).
