Конец эпохи трансформеров. Берем у LLM донорские органы для ИИ-агентов / Хабр

В 2017 году Vaswani et al. опубликовали «Attention Is All You Need». И за 9 лет индустрия масштабировала одну идею: предсказание следующего токена по вероятности. GPT-5, Claude 4, Gemini 3, DeepSeek V3 — всё это варианты одной и той же архитектуры с разным количеством параметров и инженерными надстройками: Mixture-of-Experts, routing, extended context windows.

Но фундамент не изменился: P(next_token | context) → softmax → argmax. Модель не понимает — она подбирает статистически вероятное продолжение. И вот что говорят не мы, а те, кто строит эти модели:
«It is a well-kept secret in the AI industry: for over a year now, frontier models appear to have reached their ceiling.» («В индустрии ИИ есть секрет, который тщательно скрывают: вот уже больше года передовые модели, похоже, уперлись в свой потолок».)
— HEC Paris, ноябрь 2025

«The era of revolutionary leaps may be giving way to iterative refinements of an architecture near its limits... the industry has reached a local maximum.» («Эпоха революционных скачков, возможно, уступает место итеративным улучшениям архитектуры, которая близка к своим пределам... индустрия достигла локального максимума».)
— Algorithma AI Whitepaper, август 2025

Это не маргинальная позиция. Это консенсус, который индустрия пока боится произнести вслух. Мы произносим.

Три фундаментальных порока трансформера

Квадратичная сложность
Self-attention требует, чтобы каждый токен «посмотрел» на каждый другой токен в контексте. Вычислительная сложность — O(n²) по длине последовательности. Это делает обработку длинных контекстов (книги, кодовые базы, видеопотоки) экономически и технически неподъёмной без костылей вроде sliding window и sparse attention.
Провал композициональных рассуждений
Технический анализ показал, что один слой attention доказуемо неспособен надёжно вычислить композицию функций — базовый строительный блок логического мышления. Чтобы ответить на вопрос «Кто бабушка Йенса по материнской линии?», нужно последовательно вычислить mother(mother(Jens)). Трансформер не может этого сделать надёжно при достаточно большом домене сущностей из-за информационного bottleneck в механизме attention. Практическое следствие - галлюцинации. Модель не может систематически вывести ответ и подбирает статистически правдоподобный, но логически неверный. Это свойство архитектуры.
Отсутствие рекурсии и иерархии
Feedforward-природа трансформера означает, что количество вычислительных трансформаций ограничено глубиной модели. Это исключает истинную рекурсивную обработку и моделирование глубоких иерархических структур, которые центральны для человеческого языка и мышления.

Стена масштабирования

Обучение GPT-4 стоило более €100 млн и потребовало в 55 раз больше вычислительных ресурсов, чем GPT-3. При этом прирост на MMLU — с 43.9% до 86.4% — не пропорционален 55-кратному увеличению compute.

После GPT-4 кривая сплющилась. Все frontier-модели инкрементально ползут к ~90% на стандартных бенчмарках. GPT-5 — не новая архитектура, а «unified system» из нескольких моделей с роутером. Llama 4 — MoE-надстройка над тем же трансформером. Mistral специализирует модели вместо масштабирования. Google интегрирует Gemini в продукты вместо погони за бенчмарками.

Все крупные игроки молча признали, что brute-force scaling трансформеров больше не работает. Добавим к этому кризис данных: высококачественный текст в интернете конечен и быстро исчерпывается. Обучение на синтетических данных от других моделей ведёт к деградации качества в цикле обратной связи.

Альтернативы уже здесь

Пока индустрия масштабирует трансформеры, альтернативные архитектуры тихо набирают силу. И результаты есть в рецензируемых журналах.

Reservoir computing как языковая модель

В январе 2026 года Köster и Uchida (Saitama University) опубликовали «Reservoir Computing as a Language Model» — первое систематическое сравнение reservoir computing (RC) с трансформерами на задаче языкового моделирования.

Ключевые результаты:

Attention-Enhanced Reservoir Computer (AERC) достигает test loss 1.73, при том что трансформер — 1.67. Разница минимальна.
RC обрабатывает данные на порядки быстрее: сложность линейна по длине последовательности, а не квадратична.
Авторы представили LAERC — стековую архитектуру, где фиксированные рекуррентные резервуары заменяют self-attention, а обучаемые компоненты обеспечивают адаптивность.
LAERC следует power-law scaling — производительность растёт с числом параметров, аналогично трансформерам, но при меньших вычислительных затратах.
Критическое преимущество: резервуар может быть реализован на физических субстратах — фотонных, нейроморфных, аналоговых. Attention layer трансформера привязан к цифровому GPU.

Bio-inspired computing

В Nature Communications (2024) вышел обзор emerging opportunities для RC, подчёркивающий compact design, быстрое обучение и совместимость с FPGA и нейроморфными чипами. В ноябре 2025 Nature опубликовал работу по brain-inspired adaptive reservoir computing с adaptive control, демонстрирующую преимущества над CNN, LSTM и трансформерами на задачах обработки временных рядов.

Ассоциативная память

Modern Hopfield Networks (Ramsauer et al., 2021) возрождают концепцию content-addressable ассоциативной памяти — хранение и извлечение по содержанию, а не по позиции. В отличие от KV-cache трансформера с его sliding window, ассоциативная память позволяет извлечение по семантической близости без ограничения на размер контекстного окна.

Донор, а не учитель

Стандартная knowledge distillation (KD) в эпоху LLM сместилась от сжатия архитектуры к knowledge elicitation — извлечению знаний в виде reasoning chains, synthetic datasets, structured outputs. Но даже в этой парадигме «ученик» остаётся трансформером меньшего размера. Архитектурная зависимость сохраняется. Ученик наследует все пороки учителя — квадратичную сложность, галлюцинации, отсутствие рекурсии — просто в меньшем масштабе.

Мы предлагаем разорвать эту зависимость.

Большая языковая модель (70B+) — не учитель и не шаблон для сжатия. Она донор знаний. Из неё извлекается что она знает. Полностью отбрасывается как она обрабатывает. Целевая архитектура приёмника - не трансформер.

Аналогия: человек заканчивает университет, получает знания — и потом думает своей головой. Не воспроизводит лекции, не подбирает «наиболее вероятное продолжение» конспекта. А применяет знания через собственную когнитивную архитектуру, ассоциативную, рекурсивную, иерархическую, эмоционально окрашенную. Мы предлагаем сделать то же самое с AI: дать машине «высшее образование» и позволить ей думать иначе. Конкретная архитектура такого приёмника сейчас предмет нашей текущей работы. Публикация деталей будет после завершения этапа прототипирования.

Мы не утверждаем, что решение найдено. Мы утверждаем, что задача поставлена правильно, и что существующие результаты (RC как language model, brain-inspired adaptive computing, modern Hopfield networks, knowledge elicitation) дают основания считать её решаемой.

Вопросы, над которыми мы работаем:

Формат знаний: какое представление извлечённых знаний оптимально для загрузки в не-трансформерную архитектуру? Embedding vectors, knowledge graphs, или гибридные схемы?
Замена attention: какая вычислительная парадигма обеспечивает уровень качества, сопоставимый с self-attention, при линейной сложности и без привязки к GPU? Результаты LAERC [3] показывают, что reservoir computing — серьёзный кандидат.
Output synthesis: как обеспечить генерацию естественного языка из семантического представления без вероятностного подбора токенов?
Substrate independence: может ли когнитивная архитектура быть реализована на нейроморфном или аналоговом hardware? Nature уже говорит — да.

Трансформер не умрёт завтра, как лошадь не умерла в день изобретения автомобиля. GPT, Claude, Gemini будут работать и приносить деньги ещё годы. Но архитектурный сдвиг уже начался.