Привет! Это перевод очень крутой и захватывающей статьи, в которой автор рассматривает альтернативные архитектуры LLM: гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные трансформеры. Дальше слово автору:
Гибриды с линейным вниманием, текстовая диффузия, модели мира на основе кода и малые рекурсивные трансформеры.
От DeepSeek R1 до MiniMax-M2, самые большие и способные LLM с открытыми весами сегодня остаются авторегрессивными (autoregressive) трансформерами декодерного типа, которые построены на различных вариациях оригинального механизма многоголового внимания (multi-head attention).
Однако в последние годы мы также наблюдаем появление альтернатив стандартным LLM — от моделей текстовой диффузии до самых последних гибридных архитектур с линейным вниманием. Некоторые из них нацелены на повышение эффективности, а другие, такие как модели мира на основе кода, стремятся улучшить качество моделирования.
После того, как я несколько месяцев назад опубликовал свое «Большое сравнение архитектур LLM», которое было сосредоточено на основных LLM на базе трансформеров, я получил множество вопросов о том, что я думаю об альтернативных подходах. (Недавно я также выступил с коротким докладом на эту тему на конференции PyTorch Conference 2025, где пообещал участникам подготовить подробный материал об этих альтернативных подходах). Итак, вот он!

Обратите внимание, что в идеале каждая из этих тем, показанных на рисунке выше, заслуживает отдельной статьи (и, надеюсь, я напишу ее в будущем). Поэтому, чтобы сохранить разумную длину этой статьи, многие разделы достаточно короткие. Тем не менее, я надеюсь, что эта статья все же будет полезна в качестве введения во все интересные альтернативы LLM, которые появились в последние годы.
PS: Вышеупомянутый доклад на конференции PyTorch будет загружен на официальный YouTube-канал PyTorch. А пока, если вам интересно, вы можете найти тренировочную запись выступления ниже (но на YouTube).
1. Трансформерные LLM
LLM на базе трансформеров, построенные на классической архитектуре из статьи «Attention Is All You Need», по-прежнему остаются передовыми для работы с текстом и кодом. Если рассмотреть лишь некоторые ключевые примеры с конца 2024 года по сегодняшний день, то к заметным моделям относятся:
DeepSeek V3/R1
OLMo 2
Gemma 3
Mistral Small 3.1
Llama 4
Qwen3
SmolLM3
Kimi K2
gpt-oss
GLM-4.5
GLM-4.6
MiniMax-M2
и многие другие. (cписок выше фокусируется на моделях с открытыми весами; существуют также проприетарные модели, такие как GPT-5, Grok 4, Gemini 2.5 и т.д., которые также относятся к этой категории)

Поскольку я так много раз говорил и писал о LLM на основе трансформеров, я предполагаю, что вы знакомы с общей идеей и архитектурой. Если вы хотите более глубокого погружения, я сравнил архитектуры, перечисленные выше (и показанные на рисунке ниже), в своей статье «Большое сравнение архитектур LLM».
(Примечание: я мог бы сгруппировать Qwen3-Next и Kimi Linear с другими гибридами трансформера и модели пространства состояний (transformer-state space model, SSM) на обзорном рисунке. Лично я рассматриваю эти другие гибриды трансформер-SSM как SSM с компонентами трансформера, тогда как модели, обсуждаемые здесь (Qwen3-Next и Kimi Linear), я вижу как трансформеры с компонентами SSM. Однако, поскольку я поместил IBM Granite 4.0 и NVIDIA Nemotron Nano 2 в блок трансформер-SSM, можно было бы привести аргумент в пользу объединения их в одну категорию.)

Если вы работаете с LLM или над ними, например, создаете приложения, дообучаете модели или тестируете новые алгоритмы, я бы рекомендовал использовать именно эти модели. Они проверены, доказали свою эффективность и показывают хорошие результаты.
Однако было бы скучно (и недальновидно), если бы исследователи и инженеры не пробовали альтернативные подходы. Поэтому в оставшихся разделах будут рассмотрены некоторые интересные альтернативы, появившиеся в последние годы.
2. Гибридные архитектуры линейного внимания (Linear Attention Hybrids)
Прежде чем обсуждать более нестандартные подходы, давайте сначала рассмотрим LLM на основе трансформеров, которые используют более эффективные механизмы внимания. В частности, речь идет о тех, которые масштабируются линейно, а не квадратично, в зависимости от количества входных токенов.
В последнее время наблюдается возрождение интереса к механизмам линейного внимания (linear attention) для повышения эффективности LLM.
Механизм внимания, представленный в статье «Attention Is All You Need» (2017), также известный как масштабированное скалярное произведение внимания (scaled dot-product attention), остается наиболее популярным вариантом внимания в современных LLM. Помимо традиционного многоголового внимания, он также используется в более эффективных вариантах, таких как Grouped-Query Attention, внимание со скользящим окном и многоголовое латентное внимание, как обсуждалось в моем докладе.
2.1 Традиционное внимание и квадратичная сложность
Оригинальный механизм внимания масштабируется квадратично относительно длины последовательности:

Это происходит потому, что запрос (query, Q), ключ (key, K) и значение (value, V) представляют собой матрицы размером n×d, где d — размерность эмбеддинга (embedding dimension), которая является гиперпараметром, а n — длина последовательности (sequence length), то есть количество токенов.

2.2 Линейное внимание
Варианты линейного внимания существуют уже давно, и я помню, что видел множество статей в 2020-х годах. Например, одна из самых ранних, которую я помню, — это статья 2020 года «Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention», где исследователи аппроксимировали механизм внимания:

Здесь φ(⋅) — это функция признаков ядра (kernel feature function), заданная как φ(x) = elu(x)+1.
Такое приближение эффективно, поскольку позволяет избежать явного вычисления матрицы внимания размером n × n (QKᵀ).
Не будем слишком углубляться в эти ранние попытки. Суть в том, что они снижали как временную, так и памятную сложность с O(n²) до O(n), делая механизм внимания гораздо более эффективным для длинных последовательностей.
Однако эти подходы так и не получили широкого распространения, поскольку приводили к снижению точности модели. Я ни разу не видел ни одного из этих вариантов в передовых LLM.
2.3 Возрождение линейного внимания
Во второй половине года наблюдается возрождение вариантов линейного внимания, а также некоторое обсуждение и обмен мнениями между разработчиками моделей, как показано на рисунке ниже.

Первой заметной моделью стала MiniMax-M1 с механизмом молниеносного внимания (lightning attention).
MiniMax-M1 — это модель с 456 миллиардами параметров, относящаяся к архитектуре смеси экспертов (mixture-of-experts, MoE), из которых 46 миллиардов активны в каждый момент времени. Она была представлена еще в июне.
Затем, в августе, команда Qwen3 представила модель Qwen3-Next, о которой я уже подробно говорил выше. А в сентябре команда DeepSeek анонсировала DeepSeek V3.2. (Механизм разреженного внимания (sparse attention) DeepSeek V3.2 не является строго линейным, но по крайней мере имеет субквадратичную вычислительную сложность, поэтому я считаю справедливым поместить его в ту же категорию, что и MiniMax-M1, Qwen3-Next и Kimi Linear)
Все три модели (MiniMax-M1, Qwen3-Next и DeepSeek V3.2) заменили традиционные квадратичные варианты внимания в большинстве или всех слоях на эффективные линейные варианты.
Интересно, что недавно произошел неожиданный поворот: команда MiniMax выпустила свою новую модель M2 с 230 миллиардами параметров, но без линейного внимания, вернувшись к обычному механизму внимания. Команда объяснила, что линейное внимание сложно применять в LLM в проде. Оно хорошо работало с обычными промптами, но давало низкую точность в задачах рассуждения и многошагового взаимодействия, которые важны не только для стандартных диалогов, но и для агентных приложений (agentic applications).
Это могло стать поворотным моментом, показывающим, что линейное внимание, возможно, не стоит дальнейших усилий. Однако история получила продолжение: в октябре команда Kimi выпустила свою новую модель Kimi Linear с линейным вниманием.
Что касается реализации линейного внимания, и Qwen3-Next, и Kimi Linear используют архитектуру Gated DeltaNet, которую я хотел бы рассмотреть в следующих разделах как пример гибридной архитектуры внимания (hybrid attention architecture).
2.4 Qwen3-Next
Начнем с Qwen3-Next, где стандартный механизм внимания заменили на гибрид Gated DeltaNet + Gated Attention, что помогает обеспечить нативную длину контекста в 262 тысячи токенов с точки зрения использования памяти (предыдущая модель 235B-A22B поддерживала 32 тысячи токенов нативно и 131 тысячу с масштабированием YaRN).
Их гибридный механизм сочетает блоки Gated DeltaNet и блоки Gated Attention в соотношении 3:1, как показано на рисунке ниже.

Как показано на рисунке выше, механизм внимания реализован либо как Gated Attention, либо как Gated DeltaNet. Это означает, что 48 блоков трансформера в этой архитектуре чередуются между этими двумя типами.
Как упоминалось ранее, соотношение составляет 3 к 1. Например, последовательность трансформерных блоков выглядит следующим образом:
──────────────────────────────────
Layer 1 : Linear attention → MoE
Layer 2 : Linear attention → MoE
Layer 3 : Linear attention → MoE
Layer 4 : Full attention → MoE
──────────────────────────────────
Layer 5 : Linear attention → MoE
Layer 6 : Linear attention → MoE
Layer 7 : Linear attention → MoE
Layer 8 : Full attention → MoE
──────────────────────────────────
...В остальном архитектура вполне стандартна и во многом схожа с Qwen3:

Итак, что такое gated attention и Gated DeltaNet?
2.5 Gated Attention
Прежде чем перейти к Gated DeltaNet, кратко обсудим механизм гейтирования. Как видно в верхней части архитектуры Qwen3-Next на предыдущем рисунке, Qwen3-Next использует «gated attention». По сути, это обычное полное внимание с дополнительным сигмоидным гейтом.
Это изменение можно проиллюстрировать в реализации MultiHeadAttention:
Код на картинке от автора

Как видно, после вычисления внимания модель использует отдельный управляющий сигнал из того же входа. К нему применяется сигмоидная функция, ограничивающая значения в диапазоне от 0 до 1, а затем этот сигнал умножается на выход внимания. Это позволяет модели динамически усиливать или ослаблять определенные признаки. Разработчики Qwen3-Next отмечают, что это помогает со стабильностью обучения:
[…] механизм затвора на выходе внимания помогает устранить такие проблемы, как Attention Sink и Massive Activation, обеспечивая численную стабильность всей модели.
Если кратко, то Gated Attention модулирует выход стандартного внимания. В следующем разделе мы обсудим Gated DeltaNet, который заменяет сам механизм внимания рекуррентным обновлением памяти по дельта-правилу (delta-rule memory update).
2.6 Gated DeltaNet
Итак, что представляет собой Gated DeltaNet? Gated DeltaNet (сокращение от Gated Delta Network) — это слой линейного внимания в Qwen3-Next, который задуман как альтернатива стандартному softmax-вниманию. Он был заимствован из статьи «Gated Delta Networks: Improving Mamba2 with Delta Rule», о которой упоминалось ранее.
Gated DeltaNet изначально предложили как улучшенную версию Mamba2, где он объединяет механизм управляемого затухания (gated decay mechanism) из Mamba2 с дельта-правилом.
Mamba — это модель пространства состояний (state-space model), альтернатива трансформерам, большая тема, которая заслуживает отдельного рассмотрения в будущем.
Дельта-правило относится к вычислению разности (дельта, Δ) между новыми и предсказанными значениями для обновления скрытого состояния, которое используется как состояние памяти (подробнее об этом позже).
(Примечание: читатели, знакомые с классической литературой по машинному обучению, могут представить это как нечто похожее на обучение Хебба (Hebbian learning), вдохновленное биологией: «нейроны, которые активируются вместе, связываются вместе». Это по сути предшественник правила обновления перцептрона и обучения на основе градиентного спуска, но без учителя.)
В Gated DeltaNet используется механизм управления, похожий на Gated Attention, о котором говорилось ранее, за исключением того, что он использует SiLU вместо логистической сигмоиды, как показано ниже. (Выбор SiLU, вероятно, улучшает распространение градиентов и стабильность по сравнению со стандартной сигмоидой.)

Однако, как показано на рисунке выше, помимо выходного управления, «gated» в Gated DeltaNet также относится к нескольким дополнительным механизмам управления:
α (гейт затухания, decay gate) управляет скоростью затухания или сброса памяти с течением времени,
β (гейт обновления, update gate) управляет тем, насколько сильно новые входные данные изменяют состояние.
Упрощенную версию Gated DeltaNet, показанную выше (без свёрточного смешивания), можно реализовать так (код вдохновлен официальной реализацией команды Qwen3):
Код на картинке от автора

(Обратите внимание, что для простоты я опустил сверточное смешивание (convolutional mixing), которое используют Qwen3-Next и Kimi Linear, чтобы код оставался более читаемым и можно было сосредоточиться на рекуррентных аспектах.)
Итак, как видно выше, есть множество отличий от стандартного (или Gated) внимания
В Gated Attention модель вычисляет обычное внимание между всеми токенами (каждый токен обращается или смотрит на все остальные токены). Затем, после получения выхода внимания, гейт (сигмоида) определяет, какую часть этого выхода сохранить. Главное, что это все еще обычное масштабированное скалярное произведение внимания, которое масштабируется квадратично относительно длины контекста.
Для напоминания: масштабированное скалярное произведение внимания вычисляется как softmax(QKᵀ)V, где Q и K — матрицы размером n×d, где n — количество входных токенов, а d — размерность эмбеддинга. Таким образом, QKᵀ дает матрицу внимания размером n на n, которая умножается на матрицу значений V размером n на d.

В Gated DeltaNet нет матрицы внимания размером n на n. Вместо этого модель обрабатывает токены последовательно. Она поддерживает текущую память (состояние), которое обновляется по мере поступления каждого нового токена. Это реализовано ниже, где S — состояние, рекуррентно обновляемое на каждом временном шаге t.

И гейты управляют тем, как эта память изменяется:
α (альфа) регулирует, какую часть старой памяти следует забыть (затухание).
β (бета) регулирует, насколько сильно текущий токен на временном шаге t обновляет память. (А финальный выходной гейт, не показанный в приведенном выше фрагменте, похож на гейт в Gated Attention; он управляет тем, какая часть выхода сохраняется.)
Таким образом, это обновление состояния в Gated DeltaNet в некотором смысле похоже на работу рекуррентных нейронных сетей (recurrent neural networks, RNN). Преимущество в том, что оно масштабируется линейно (через цикл for) вместо квадратичного масштабирования относительно длины контекста.
Недостаток этого рекуррентного обновления состояния заключается в том, что по сравнению с обычным (или Gated) вниманием, оно жертвует способностью моделировать глобальный контекст, которая достигается за счет полного попарного внимания.
Gated DeltaNet все же может до некоторой степени захватывать контекст, но ему приходится проходить через узкое место памяти (S). Эта память имеет фиксированный размер и поэтому более эффективна, но она сжимает прошлый контекст в одно скрытое состояние, подобно RNN.
Именно поэтому архитектуры Qwen3-Next и Kimi Linear не заменяют все слои внимания на слои DeltaNet, а используют упомянутое ранее соотношение 3:1.
2.7 Экономия памяти в DeltaNet
В предыдущем разделе мы обсудили преимущество DeltaNet перед полным вниманием в плане линейной, а не квадратичной вычислительной сложности относительно длины контекста.
Помимо линейной вычислительной сложности, DeltaNet имеет еще одно большое преимущество — экономию памяти, поскольку модули DeltaNet не увеличивают размер KV-кеша (KV cache). Вместо этого, как отмечено ранее, они поддерживают рекуррентное состоя��ие фиксированного размера, поэтому объем памяти остается постоянным независимо от длины контекста.
Для обычного слоя многоголового внимания (multi-head attention, MHA) мы можем вычислить размер KV-кеша следующим образом:
KV_cache_MHA ≈ batch_size × n_tokens × n_heads × d_head × 2 × bytes(Множитель 2 присутствует потому, что мы сохраняем в кеше и ключи, и значения.)
Для упрощенной версии DeltaNet, реализованной выше, имеем:
KV_cache_DeltaNet = batch_size × n_heads × d_head × d_head × bytesОбратите внимание, что размер памяти KV_cache_DeltaNet не зависит от длины контекста (n_tokens). Кроме того, мы сохраняем только состояние памяти S вместо отдельных ключей и значений, поэтому 2 × bytes становится просто bytes. Однако обратите внимание, что теперь у нас есть квадратичная зависимость d_head × d_head. Это происходит из-за состояния:
S = x.new_zeros(b, self.num_heads, self.head_dim, self.head_dim)Но обычно это не проблема, поскольку размерность головы обычно относительно невелика. Например, в Qwen3-Next она равна 128.
Полная версия со сверточным смешиванием немного сложнее и включает размер ядра и так далее, но приведенные выше формулы должны проиллюстрировать основную тенденцию и мотивацию, стоящую за Gated DeltaNet.

2.8 Kimi Linear против Qwen3-Next
У Kimi Linear есть несколько структурных сходств с Qwen3-Next. Обе модели используют гибридную стратегию внимания. Конкретно, они объединяют легковесное линейное внимание с более тяжелыми слоями полного внимания. В частности, обе используют соотношение 3:1, что означает, что на каждые три блока трансформера, использующих линейный вариант Gated DeltaNet, приходится один блок, использующий полное внимание, как показано на рисунке ниже.

Gated DeltaNet — это вариант линейного внимания, вдохновленный рекуррентными нейронными сетями, включающий механизм гейтирования из статьи «Gated Delta Networks: Improving Mamba2 with Delta Rule». В некотором смысле Gated DeltaNet — это DeltaNet с гейтированием в стиле Mamba, а DeltaNet — это механизм линейного внимания (подробнее об этом в следующем разделе).
Многоголовое латентное внимание (Multi-Head Latent Attention, MLA, MLA) в Kimi Linear, изображенное в правом верхнем блоке на рисунке 11 выше, не использует сигмоидный гейт. Это было сделано намеренно, чтобы авторы могли напрямую сравнить архитектуру со стандартным MLA, однако они заявили, что планируют добавить его в будущем.
Также обратите внимание, что отсутствие блока RoPE (ротационные позиционные эмбеддинги, Rotary Positional Embedding) в части Kimi Linear на рисунке выше также намеренно. Kimi применяет NoPE (без позиционных эмбеддингов, No Positional Embedding) в слоях многоголового латентного внимания MLA (глобальное внимание). Как утверждают авторы, это позволяет MLA работать как чистое внимание с множественными запросами (multi-query attention) на этапе инференса и избегает переобучения RoPE для масштабирования на длинные контексты (позиционное смещение предположительно обрабатывается блоками Kimi Delta Attention). Для получения дополнительной информации об MLA и внимании с множественными запросами, которое является частным случаем Grouped-Query Attention, см. мою статью «Большое сравнение архитектур LLM».
2.9 Kimi Delta Attention
Kimi Linear модифицирует механизм линейного внимания из Qwen3-Next, добавляя механизм Kimi Delta Attention (KDA), который является усовершенствованием Gated DeltaNet. В то время как Qwen3-Next применяет скалярный гейт (одно значение на голову внимания) для управления скоростью затухания памяти, Kimi Linear заменяет его на поканальное гейтирование для каждой размерности признаков. По словам авторов, это дает больше контроля над памятью и улучшает рассуждения на длинном контексте.
Кроме того, для слоев полного внимания Kimi Linear заменяет слои Gated Attention из Qwen3-Next (которые по сути являются стандартными слоями многоголового внимания с выходным гейтированием) на многоголовое латентное внимание (MLA). Это тот же механизм MLA, который используется в DeepSeek V3/R1 (как обсуждалось в моей статье «Большое сравнение архитектур LLM»), но с дополнительным гейтом. (Напомню, MLA сжимает пространство ключей/значений для уменьшения размера KV-кеша.)
Прямого сравнения с Qwen3-Next нет, но по сравнению с моделью Gated DeltaNet-H1 из статьи Gated DeltaNet (которая по сути представляет собой Gated DeltaNet с вниманием со скользящим окном), Kimi Linear достигает более высокой точности моделирования при сохранении той же скорости генерации токенов.

Более того, согласно абляционным исследованиям (ablation studies) в статье DeepSeek-V2, MLA сопоставим по производительности с обычным полным вниманием при тщательном подборе гиперпараметров.
Тот факт, что Kimi Linear превосходит MLA на бенчмарках длинного контекста и рассуждениями, снова делает вариант линейного внимания перспективным для крупных передовых моделей. При этом стоит отметить, что Kimi Linear имеет 48 миллиардов параметров, что в 20 раз меньше, чем Kimi K2. Будет интересно посмотреть, примет ли команда Kimi этот подход для своей будущей модели K3.
2.10 Будущее гибридных архитектур внимания
Линейное внимание не ново, но недавнее возрождение гибридных подходов показывает, что исследователи снова всерьез ищут практические способы сделать трансформеры более эффективными. Например, Kimi Linear по сравнению с обычным полным вниманием имеет 75% сокращение KV-кеша и до 6-кратное увеличение пропускной способности декодирования (decoding throughput).
Что отличает это новое поколение вариантов линейного внимания от более ранних попыток — это то, что теперь они используются вместе со стандартным вниманием, а не полностью его заменяют.
Заглядывая в будущее, я ожидаю, что следующая волна гибридов внимания будет сосредоточена на дальнейшем улучшении стабильности на длинном контексте и точности рассуждений, чтобы приблизиться к передовым результатам полного внимания.
3. Модели текстовой диффузии
Более радикальное отклонение от стандартной авторегрессивной архитектуры LLM — семейство моделей текстовой диффузии (text diffusion models).
Вы, вероятно, знакомы с диффузионными моделями (diffusion models), которые основаны на статье «Denoising Diffusion Probabilistic Models» 2020 года для генерации изображений (как преемник генеративно-состязательных сетей, generative adversarial networks) и позже были реализованы, масштабированы и популяризированы Stable Diffusion и другими.

3.1 Зачем работать над текстовой диффузией?
Со статьей «Diffusion‑LM Improves Controllable Text Generation» в 2022 году мы также начали наблюдать начало тенденции, когда исследователи стали применять диффузионные модели для генерации текста. И в 2025 году я видел целое множество статей о текстовой диффузии. Когда я только что проверил свой список закладок статей, там оказалось 39 моделей текстовой диффузии! Учитывая растущую популярность этих моделей, я решил, что пора о них поговорить.

Итак, каковы преимущества диффузионных моделей и почему исследователи рассматривают их как альтернативу традиционным авторегрессивным LLM?
Традиционные LLM на основе трансформеров (авторегрессивные) генерируют по одному токену за раз. Для краткости будем называть их просто авторегрессивными LLM. Главное преимущество LLM на основе текстовой диффузии (назовем их «диффузионными LLM») заключается в том, что они могут генерировать несколько токенов параллельно, а не последовательно.
Обратите внимание, что диффузионным LLM все еще требуется несколько шагов расшумления (denoising steps). Однако, даже если диффузионной модели нужно, скажем, 64 шага шумоподавления для параллельной генерации всех токенов на каждом шаге, это все равно вычислительно более эффективно, чем выполнение 2000 последовательных шагов генерации для создания ответа из 2000 токенов.
3.2 Процесс расшумления
Процесс расшумления (denoising) в диффузионной LLM, аналогичный процессу расшумления в обычных диффузионных моделях для изображений, показан в GIF-анимации ниже. (Ключевое отличие заключается в том, что вместо добавления гауссова шума к пикселям, текстовая диффузия искажает последовательности путем вероятностного маскирования токенов.)
Для этого эксперимента я запустил 8B instruct-модель из статьи «Large Language Diffusion Models» (LLaDA), которая вышла в начале этого года.

Как мы видим в анимации выше, процесс текстовой диффузии последовательно заменяет токены [MASK] на текстовые токены для генерации ответа. Если вы знакомы с BERT и маскированным языковым моделированием (masked language modeling), можно представить процесс диффузии ка�� итеративное применение прямого прохода BERT (где BERT используется с разными коэффициентами маскирования).
Архитектурно диффузионные LLM обычно являются трансформерами декодерного типа, но без каузальной маски внимания (causal attention mask). Например, упомянутая модель LLaDA использует архитектуру Llama 3. Мы называем такие архитектуры без каузальной маски «двунаправленными» (bidirectional), поскольку они имеют доступ ко всем элементам последовательности одновременно. (Обратите внимание, что это похоже на архитектуру BERT, которая по историческим причинам называется «энкодерного типа».)
Таким образом, основное различие между авторегрессивными LLM и диффузионными LLM (помимо удаления каузальной маски) заключается в целевой функции обучения. Диффузионные LLM, такие как LLaDA, используют целевую функцию генеративной диффузии (generative diffusion objective) вместо целевой функции предсказания следующего токена (next-token prediction).
В моделях изображений целевая функция генеративной диффузии интуитивно понятна, поскольку у нас есть непрерывное пространство пикселей. Например, добавление гауссова шума и обучение расшумлению являются математически естественными операциями. Текст же состоит из дискретных токенов, поэтому мы не можем напрямую добавлять или удалять «шум» в том же непрерывном смысле.
Поэтому вместо возмущения интенсивности пикселей эти диффузионные LLM искажают текст путем постепенного случайного маскирования токенов, где каждый токен заменяется специальным токеном маски с заданной вероятностью. Затем модель обучается обратному процессу, который предсказывает пропущенные токены на каждом шаге, что эффективно «расшумляет» (или демаскирует) последовательность обратно к исходному тексту, как показано в анимации на рисунке 15 ранее.
Объяснение математики лучше оставить для отдельного руководства, но грубо говоря, мы можем думать об этом как о BERT, расширенном в вероятностный фреймворк максимального правдоподобия (probabilistic maximum-likelihood framework).
3.3 Авторегрессивные LLM против диффузионных LLM
Ранее я говорил, что привлекательность диффузионных LLM заключается в том, что они генерируют (или расшумляют) токены параллельно, а не последовательно, как в обычной авторегрессивной LLM. Это дает потенциал для того, чтобы сделать диффузионные модели более эффективными, чем авторегрессивные LLM.
При этом авторегрессивная природа традиционных LLM является одной из их ключевых сильных сторон. Проблему чисто параллельного декодирования можно проиллюстрировать отличным примером из недавней статьи «ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs».

Например, рассмотрим промпт:
«Выберите случайный город для путешествия: Нью-Йорк, Новый Орлеан, Мехико или Панама-Сити?»
Предположим, мы просим LLM сгенерировать ответ из двух токенов. Она может сначала выбрать токен «New» согласно условной вероятности p(yt = "New" | X).
На следующей итерации она затем будет обусловлена ранее сгенерированным токеном и, вероятно, выберет «York» или «Orleans», поскольку обе условные вероятности p(yt+1 = "York" | X, yt = "New") и p(yt+1 = "Orleans" | X, yt = "New") относительно высоки (потому что «New» часто встречается с этими продолжениями в обучающем наборе данных). Но если вместо этого оба токена будут выбраны параллельно, модель может независимо выбрать два токена с наивысшей вероятностью p(yt = "New" | X) и p(y{t+1} = "City" | X), что приводит к неудобным результатам вроде «New City». (Это происходит потому, что модель лишена авторегрессивного обусловливания и не способна уловить зависимости между токенами.)
В любом случае сказанное выше — упрощение, которое создает впечатление, будто в диффузионных LLM вообще нет условной зависимости. Это неверно. Диффузионная LLM предсказывает все токены параллельно, как говорилось ранее, но предсказания совместно зависимы через итеративные шаги уточнения (расшумления).
Здесь каждый шаг диффузии обусловлен всем текущим зашумленным текстом. И токены влияют друг на друга через перекрестное внимание (cross-attention) и самовнимание (self-attention) на каждом шаге. Таким образом, хотя все позиции обновляются одновременно, обновления обусловлены друг другом через общие слои внимания.
Однако, как упоминалось ранее, в теории 20-60 шагов диффузии могут быть дешевле, чем 2000 шагов инференса в авторегрессивной LLM при генерации ответа из 2000 токенов.
3.4 Текстовая диффузия сегодня
Интересная тенденция, что модели компьютерного зрения заимствуют компоненты из LLM, такие как внимание и саму архитектуру трансформера, в то время как текстовые LLM вдохновляются чистыми моделями для изображений, реализуя диффузию для текста.
Лично я еще не использовал много диффузионных моделей, лишь попробовал несколько демо, но я рассматриваю это как компромисс. Если мы используем малое количество шагов диффузии, мы генерируем ответ быстрее, но можем получить ответ с ухудшенным качеством. Если мы увеличиваем количество шагов диффузии для генерации лучших ответов, мы можем получить модель, которая имеет сопоставимые затраты с авторегрессивной.
Цитируя авторов статьи «ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs»:
[...] мы систематически анализируем как диффузионные LLM, так и авторегрессивные LLM, выявляя, что: (i) дифузионные при параллельном декодировании могут испытывать значительное ухудшение качества в реальных сценариях, и (ii) текущие стратегии параллельного декодирования с трудом адаптируют степень параллелизма в зависимости от сложности задачи, и поэтому не могут достичь существенного ускорения без ущерба для качества
Кроме того, еще один недостаток, который я вижу, является то, что диффузионные LLM не могут использовать инструменты в цепочке, потому что цепочки нет. Возможно, их можно чередовать между шагами диффузии, но я предполагаю, что это нетривиально.
Короче говоря, похоже, что диффузионные LLM — это интересное направление для исследования, но пока они могут не заменить авторегрессивные LLM. Однако я вижу их как интересные альтернативы более мелким LLM на устройствах (on-device LLMs) или, возможно, для замены меньших дистиллированных (distilled) авторегрессивных LLM.
Например, Google объявил, что работает над моделью Gemini Diffusion для текста, где они заявляют:
Мгновенный отклик: генерирует контент значительно быстрее, чем даже наша самая быстрая модель на данный момент
И при этом, будучи быстрее, производительность на бенчмарках, по-видимому, остается на уровне их быстрой модели Gemini 2.0 Flash-Lite. Будет интересно посмотреть на внедрение и отзывы после выпуска модели, когда пользователи попробуют ее на различных задачах и в разных доменах.

4. Модели мира (World Models)
До сих пор мы обсуждали подходы, которые были сосредоточены на повышении эффективности и ускорении моделей или повышении их масштабируемости. И эти подходы обычно сопровождаются незначительным снижением качества моделирования.
Тема этого раздела рассматривает иной ракурс и фокусируется на улучшении качества моделирования (а не эффективности). Это улучшенное качество достигается за счет обучения моделей «пониманию мира».
Модели мира традиционно разрабатывались независимо от языкового моделирования, но недавняя статья «Code World Models» в сентябре 2025 года впервые сделала их непосредственно релевантными в этом контексте.
В идеале, как и другие темы этой статьи, модели мира заслуживают отдельной статьи (или книги). Однако, прежде чем мы перейдем к статье Code World Models (CWM), позвольте мне дать хотя бы краткое введение в модели мира.
4.1 Основная идея моделей мира
Изначальная идея моделей мира — неявное моделирование результатов, то есть в предвидении того, что может произойти дальше, без того чтобы эти результаты фактически происходили (как показано на рисунке ниже). Это похоже на то, как человеческий мозг непрерывно предсказывает предстоящие события на основе предыдущего опыта. Например, когда мы тянемся за чашкой кофе или чая, наш мозг уже предсказывает, насколько тяжелой она будет, и мы регулируем свой захват еще до того, как прикоснемся к чашке или поднимем ее.

Термин «модель мира» был популяризирован, насколько мне известно, одноименной статьей Ха и Шмидхубера 2018 года: «World Models», в которой использовалась архитектура на основе вариационного автокодировщика (variational autoencoder, VAE) и RNN для обучения внутреннего симулятора среды для агентов обучения с подкреплением (reinforcement learning). (Но сам термин или концепция по сути просто относится к моделированию концепции мира или среды, поэтому восходит к исследованиям обучения с подкреплением и робототехники 1980-х годов.)
[прим. пер.: про World Models в робототехнике есть моя соседняя статья про анатомию робота 1X NEO]
Честно говоря, у меня не было новой интерпретации моделей мира на радаре до статьи Яна Лекуна 2022 года «A Path Towards Autonomous Machine Intelligence». По сути, это было о построении альтернативного пути к ИИ вместо LLM.
4.2 От зрения к коду
Все статьи о моделях мира фокусировались на компьютерном зрении и охватывали широкий спектр архитектур: от ранних моделей на основе VAE и RNN до трансформеров, диффузионных моделей и даже гибридов со слоями Mamba.
Сейчас я все же наиболее сфокусирован на именно LLM и потому статья «Code World Model» (30 сентября 2025 года) — это первая тематическая статья про моделирование, которая полностью привлекла мое внимание. Это первая модель мира (насколько мне известно), которая работает от текста к тексту (или, точнее, от кода к коду).
CWM — это модель с открытыми весами на 32 миллиарда параметров с окном контекста в 131 тысячу токенов. Архитектурно это по-прежнему плотный трансформер декодерного типа с вниманием со скользящим окном. Также, как и другие LLM, она проходит через предобучение (pre-training), промежуточное обучение (mid-training), контролируемое дообучение (supervised fine-tuning, SFT) и стадии обучения с подкреплением, но данные промежуточного обучения вводят компонент моделирования мира.
4.3 Code World Models против обычных LLM для кода
Чем же это отличается от обычной LLM для кода вроде Qwen3-Coder?
Обычные модели, такие как Qwen3-Coder, обучаются исключительно с помощью предсказания следующего токена. Они изучают паттерны синтаксиса и логики, чтобы создавать правдоподобный код, что дает им статическое понимание программирования на текстовом уровне.
CWM, напротив, учится симулировать то, что происходит при выполнении кода. Она обучена предсказывать результирующее состояние программы, например значение переменной, после выполнения действия, такого как изменение строки кода, как показано на рисунке ниже.

Во время инференса CWM по-прежнему остается авторегрессивным трансформером, который генерирует по одному токену за раз, так же как модели в стиле GPT. Ключевое отличие в том, что эти токены могут кодировать структурированные трейсы выполнения (execution traces), а не просто текст.
Поэтому я бы назвал это не моделью мира, а LLM, дополненной моделью мира.
Для первой попытки результат удивительно хороший и находится на одном уровне с gpt-oss-20b (средняя степень рассуждения, mid reasoning effort) при примерно том же размере.
Если используется масштабирование времени тестирования (test-time scaling), она даже работает немного лучше, чем gpt-oss-120b (высокая степень рассуждения, high reasoning effort), будучи в 4 раза меньше.
Обратите внимание, что их масштабирование времени тестирования использует процедуру best@k со сгенерированными модульными тестами (фактически это продвинутая схема голосования большинством). Было бы интересно увидеть сравнение токенов/сек или времени до решения между CWM и gpt-oss, поскольку они используют разные стратегии масштабирования времени тестирования (best@k против большего количества токенов на степень рассуждения).

5. Малые рекурсивные трансформеры
Вы могли заметить, что все предыдущие подходы все еще строятся на архитектуре трансформера. Тема этого последнего раздела тоже, но в отличие от моделей, которые мы обсуждали ранее, это небольшие специализированные трансформеры, предназначенные для рассуждений.
Да, архитектуры, ориентированные на рассуждения, не всегда должны быть большими. На самом деле, с иерархической моделью рассуждения (Hierarchical Reasoning Model, HRM) новый подход к малым рекурсивным трансформерам недавно привлек большое внимание в исследовательском сообществе.

Более конкретно: разработчики HRM показали, что даже очень маленькие модели трансформеров (всего с 4 блоками) могут развить впечатляющие способности к рассуждению на специализированных задачах, когда их обучают пошагово уточнять свои ответы. Это привело к лидирующему месту в ARC challenge.

Идея рекурсивных моделей, таких как HRM, заключается в том, что вместо получения ответа за один прямой проход модель многократно уточняет свой собственный выход рекурсивным образом. (В рамках этого процесса каждая итерация уточняет латентное представление (latent representation), которое авторы рассматривают как процесс «мысли» или «рассуждения» модели)
Первым крупным примером была HRM в начале лета, за которой последовала статья «Mixture-of-Recursions» (смесь рекурсий, MoR).
И совсем недавно «Less is More: Recursive Reasoning with Tiny Networks» (октябрь 2025 года) предлагает крошечную рекурсивную модель (Tiny Recursive Model, TRM, проиллюстрированную на рисунке ниже), которая является более простой и еще меньшей моделью (7 миллионов параметров, примерно в 4 раза меньше, чем HRM), которая работает еще лучше на бенчмарке ARC.

В оставшейся части этого раздела давайте рассмотрим TRM немного более подробно.
5.1 Что здесь означает рекурсия?
TRM уточняет свой ответ через два чередующихся обновления:
Она вычисляет латентное состояние рассуждения (latent reasoning state) из текущего вопроса и ответа
Затем она обновляет ответ на основе этого латентного состояния
Обучение занимает до 16 шагов уточнения на батч. Каждый шаг выполняет несколько циклов без вычисления градиентов (no-grad loops) для итеративного уточнения ответа. За этим следует цикл с градиентом (gradient loop), который выполняет обратное распространение через полную последовательность рассуждений для обновления весов модели.
Важно понимать, что TRM — это не языковая модель, работающая с текстом. Однако я включил ее сюда, поскольку: (a) это архитектура на основе трансформера, (b) рассуждения — центральная тема в исследованиях LLM, и эта модель представляет явно отличающийся подход к рассуждениям, и (c) многие читатели просили меня осветить HRM (а TRM является ее более продвинутым преемником), я решил включить ее сюда.
Хотя TRM в будущем можно будет расширить для текстовых задач вопрос-ответ, в настоящее время TRM работает с входными и выходными данными на основе сетки (grid-based). Другими словами, и «вопрос», и «ответ» представляют собой сетки дискретных токенов (например, судоку 9×9 или головоломки ARC/Maze 30×30), а не текстовые последовательности.
5.2 Чем TRM отличается от HRM?
HRM состоит из двух небольших модулей трансформера (по 4 блока каждый), которые взаимодействуют между уровнями рекурсии. TRM использует только один 2-слойный трансформер. (Обратите внимание, что на предыдущем рисунке TRM показан 4× рядом с блоком трансформера, но это, вероятно, сделано для упрощения сравнения с HRM)
TRM выполняет обратное распространение через все рекурсивные шаги, тогда как HRM выполняет обратное распространение только через несколько последних шагов.
HRM включает явный механизм остановки для определения момента прекращения итераций. TRM заменяет этот механизм простой бинарной кросс-энтропийной функцией потерь (binary cross-entropy loss), которая обучается определять, когда следует остановить итерации.
По производительности TRM работает действительно хорошо по сравнению с HRM, как показано на рисунке ниже.

Статья включала удивительное количество абляционных исследований, которые дали некоторые интересные дополнительные выводы. Вот два, которые выделились для меня:
Меньше слоев ведет к лучшему обобщению (generalization). Сокращение с 4 до 2 слоев улучшило точность на судоку с 79,5% до 87,4%
Внимание не требуется. Замена самовнимания на чистый MLP-слой также улучшила точность (с 74,7% до 87,4%). Но это возможно здесь только потому, что контекст небольшой и имеет фиксированную длину
5.3 Общая картина
Хотя HRM и TRM показывают действительно хорошие результаты рассуждений на этих бенчмарках, сравнивать их с большими LLM не совсем справедливо. HRM и TRM — это специализированные модели для задач вроде ARC, судоку и поиска пути в лабиринтах, тогда как LLM являются универсальными моделями (generalists). Конечно, HRM и TRM можно адаптировать для других задач, но их необходимо специально обучать для каждой задачи. Поэтому в этом смысле мы можем, возможно, думать о HRM и TRM как об эффективных карманных калькуляторах, тогда как LLM больше похожи на компьютеры, которые могут делать множество других вещей.
Тем не менее эти рекурсивные архитектуры — захватывающее доказательство концепции (proof-of-concepts), которые подчеркивают, как небольшие эффективные модели могут «рассуждать» через итеративное самоусовершенствование (iterative self-refinement). Возможно, в будущем такие модели смогут служить модулями рассуждения или планирования, встроенных в более крупные системы LLM с использованием инструментов.
Пока LLM остаются идеальными для широких задач, но специализированные рекурсивные модели, такие как TRM, могут быть разработаны для более эффективного решения определенных проблем, как только целевая область хорошо изучена. Помимо демонстрационных бенчмарков судоку, поиска пути в лабиринтах и ARC, вероятно, существует множество случаев применения в областях физики и биологии, где такие модели могли бы найти применение.
Интересная деталь: автор поделился, что обучение этой модели обошлось менее чем в $500, с использованием 4 H100 в течение примерно 2 дней. Я рад видеть, что все еще возможно делать интересные вещи без дата-центра.
6. Финальные выводы
Я изначально планировал охватить все категории моделей из обзорного рисунка, но поскольку статья получилась длиннее, чем я ожидал, мне придется отложить xLSTM, Liquid Foundation Models, гибриды трансформер-RNN и модели пространства состояний (State Space Models) на другой раз (хотя Gated DeltaNet уже дал представление о моделях пространства состояний и рекурсивных архитектурах).
В заключение хочу повторить сказанное ранее, а именно, что стандартные авторегрессивные трансформерные LLM проверены и выдержали испытание временем. Да, они не очень эффективны вычислительно, но это лучшее, что у нас есть сейчас.
Традиционные авторегрессивные трансформеры декодерного типа
Плюсы:
Проверенная и зрелая технология
«Хорошо изученные»
Законы масштабирования
SOTA
Минусы:
Дорогое обучение
Дорогой инференс (за исключением упомянутых трюков)
Если бы я сегодня начинал новый проект на основе LLM, авторегрессивные LLM на основе трансформеров были бы моим первым выбором.
Гибриды линейного внимания
Я определенно считаю и гибриды внимания очень перспективными, которые особенно интересны при работе с более длинными контекстами, где эффективность является основной проблемой.
Плюсы:
То же, что и трансформеры декодерного типа
Сокращает FLOPs/память KV в задачах с длинным контекстом
Минусы:
Добавленная сложность
Жертвует точностью ради эффективности
Модели текстовой диффузии
Модели текстовой диффузии — более радикальная разработка. Я все еще несколько скептичен относительно того, насколько хорошо они работают в повседневном использовании, поскольку я попробовал лишь несколько быстрых демонстраций.
Надеюсь, скоро мы увидим продакшн-развертывание с Gemini Diffusion от Google, которое мы сможем протестировать на ежедневных задачах и задачах кодирования, а затем узнаем, что люди на самом деле думают о них.
Плюсы:
Итеративное расшумление — свежая идея для текста
Лучший параллелизм (нет зависимости от следующего токена)
Минусы:
Невозможно потоковое воспроизведение ответов (streaming)
Не получает пользу от цепочки рассуждений (Chain-of-Thought, CoT)?
Сложный вызов инструментов (tool-calling)?
Солидные модели, но не передовые
Основное преимущество моделей текстовой диффузии — эффективность, модели мира на основе кода находятся на другом конце спектра, где они стремятся улучшить качество моделирования. Сейчас модели для кодирования на базе стандартных LLM улучшаются в основном с помощью техник рассуждения, но если вы пробовали их на сложных задачах, вы наверняка заметили, что они (более или менее) все еще не справляются и не могут хорошо решать многие из более сложных задач программирования.
Модель мира на основе кода
Я считаю модели мира на основе кода особенно интересными и верю, что они могут стать важным следующим шагом к разработке более способных систем кодирования.
Плюсы:
Перспективный подход к улучшению понимания кода
Проверяемые промежуточные состояния
Минусы:
Добавление трассировки кода усложняет обучение
Выполнение кода увеличивает задержку
Малые рекурсивные трансформеры
Наконец, мы рассмотрели малые рекурсивные трансформеры, такие как иерархические модели рассуждения и крошечные модели рассуждения. Это очень интересные доказательства концепций. Однако сегодня они прежде всего решатели головоломок, а не общими текстовыми моделями или моделями для кодирования. Поэтому они не находятся в той же категории, что и другие нестандартные альтернативы LLM, рассмотренные в этой статье. Тем не менее, они являются очень интересными доказательствами концепций, и я рад, что исследователи работают над ними.
Прямо сейчас LLM, такие как GPT-5, DeepSeek R1, Kimi K2 и так далее, разрабатываются как модели общего назначения для свободного текста, кода, математических задач и многого другого. Они похожи на подход грубой силы и универсальный инструмент, который мы используем для различных задач — от общих вопросов до математики и кода.
Однако когда мы выполняем одну и ту же задачу многократно, такие подходы грубой силы становятся неэффективными и могут быть даже не идеальными с точки зрения специализации. Именно здесь крошечные рекурсивные трансформеры становятся интересными: они могут служить легковесными моделями для конкретных задач, которые одновременно эффективны и специально созданы для повторяющихся или структурированных задач рассуждения.
Кроме того, я вижу их как потенциальные «инструменты» для других LLM с вызовом инструментов; например, когда LLM используют Python или API калькулятора для решения математических задач, специальные крошечные модели рассуждения могли бы заполнить эту нишу для других типов головоломок или задач, похожих на рассуждения.
Плюсы:
Очень небольшая архитектура
Хорошее обобщение на головоломках
Минусы:
Модели специального назначения
Ограничены головоломками (пока что)
Это была длинная статья, но я надеюсь, что вы обнаружили некоторые из увлекательных подходов, которые часто остаются за пределами внимания основных LLM.
Если вы устали от более-менее традиционных релизов LLM, я надеюсь, что эта статья помогла вам вновь зажечь интерес к ИИ, потому что прямо сейчас происходит много всего крутого вокруг!
Спасибо! Это был перевод (крайне непростой и очень трудозатратный), а вот мои самонаписанные крафтовые статейки (и мой тг-канальчик Agentic World):
Порулить браузером через LLM: пишем AI-агента в стиле «browser-use» на ванильной LLM без фреймворков
Выбираем векторную БД для AI-агентов и RAG: большой обзор баз данных и поиск смысла
От LangChain к LangGraph: детально разбираемся с фреймворками и всей Lang-экосистемой
Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью (тоже перевод)
