Три самые постоянные вещи в мире — оливье с мандаринами на Новый год, желание начать новую жизнь с понедельника и то, что если выходит статья Себастьяна Рашки, то я делаю ее качественный перевод на русский.

Эта технически глубокая статья известного исследователя LLM о том, как эволюционировали флагманские модели с открытыми весами от DeepSeek и обзор DeepSeek V3.2.


Подобно DeepSeek V3, команда выпустила свою новую флагманскую модель во время крупных праздничных выходных в США. Учитывая действительно хорошую производительность DeepSeek V3.2 (на уровне GPT-5 и Gemini 3.0 Pro), а также тот факт, что она доступна как модель с открытыми весами, она определенно заслуживает более пристального внимания.

Рисунок 1: Сравнение DeepSeek V3.2 с проприетарными флагманскими моделями на бенчмарках. Рисунок из статьи DeepSeek V3.2
Рисунок 1: Сравнение DeepSeek V3.2 с проприетарными флагманскими моделями на бенчмарках. Рисунок из статьи DeepSeek V3.2

Я рассматривал предшественника, DeepSeek V3, в самом начале моей статьи Большое сравнение архитектур LLM, которую я продолжал расширять в течение месяцев по мере выхода новых архитектур. Изначально, когда я только вернулся с праздников Дня благодарения, проведенных с семьей, я планировал «просто» расширить статью этим новым релизом DeepSeek V3.2, добавив еще один раздел, но затем понял, что слишком много интересной информации хочется раскрыть, поэтому решил сделать из этого отдельную статью.

Здесь много интересного материала для рассмотрения и многому можно научиться из их технических отчетов, так что давайте начнем!

1. Хронология релизов DeepSeek

Хотя DeepSeek V3 не стал популярным сразу после выхода в декабре 2024 года, специализированная рассуждающая модель DeepSeek R1 (основанная на идентичной архитектуре, использующая DeepSeek V3 в качестве базовой модели) помогла DeepSeek стать одной из самых популярных моделей с открытыми весами и полноценной альтернативой проприетарным моделям, таким как модели от OpenAI, Google, xAI и Anthropic.

Рисунок 2: Архитектура DeepSeek V3/R1 от декабря 2024 года. Мы вернемся к архитектурным деталям и обсудим их в следующем разделе
Рисунок 2: Архитектура DeepSeek V3/R1 от декабря 2024 года. Мы вернемся к архитектурным деталям и обсудим их в следующем разделе

Итак, что нового с момента V3/R1? Я уверен, что команда DeepSeek была очень занята в этом году, но за последние 10-11 месяцев с момента DeepSeek R1 крупного релиза не было.

Лично я считаю разумным выпускать крупную LLM примерно раз в год, поскольку это ОГРОМНЫЙ объем работы. Однако я видел в различных социальных сетях, как люди объявляли команду DeepSeek «мертвой» (как музыканты-однодневки) [прим. пер.: «one-hit wonder» в оригинале это обозначение музыкантов, у которых был только один хит, после чего они исчезли и не смогли повторить успех].

Я уверен, что команда также была занята переходом с чипов NVIDIA на Huawei. Кстати, я никак не связан и не общался с ними и все здесь основано на публичной информации, но насколько мне известно, они все же вернулись к использованию чипов NVIDIA.

Наконец, дело не в том, что они ничего не выпускали. В этом году было несколько более мелких релизов, которые появлялись постепенно, например, DeepSeek V3.1 и V3.2-Exp.

Рисунок 3: Релизы DeepSeek с прошлого года, основные модели показаны красным
Рисунок 3: Релизы DeepSeek с прошлого года, основные модели показаны красным

Как я предсказывал еще в сентябре, релиз DeepSeek V3.2-Exp был призван подготовить экосистему и инфраструктуру инференса к размещению только что выпущенной модели V3.2.

V3.2-Exp и V3.2 используют нестандартный вариант разреженного внимания (sparse attention), который требует ��пециального кода, но подробнее об этом механизме позже. (у меня было искушение осветить это в моей предыдущей статье, но примерно тогда же вышел Kimi Linear, которому я отдал приоритет для раздела этой статьи о новых вариантах внимания)

2. Гибридные и специализированные рассуждающие модели

Прежде чем обсуждать дальнейшие детали модели, стоит рассмотреть типы моделей в целом. Изначально DeepSeek V3 был выпущен как базовая модель, а DeepSeek R1 добавил дополнительное пост-обучение для разработки специализированной рассуждающей модели. Эта процедура обобщена на рисунке ниже.

Рисунок 4: Обзор конвейера обучения DeepSeek R1
Рисунок 4: Обзор конвейера обучения DeepSeek R1

Вы можете прочитать больше о конвейере обучения на рисунке выше в моей статье Understanding Reasoning LLMs.

Здесь стоит отметить, что DeepSeek V3 — это базовая модель, а DeepSeek R1 — специализированная рассуждающая модель.

Параллельно с DeepSeek другие команды также выпустили много действительно сильных моделей с открытыми весами для рассуждений. Одной из самых сильных моделей с открытыми весами в этом году была Qwen3. Изначально она была выпущена как гибридная рассуждающая модель, что означает, что пользователи могли переключаться между режимами рассуждения и без рассуждения внутри одной модели. (в случае Qwen3 это переключение осуществлялось через токенизатор путем добавления/удаления тегов <think></think>)

С тех пор команды LLM выпускали (а в некоторых случаях переходили туда и обратно между) как специализированные рассуждающие модели, так и гибридные модели Instruct/Рассуждение, как показано на временной шкале ниже.

Рисунок 5: Хронология некоторых рассуждающих и гибридных моделей, выпущенных в этом году
Рисунок 5: Хронология некоторых рассуждающих и гибридных моделей, выпущенных в этом году

Например, Qwen3 начинала как гибридная модель, но затем команда Qwen выпустила отдельные модели Instruct и модели для рассуждений, так как их было легче разрабатывать и они давали лучшую производительность в каждом соответствующем случае использования.

Некоторые модели, такие как gpt-oss от OpenAI, выпускаются только в гибридном варианте, где пользователи могут выбирать степень рассуждения через системный промпт (я подозреваю, что это реализовано аналогично в GPT-5 и GPT-5.1).

А в случае с DeepSeek похоже, что они двигались в противоположном направлении — от специализированной рассуждающей модели (R1) к гибридной модели (V3.1 и V3.2). Однако я подозреваю, что R1 была в основном исследовательским проектом для разработки методов рассуждения и лучшей рассуждающей модели на тот момент. Релиз V3.2 может быть больше направлен на разработку лучшей универсальной модели для различных случаев использования. (здесь R1 служила скорее испытательным стендом или прототипом модели)

И я также думаю, что нес��отря на разработку V3.1 и V3.2 с возможностями рассуждения, команда все еще может работать над специализированной моделью R2.

3. От DeepSeek V3 к V3.1

Прежде чем обсуждать новый релиз DeepSeek V3.2 более подробно, я подумал, что будет полезно начать с обзора основных изменений при переходе от V3 к V3.1.

3.1 Обзор DeepSeek V3 и многоголовое латентное внимание (Multi-Head Latent Attention, MLA)

Я уже подробно обсуждал DeepSeek V3 и R1 в нескольких других статьях. Если резюмировать основные моменты, DeepSeek V3 — это базовая модель, которая использует два примечательных архитектурных аспекта: смесь экспертов (Mixture-of-Experts, MoE) и многоголовое латентное внимание (Multi-Head Latent Attention, MLA).

Я думаю, вы, вероятно, уже хорошо знакомы с MoE на данный момент, поэтому я пропущу введение здесь. Однако, если вы хотите прочитать больше, я рекомендую краткий обзор в моей статье The Big Architecture Comparison для более подробного контекста.

Другой примечательный момент — это использование MLA. MLA, которое используется в DeepSeek V2, V3 и R1, предлагает стратегию экономии памяти, которая особенно хорошо сочетается с KV-кешированием. Идея MLA заключается в том, что оно сжимает тензоры ключей и значений в пространство меньшей размерности перед их сохранением в KV-кеш.

Во время инференса эти сжатые тензоры проецируются обратно к их исходному размеру перед использованием, как показано на рисунке ниже. Это требует дополнительного матричного умножения, но снижает использование памяти.

(В качестве примечания, запросы также сжимаются, но только во время обучения, а не инференса)

Рисунок 6: MLA в DeepSeek V3/R1 (сжатое пространство вектора запроса не показано для простоты)
Рисунок 6: MLA в DeepSeek V3/R1 (сжатое пространство вектора запроса не показано для простоты)

Рисунок выше иллюстрирует основную идею, лежащую в основе MLA, где ключи и значения сначала проецируются в латентный вектор, который затем может быть сохранен в KV-кеш для снижения требований к памяти. Это требует последующей повышающей проекции обратно в исходное пространство ключей-значений, но в целом это повышает эффективность (по аналогии, вы можете думать о понижающих и повышающих проекциях в LoRA).

Обратите внимание, что запрос также проецируется в отдельное сжатое пространство, аналогично тому, что показано для ключей и значений. Однако я опустил это на рисунке выше для простоты.

Кстати, как упоминалось ранее, MLA не является новым в DeepSeek V3, так как его предшественник DeepSeek V2 также использовал (и даже представил) его.

3.2 Обзор DeepSeek R1 и обучение с подкреплением с верифицируемыми наградами (Reinforcement Learning with Verifiable Rewards, RLVR)

DeepSeek R1 использует ту же архитектуру, что и DeepSeek V3, описанный выше. Разница заключается в методике обучения. То есть, используя DeepSeek V3 в качестве базовой модели, DeepSeek R1 был сфокусирован на методе обучения с подкреплением с верифицируемыми наградами (Reinforcement Learning with Verifiable Rewards, RLVR) для улучшения возможностей модели к рассуждению.

Основная идея RLVR заключается в том, чтобы модель обучалась на основе ответов, которые могут быть проверены символически или программно, таких как математика и код (но это, конечно, может быть расширено и за пределы этих двух областей).

Рисунок 7: Пример верифицируемой задачи
Рисунок 7: Пример верифицируемой задачи

Алгоритм GRPO, что расшифровывается как групповая относительная оптимизация политики (Group Relative Policy Optimization), по сути является более простым вариантом алгоритма проксимальной оптимизации политики (Proximal Policy Optimization, PPO), который популярен в обучении с подкреплением с человеческой обратной связью (Reinforcement Learning with Human Feedback, RLHF), используемом для выравнивания LLM.

Рисунок 8: Сравнение настроек обучения с подкреплением в обучении LLM. Традиционное RLHF с PPO использует как модель наград (обученную на человеческих предпочтениях), так и критика (модель ценности) для управления обучением. GRPO устраняет модель критика. RLVR с GRPO идет еще дальше, удаляя модель наград и полагаясь вместо этого на верифицируемые награды от символических инструментов, таких как калькуляторы или компиляторы
Рисунок 8: Сравнение настроек обучения с подкреплением в обучении LLM. Традиционное RLHF с PPO использует как модель наград (обученную на человеческих предпочтениях), так и критика (модель ценности) для управления обучением. GRPO устраняет модель критика. RLVR с GRPO идет еще дальше, удаляя модель наград и полагаясь вместо этого на верифицируемые награды от символических инструментов, таких как калькуляторы или компиляторы

Я более подробно рассмотрел обучение RLVR с их алгоритмом GRPO (включая математику, лежащую в его основе) в моей статье The State of Reinforcement Learning for LLM Reasoning, если вам интересна дополнительная информация.

3.3 Обновление версии DeepSeek R1-0528

Как заявила сама команда DeepSeek, DeepSeek R1-0528 — это, по сути, «минорное обновление версии».

Архитектура остается той же, что и в DeepSeek V3/R1, а улучшения находятся на стороне обучения, чтобы довести ее до уровня OpenAI o3 и Gemini 2.5 Pro на тот момент.

К сожалению, команда DeepSeek не опубликовала какую-либо конкретную информацию, описывающую, как это было достигнуто; однако они заявили, что это частично связано с оптимизацией в их конвейере пост-обучения. Также, основываясь на том, чем поделились, я думаю, вероятно, что размещенная версия модели использует больше вычислительных ресурсов во время инференса (более длительное рассуждение).

3.4 DeepSeek V3.1: Гибридное рассуждение

DeepSeek V3.1 — это гибридная модель с возможностями как инструктивной модели (instruct), так и рассуждения. То есть, в��есто разработки двух отдельных моделей, теперь есть одна модель, в которой пользователи могут переключать режимы через шаблон чат-промпта (аналогично первоначальной модели Qwen3).

DeepSeek V3.1 основан на DeepSeek V3.1-Base, который, в свою очередь, основан на DeepSeek V3. Все они используют одну и ту же архитектуру.

4. DeepSeek V3.2-Exp и разреженное внимание

DeepSeek V3.2-Exp (сентябрь 2025) — вот здесь все становится интереснее.

Изначально DeepSeek V3.2-Exp не показал лучших результатов на бенчмарках, поэтому модель не вызвала особого ажиотажа при выпуске. Однако, как я предполагал еще в сентябре, это был вероятно ранний экспериментальный релиз, чтобы подготовить инфраструктуру (особенно инструменты инференса и развертывания) к более крупному релизу, поскольку в DeepSeek V3.2-Exp есть несколько архитектурных изменений. Более крупный релиз — это DeepSeek V3.2 (не V4), но об этом позже.

Итак, что нового в DeepSeek V3.2-Exp? Во-первых, DeepSeek V3.2-Exp был обучен на основе DeepSeek V3.1-Terminus в качестве базовой модели. Что такое DeepSeek V3.1-Terminus? Это просто небольшое улучшение контрольной точки DeepSeek V3.1, упомянутой в предыдущем разделе.

В техническом отчете говорится, что:

DeepSeek-V3.2-Exp, экспериментальная модель с разреженным вниманием, которая оснащает DeepSeek-V3.1-Terminus механизмом разреженного внимания DeepSeek (DeepSeek Sparse Attention, DSA) через продолженное обучение. С DSA, детализированным механизмом разреженного внимания на основе молниеносного индексатора, DeepSeek-V3.2-Exp достигает значительных улучшений эффективности как в обучении, так и в инференсе, особенно в ��ценариях с длинным контекстом.

Рисунок 9: В внимании со скользящим окном текущий запросный токен учитывает не все предыдущие токены, а только подмножество
Рисунок 9: В внимании со скользящим окном текущий запросный токен учитывает не все предыдущие токены, а только подмножество

DSA основан на той же идее, что и внимание скользящего окна (sliding-window attention): можно обращаться только к части предыдущих токенов. Однако вместо выбора токенов с помощью окна фиксированной ширины в DSA используется индексатор (indexer) и селектор токенов (token selector), которые определяют, к каким прошлым токенам можно обращаться. Другими словами, набор доступных для внимания токенов более случаен, как показано на рисунке ниже.

Рисунок 10: В DSA текущий токен может учитывать выборочное количество токенов в прошлом (вместо всех токенов, как в обычном причинном внимании).
Рисунок 10: В DSA текущий токен может учитывать выборочное количество токенов в прошлом (вместо всех токенов, как в обычном причинном внимании).

Однако, хотя выше я сказал «случаен», на самом деле шаблон выбора прош��ых токенов не является случайным — он обучается.

На практике DSA использует так называемый молниеносный индексатор (lightning indexer, есть варианты перевода как скоростной) для вычисления оценок релевантности для каждого нового токена-запроса на основе всех предыдущих токенов. Для этого вычисления молниеносный индексатор использует сжатые представления токенов в MLA и вычисляет сходство токенов с другими токенами. Оценка сходства по сути представляет собой масштабированное скалярное произведение между векторами запроса и ключа, пропущенное через функцию ReLU.

Если вам интересны математические детали, ниже приведено уравнение (взятое из статьи) для этой оценки сходства молниеносного индексатора:

Здесь w — это обучаемый коэффициент взвешивания для каждой головы, который определяет, насколько каждая голова индексатора должна влиять на итоговую оценку сходства. Обозначение q относится к вектору запроса, а k — к вектору ключа. Ниже приведен список используемых индексов:

  • t: позиция текущего токена-запроса;

  • s: позиция предыдущего токена в последовательности (0 ≤ s < t);

  • j: индекс по разным головам индексатора (на рисунке 10 выше для простоты была показана только одна голова), поэтому запись qt, j означает «вектор запроса для текущего токена t в голове индексатора j»

Вы можете заметить, что индексатор применяется только к запросам, а не к ключам. Это потому, что модели нужно лишь решить, какие пр��шлые токены должен учитывать каждый новый запрос. Ключи уже сжаты и сохранены в KV-кеше, поэтому индексатору не нужно снова оценивать или сжимать их по разным головам.

Функция ReLU здесь, поскольку f(x) = max(x, 0), зануляет позиции с отрицательным скалярным произведением, что теоретически могло бы обеспечить разреженность, но из-за суммирования по разным головам маловероятно, что оценка индексатора действительно будет равна 0. Разреженность же появляется благодаря отдельному селектору токенов.

Отдельный селектор токенов сохраняет лишь небольшое количество токенов с высокими оценками (например, позиции из top-k) и создает разреженную маску внимания, которая исключает другие токены, не входящие в выбранное подмножество. (параметр k в top-k, не путать с k, используемым для ключей в уравнении выше, является гиперпараметром, установленным равным 2048 в коде модели, который команда DeepSeek предоставила)

Рисунок ниже иллюстрирует весь процесс в виде блок-схемы.

Рисунок 11: Наглядное представление механизма разреженного внимания DeepSeek V3.2
Рисунок 11: Наглядное представление механизма разреженного внимания DeepSeek V3.2

Подытоживая, индексатор и селектор токенов приводят к тому, что каждый токен обращается лишь к нескольким прошлым токенам, которые модель научилась считать наиболее релевантными, а не ко всем токенам или фиксированному локальному окну.

Цель здесь заключалась не в улучшении производительности по сравнению с моделью DeepSeek V3.1-Terminus, а в уменьшении деградации производительности (вызванной разреженным механизмом внимания) при одновременном получении преимуществ повышенной эффективности.

В целом DSA снижает вычислительную сложность механизма внимания с квадратичной O(𝐿²), где L — длина последовательности, до линейной O(𝐿k), где k (≪ L) — количество выбранных токенов.

5. DeepSeekMath V2 с самопроверкой (Self-Verification) и самоулучшением (Self-Refinement)

Обсудив DeepSeek V3.2-Exp, мы приближаемся к основной теме этой статьи — DeepSeek V3.2. Однако перед этим нужно разобрать еще один элемент головоломки.

27 ноября 2025 года (в День благодарения в США), всего за 4 дня до релиза DeepSeek V3.2, команда DeepSeek выпустила DeepSeekMath V2, основанную на DeepSeek V3.2-Exp-Base.

Эта модель была разработана специально для задач по математике и достигла золотого уровня в нескольких математических соревнованиях. По сути, можно рассматривать ее как демонстрационную модель для DeepSeek V3.2, вводящую еще один дополнительный прием.

Ключевой момент здесь в том, что модели рассуждений (такие как DeepSeek R1 и другие) обучаются с внешним верификатором, и модель самостоятельно учится писать объяснения перед тем, как прийти к итоговому ответу. Однако эти объяснения могут быть некорректными.

Как лаконично отмечает команда DeepSeek, недостатки обычного RLVR заключаются в следующем:

«[...] правильные ответы не гарантируют правильных рассуждений.

[...] модель может прийти к правильному ответу через ошибочную логику или благодаря удачным ошибкам.��

Другое ограничение подхода RLVR в DeepSeek R1, которое они стремятся устранить, заключается в следующем:

«[...] многие математические задачи, такие как доказательство теорем, требуют строгого пошагового вывода, а не численных ответов, что делает вознаграждение только за итоговый ответ неприменимым.»

Итак, чтобы улучшить два указанных выше недостатка, в этой статье они обучают две модели:

1. проверяющую модель (верификатор), основанную на LLM, для доказательства теорем;

2. основную модель — генератор доказательств, которая использует проверяющую модель на основе LLM как модель вознаграждений (вместо символического верификатора).

В дополнение к этой самопроверке с помощью LLM, описанной выше, они также используют самоулучшение (self-refinement), чтобы заставить LLM итеративно улучшать собственные ответы.

5.1 Самопроверка (Self-Verification)

То, что LLM оценивает промежуточные шаги, не является чем-то новым. Существует целое направление исследований, посвященное так называемым моделям вознаграждений по процессу (process reward models).

Наиболее известными примерами являются статьи «Solving Math Word Problems With Process- and Outcome-based Feedback» и «Let’s Verify Step by Step», но таких работ значительно больше.

Проблемы моделей вознаграждений по процессу заключаются в том, что непросто проверять корректность промежуточных вознаграждений, и они также могут приводить к взлому вознаграждений.

В статье DeepSeek R1 от января 2025 года они не использовали модели вознаграждений по процессу, поскольку обнаружили, что:

«…его преимущества ограничены по сравнению с дополнительными вычислительными затратами, которые он вносит в процесс крупномасштабного обучения с подкреплением в наших экспериментах.»

В этой статье они успешно возвращаются к этому подходу в форме самопроверки. Мотивация заключается в том, что даже если эталонного решения не существует, человек способен самокорректироваться, читая доказательства и выявляя проблемы.

Поэтому, чтобы разработать лучшую модель для написания математических доказательств (доказатель, LLM 1 на рисунке ниже), они разработали проверяющую модель доказательств (верификатор, LLM 2 на рисунке ниже), которая может использоваться как LLM-судья для выставления оценок выводам модели-доказателя (LLM 1).

Рисунок 12: Схема генератора математических доказательств (LLM 1) и верификатора (LLM 2)
Рисунок 12: Схема генератора математических доказательств (LLM 1) и верификатора (LLM 2)

Верификатор (LLM 2) получает рубрику для оценивания сгенерированного доказательства, где оценка выставляется следующим образом:

«1 — за полные и строгие доказательства, в которых все логические шаги ясно обоснованы;»

«0.5 — за доказательства с корректной общей логикой, но с незначительными ошибками или пропущенными деталями;»

«и 0 — за фундаментально ошибочные доказательства, содержащие фатальные логические ошибки или критические пробелы.»

Для верификатора они начинают с DeepSeek V3.2-Exp-SFT — модели, созданной на основе DeepSeek V3.2-Exp путем обучающего дообучения на данных рассуждений (как математических, так и кодовых). Затем они дополнительно обучают модель с помощью обучения с подкреплением, используя вознаграждение за формат (проверку того, соответствует ли решение ожидаемому формату) и вознаграждение за оценку, основанное на том, насколько предсказанная моделью оценка близка к истинной оценке (аннотированной экспертами по математике).

Цель верификатора (LLM 2) — проверять сгенерированные доказательства (LLM 1), но кто проверяет верификатора? Чтобы сделать верификатора более надежным и предотвратить галлюцинации ошибок, они разработали третью LLM — мета-верификатора.

Рисунок 13: Мета-верификатор (LLM 3) проверяет, правильно ли верификатор (LLM 2) верифицирует генератор (LLM 1)
Рисунок 13: Мета-верификатор (LLM 3) проверяет, правильно ли верификатор (LLM 2) верифицирует генератор (LLM 1)

Мета-верификатор (LLM 3) также разработан с использованием обучения с подкреплением, аналогично LLM 2. Хотя использование мета-верификатора не является обязательным, команда DeepSeek отмечает, что:

«средняя оценка качества анализа доказательств верификатором — по оценке мета-верификатора — повысилась с 0.85 до 0.96 при сохранении той же точности предсказания оценки доказательства.»

Это на самом деле довольно интересная схема. Если вы знакомы с генеративными состязательными сетями (GAN), вы можете увидеть здесь аналогию. Например, верификатор доказательств (думайте о нем как о дискриминаторе GAN) улучшает генератор доказательств, а генератор доказательств создает лучшие доказательства, что в свою очередь улучшает верификатора доказательств.

Мета-оценка используется во время обучения верификатора (LLM 2) и генератора (LLM 1). Она не используется во время инференса в цикле самоулучшения, который мы обсудим в следующем разделе.

5.2 Самоулучшение

В предыдущем разделе мы говорили о самопроверке, то есть анализе качества решения. Цель этого — реализовать самоулучшение, что означает, что LLM может использовать обратную связь и исправлять свой ответ.

Традиционно при самоулучшении, которое является устоявшейся и популярной техникой масштабирования инференса, мы используем одну и ту же LLM для генерации решения и его проверки перед тем, как выполнить доработку. Другими словами, на предыдущих рисунках 12 и 13 LLM 1 и LLM 2 были бы одной и той же LLM. Таким образом, традиционный процесс самоулучшения выглядел бы следующим образом:

Рисунок 14: Классическая итерация самоулучшения, где мы используем одну и ту же LLM для генерации начального ответа (Выход 1), оценки (Eval) и улучшенного ответа (Выход 2)
Рисунок 14: Классическая итерация самоулучшения, где мы используем одну и ту же LLM для генерации начального ответа (Выход 1), оценки (Eval) и улучшенного ответа (Выход 2)

Однако команда DeepSeek обнаружила критическую проблему при использовании одной и той же LLM как для генерации, так и для проверки на практике:

«когда генератору предлагается одновременно сгенерировать и проанализировать собственное доказательство, он склонен заявлять о корректности, даже когда внешний верификатор легко выявляет ошибки. Другими словами, хотя генератор может улучшать доказательства на основе внешней обратной связи, он не способен оценивать собственную работу с той же строгостью, что и специализированный верификатор.»

Как логическое следствие, можно предположить, что они используют отдельный генератор доказательств (LLM 1) и верификатор доказательств (LLM 2). Таким образом, цикл самоулучшения, используемый здесь, становится похож на тот, что показан на рисунке ниже. Заметим, что мы опускаем LLM 3, которая используется только во время разработки верификатора (LLM 2).

Рисунок 15: Самоулучшение с отдельным LLM-верификатором (LLM 2)
Рисунок 15: Самоулучшение с отдельным LLM-верификатором (LLM 2)

Однако на практике и в отличие от рисунка 15, команда DeepSeek использует одну и ту же LLM для генератора и проверяющего, как в классическом цикле самоулучшения на рисунке 14:

«Во всех экспериментах использовалась одна модель — наш финальный генератор доказательств, — которая выполняет как генерацию доказательств, так и их проверку.»

Другими словами, отдельный верификатор необходим на этапе обучения, чтобы улучшить генератор, но он не используется (и не нужен) позже во время инференса, когда генератор становится достаточно сильным. И ключевое отличие от наивного самоулучшения одной моделью состоит в том, что финальный доказатель был обучен под руководством более сильных верификатора и мета-верификатора, поэтому он научился применять эти рубрики к собственным выводам.

Кроме того, использование этого совмещенного верификатора DeepSeekMath V2 во время инференса также выгодно с точки зрения ресурсов и стоимости, поскольку оно добавляет меньше сложности и вычислительных требований, чем запуск второй LLM для проверки доказательств.

Возвращаясь к общей концепции самоулучшения, показанной на рисунках 14 и 15, оба рисунка демонстрируют самоулучшение с двумя итерациями (начальная и улучшенный ответ). Разумеется, мы можем добавить больше итераций в этот процесс. Это классический компромисс масштабирования инференса: чем больше итераций мы добавляем, тем дороже становится генерация ответа, но тем выше итоговая точность.

В статье команда DeepSeek использовала до 8 итераций, и, похоже, точность еще не достигла насыщения.

Рисунок 16: Дополнительные итерации самоулучшения повышают точность. Рисунок из статьи DeepSeekMath V2. Метод голосования большинством Best@32 для точности также известен как «самосогласованность» (self-consistency)
Рисунок 16: Дополнительные итерации самоулучшения повышают точность. Рисунок из статьи DeepSeekMath V2. Метод голосования большинством Best@32 для точности также известен как «самосогласованность» (self-consistency)

6. DeepSeek V3.2 (1 декабря 2025 г.)

Причина, по которой мы уделили так много внимания DeepSeekMath V2 в предыдущем разделе, заключается в том, что а) это очень интересная демонстрационная модель, продвигающая идею обучения с подкреплением с верифицируемыми наградами (уже знакомый нам RLVR) дальше за счет техник самопроверки и самоулучшения, и б) техники самопроверки и самоулучшения используются также и в DeepSeek V3.2.

Но прежде чем перейти к этой части, начнем с общего обзора DeepSeek V3.2. Эта модель имеет большое значение, потому что она показывает действительно высокие результаты по сравнению с текущими флагманскими моделями.

Рисунок 17: Сравнение DeepSeek V3.2 с проприетарными флагманскими моделями на бенчмарках. Рисунок из статьи DeepSeek V3.2
Рисунок 17: Сравнение DeepSeek V3.2 с проприетарными флагманскими моделями на бенчмарках. Рисунок из статьи DeepSeek V3.2

Подобно нескольким другим моделям DeepSeek, V3.2 сопровождается хорошим техническим отчетом, который я рассмотрю в следующих разделах.

6.1 Архитектура DeepSeek V3.2

Основная мотивация для этой модели, конечно же, улучшить общую производительность модели. Например, как и DeepSeekMath V2, она достигает производительности золотого уровня на математических бенчмарках. Однако модель также обучена с учетом использования инструментов и показывает хорошие результаты в других задачах, например, в коде и агентных задачах.

В то же время команда DeepSeek пишет о вычислительной эффективности как о важном мотивирующем факторе. Вот почему они используют MLA из V2 и V3 вместе с DSA, который они добавили в V3.2. Фактически, в статье говорится, что «DeepSeek-V3.2 использует ту же архитектуру, что и DeepSeek-V3.2-Exp», которую мы обсуждали в предыдущем разделе.

Рисунок 18: Архитектура DeepSeek V3.2
Рисунок 18: Архитектура DeepSeek V3.2

Как я упоминал ранее, релиз DeepSeek V3.2-Exp был вероятно призван подготовить экосистему и инфраструктуру инференса к размещению только что выпущенной модели V3.2.

Рисунок 19: Экономия затрат на инференс благодаря разреженному вниманию DeepSeek (DSA). Рисунок из статьи DeepSeek V3.2
Рисунок 19: Экономия затрат на инференс благодаря разреженному вниманию DeepSeek (DSA). Рисунок из статьи DeepSeek V3.2

Интересно, что, как показывает скриншот из статьи выше, команда DeepSeek вернулась к использованию чипов NVIDIA (после того, как они якобы экспериментировали с обучением модели на чипах от Huawei).

Поскольку архитектура такая же, как у DeepSeek V3.2-Exp, интересные детали заключаются в методах обучения, которые мы обсудим в следующих разделах.

6.2 Обновления обучения с подкреплением

В целом команда DeepSeek применяет RLVR, используя GRPO, аналогично DeepSeek R1. Однако есть несколько интересных обновлений для обсуждения.

Изначально DeepSeek R1 использовал:

  • награду за формат (чтобы убедиться, что ответ правильно отформатирован);

  • награду за языковую согласованность (чтобы модель не переключалась между разными языками при написании ответа);

  • и основную награду верификатора (правилен ответ в математической или кодовой задаче или нет)

Для DeepSeek V3.2 они изменили награды:

Для задач рассуждения и агентных задач мы используем награду за результат на основе правил, штраф за длину и награду за языковую согласованность. Для общих задач мы используем генеративную модель наград, где каждый промпт имеет свои собственные критерии для оценки.

Например, они убрали награду за формат, но добавили штраф за длину для агентных задач. Затем, для общих задач, где нет символического верификатора (математика) или интерпретатора кода для проверки ответа, они используют модель наград (другую LLM, обученную выдавать оценку награды).

Таким образом, похоже, что конвейер больше не является чисто основанным на верификаторе RLVR, как в DeepSeek R1, а представляет собой гибрид RLVR (для верифицируемых областей) и более стандартного моделирования наград с LLM в качестве судьи для всего остального.

Для математической области они заявляют, что дополнительно «включили набор данных и метод наград из DeepSeekMath-V2», который мы обсуждали ранее в этой статье.

6.3 Обновления GRPO

Что касается самого GRPO, алгоритма обучения внутри конвейера RLVR, они также внесли несколько изменений по сравнению с оригинальной версией в статье DeepSeek R1.

За последние несколько месяцев десятки статей предложили модификации GRPO для улучшения его стабильности и эффективности. Я писал о двух популярных, DAPO и Dr. GRPO (Doctor GRPO), в начале этого года в моей статье The State of Reinforcement Learning for LLM Reasoning.

Не вдаваясь в математические детали GRPO, если кратко, DAPO модифицирует GRPO с помощью асимметричного отсечения, динамической выборки, функции потерь на уровне токенов и явного формирования награды на основе длины. Dr. GRPO изменяет саму целевую функцию GRPO, чтобы убрать нормализации по длине и стандартному отклонению.

В недавней статье Olmo 3 также были приняты похожие изменения, которые я цитирую ниже:

  • Фильтрация сигнала с нулевым градиентом: Мы удаляем группы экземпляров, награды которых все идентичны (то есть батч с нулевым стандартным отклонением в их преимуществе), чтобы избежать обучения на сэмплах, которые не дают градиента, аналогично DAPO (Yu et al., 2025). [DAPO]

  • Активная выборка: Мы поддерживаем постоянный размер батча, несмотря на фильтрацию нулевого градиента, с помощью новой, более эффективной версии динамической выборки (Yu et al., 2025)

  • Функция потерь на уровне токенов: Мы используем функцию потерь на уровне токенов для нормализации потерь по общему количеству токенов в батче (Yu et al., 2025), а не на образец, чтобы избежать смещения по длине [DAPO]

  • Отсутствие KL-потерь: Мы убираем KL-потери как общепринятую практику (GLM-4.5 Team et al., 2025; Yu et al., 2025; Liu et al., 2025b), поскольку это позволяет менее ограниченные обновления политики, и их удаление не приводит к переоптимизации или дестабилизации обучения [DAPO и Dr. GRPO]

  • Более высокое отсечение: Мы устанавливаем верхний порог отсечения в функции потерь на немного более высокое значение, чем нижний порог, чтобы разрешить большие обновления на токенах, как предложено Yu et al. (2025). [DAPO]

  • Усеченная выборка по важности (truncated importance sampling): Чтобы скорректировать различия между логарифмическими вероятностями из движков инференса и обучения, мы умножаем потери на коэффициент усеченной выборки по важности, следуя Yao et al. (2025).

  • Отсутствие нормализации по стандартному отклонению: При вычислении преимущества мы не нормализуем по стандартному отклонению группы, следуя Liu et al. (2025b). Это устраняет смещение сложности, когда вопросы с низким стандартным отклонением в их наградах (например, слишком сложные или слишком легкие) имеют свои преимущества значительно увеличенными членом нормализации [Dr. GRPO]

Модификации GRPO в DeepSeek V3.2 немного менее радикальные, что я резюмировал в стиле, аналогичном Olmo 3:

  • Веса KL для конкретных областей (включая ноль для математики): вместо того, чтобы всегда убирать KL, как делают DAPO и Dr. GRPO для RL в математическом стиле, DeepSeek V3.2 сохраняет член KL в целевой функции, но настраивает его вес для каждой области. Однако они также отмечают, что очень слабый или даже нулевой KL часто работает лучше всего для математики (но вместо полного удаления он становится гиперпараметром)

  • Несмещенная оценка KL: как упоминалось выше, DeepSeek V3.2 не убирает штраф KL. И помимо того, что относятся к нему как к настраиваемому параметру, они предлагают исправление того, как штраф KL оценивается в GRPO, путем перевзвешивания члена KL с тем же коэффициентом важности, который используется для основных потерь, чтобы градиент KL фактически соответствовал тому факту, что сэмплы приходят от старой политики, а не от текущей

  • Маскирование последовательностей вне политики (off-policy): когда они повторно используют данные развертывания (rollout — это просто жаргон для полной последовательности, которую генерирует модель) на протяжении многих шагов градиента, DeepSeek V3.2 измеряет, насколько далеко текущая политика отклонилась от политики развертывания на каждом полном ответе и просто отбрасывает те последовательности, которые одновременно имеют отрицательное преимущество и являются «слишком вне политики». Таким образом, это предотвращает обучение модели на чрезмерно внеполитических или устаревших данных

  • Сохранение маршрутизации для MoE моделей: для основы со смесью экспертов они логируют, какие эксперты были активированы во время развертывания, и принудительно используют тот же паттерн маршрутизации во время обучения, чтобы обновления градиента были для тех экспертов, которые произвели сгенерированные ответы

  • Сохранение маски сэмплирования для top-p / top-k: Когда развертывания используют ��эмплирование top-p или top-k, DeepSeek V3.2 сохраняет маску выбора и применяет ее повторно при вычислении потерь GRPO и KL, чтобы пространство действий во время обучения соответствовало тому, что было фактически доступно во время сэмплирования

  • Сохранение оригинальной нормализации преимущества GRPO: Dr. GRPO показывает, что члены нормализации GRPO по длине и по стандартному отклонению внутри группы смещают оптимизацию в сторону чрезмерно длинных неправильных ответов и придают слишком большой вес очень легким или очень сложным вопросам. Dr. GRPO исправляет это путем удаления обоих членов и возвращения к несмещенной целевой функции в стиле PPO. В отличие от этого, DAPO переходит к функции потерь на уровне токенов, что также меняет то, как взвешиваются длинные и короткие ответы. DeepSeek V3.2, однако, сохраняет оригинальную нормализацию GRPO и вместо этого фокусируется на других вышеперечисленных исправлениях

Таким образом, в целом DeepSeek V3.2 ближе к оригинальным алгоритмам GRPO, чем некоторые другие недавние модели, но добавляет некоторые логичные доработки.

6.4 DeepSeek V3.2-Speciale и расширенное мышление

DeepSeek V3.2 также выпускается в экстремальном варианте с расширенным мышлением под названием DeepSeek V3.2-Speciale, который был обучен только на данных для рассуждений на этапе RL (более похоже на DeepSeek R1). Помимо обучения только на данных для рассуждений, они также снизили штраф за длину во время RL, позволяя модели выдавать более длинные ответы.

Генерация более длинных ответов — это форма масштабирования инференса, где ответы становятся более дорогими из-за увеличенной длины, в о��мен на лучшие результаты.

Рисунок 20: Модель Speciale с «расширенным мышлением» достигает более высокой точности, но также генерирует больше токенов
Рисунок 20: Модель Speciale с «расширенным мышлением» достигает более высокой точности, но также генерирует больше токенов

7. Выводы

В этой статье я не рассмотрел все мельчайшие детали подхода к обучению DeepSeek V3.2, но надеюсь, что сравнение с предыдущими моделями DeepSeek помогает прояснить основные моменты и инновации.

Если кратко, интересные выводы таковы:

  • DeepSeek V3.2 использует архитектуру, аналогичную всем своим предшественникам, начиная с DeepSeek V3;

  • Основная архитектурная доработка заключается в том, что они добавили механизм разреженного внимания из DeepSeek V3.2-Exp для повышения эффективности;

  • Для улучшения производительности в математике они приняли подход самопроверки из DeepSeekMath V2;

  • Существует несколько улучшений конвейера обучения, например, обновления стабильности GRPO (обратите внимание, что статья рассматривает несколько других аспектов, связанных с дистилляцией, обучением на длинном контексте, интеграцией использования инструментов аналогично gpt-oss, которые мы не рассмотрели в этой статье).

Независимо от относительной доли рынка моделей DeepSeek по сравнению с другими меньшими моделями с открытыми весами или проприетарными моделями, такими как GPT-5.1 или Gemini 3.0 Pro, одно можно сказать точно: релизы DeepSeek всегда интересны, и всегда есть чему поучиться из технических отчетов, которые поставляются вместе с контрольными точками моделей с открытыми весами.

Надеюсь, этот обзор был для вас полезен!


Спасибо! Это был перевод (крайне непростой и трудозатратный), а вот мои самонаписанные крафтовые статейки (и да — мой тг-канальчик про LLM и агентов: Agentic World):