DeepSeek V4: 8 технических инноваций, de-NVIDIAfication и что это значит для рынка
Вчера OpenAI выпустил GPT-5.5. Сегодня DeepSeek выложил V4 – открытые веса, MIT-лицензия, 1М токенов контекста. Тайминг, конечно...
8 технических инноваций
Техническое описание V4 впечатляет не столько отдельными решениями, сколько плотностью инноваций – DeepSeek упаковал в один релиз больше новых техник, чем большинство лабораторий выпускают за год. Не все из них обязательно окажутся одинаково эффективными, но уровень инженерной амбиции – зашкаливающий.
1. Гибридное внимание (CSA + HCA)
Классический механизм Attention был серьёзно доработан. Теперь используется комбинация Compressed Sparse Attention и Heavily Compressed Attention, заменившая Multi-head Latent Attention из V3 и DeepSeek Sparse Attention из V3.2. У этого есть свои ньюансы и "цена". Эксперты пишут, что это может серьезно влиять на применимость модели в задачах с легаси кодом, так как компрессия контекста будет приводить к тому, что Дипсик 4 сможет корректно работать только с тем, кодом, который написал сам, а на легаси могут быть сюрпризы.
Результат: на окне в 1 миллион токенов модель потребляет лишь 27% вычислений и 10% памяти (KV-кэша) по сравнению с V3.2. Читать целые кодовые базы и книги стало экстремально дешево.
2. Оптимизатор Muon на триллионном масштабе
Индустрия привыкла к оптимизатору AdamW – он де-факто стандарт для обучения трансформеров. DeepSeek перевёл большую часть параметров на Muon – это первый публично известный случай применения Muon на модели масштаба 1.6T параметров.
Muon дал более быструю сходимость и стабильность при обучении гигантской MoE-архитектуры. Ранее он валидировался только на существенно меньших масштабах.
3. Гиперконнекции (mHC)
Классические остаточные связи (residual connections) между слоями нейросети были заменены на Manifold-Constrained Hyper-Connections. С помощью проекции на многообразие Биркгофа через итерации Синкхорна–Кноппа они устранили риск того, что сигналы "взорвутся" при обучении очень глубокой сети – проблему, которая убивала предыдущие попытки сделать обучаемые остаточные связи.
Накладные расходы: всего ~6.7% дополнительных вычислений. Техника была впервые опубликована DeepSeek в январе 2026 года.
4. Слияние знаний через On-Policy Distillation (OPD)
Вместо того чтобы в конце обучать модель всему одновременно (что приводит к размыванию компетенций), авторы пошли двухэтапным путём:
Сначала обучили 10+ узких ИИ-экспертов (отдельно математик, отдельно кодер, отдельно логик и т.д.) через SFT + GRPO (reinforcement learning).
Затем через On-Policy Distillation аккуратно "перелили" знания каждого эксперта в единую финальную модель.
Это устранило проблему, когда знания из одной области мешают другой – так называемое cross-domain interference.
5. Генеративный судья (GRM)
Для обучения сложным задачам DeepSeek отказался от классических скалярных "оценщиков" (как в стандартном RLHF). Вместо числовой оценки "хорошо/плохо" модель теперь сама текстово анализирует свои шаги – Generative Reward Model. Это качественно более богатая обратная связь при обучении.
6. Три режима мышления "из коробки"
Глубиной рассуждений модели можно управлять:
Non-Think – быстрый интуитивный ответ
Think-High – вдумчивый анализ
Think-Max – "выжми педаль в пол": модель расписывает все гипотезы, ищет краевые случаи и доказывает свой ответ (требует ≥384K контекста)
Think-Max – это режим, в котором DeepSeek замеряет свои лучшие бенчмарки. На HLE он поднимает score с 34.5 до 37.7, на SimpleQA-Verified – с 46.2 до 57.