Все потоки
Поиск
Написать публикацию
Обновить

DeepSeek представила V3.2-Exp с механизмом разреженного внимания для длинного контекста

Китайская компания DeepSeek выпустила экспериментальную модель V3.2-Exp с внедренным механизмом DeepSeek Sparse Attention. Новая архитектура оптимизирует обработку длинных контекстов, снижая вычислительные затраты в несколько раз при сохранении качества вывода на уровне V3.1-Terminus.

Архитектура разреженного внимания

DeepSeek Sparse Attention (DSA) реализует мелкозернистое разреженное внимание на уровне токенов. Механизм выбирает только релевантные части длинных текстов для обработки, радикально снижая требуемую вычислительную мощность.

Принцип работы DSA:

  • Динамическая иерархическая стратегия разреживания

  • Сочетание грубозернистого сжатия токенов с мелкозернистым отбором

  • Аппаратно-оптимизированный дизайн для эффективной реализации

  • Нативная интеграция в процесс обучения без постобработки

Традиционные механизмы внимания рассматривают каждое слово относительно всех других слов, что требует экспоненциально больше вычислительной мощности для длинных текстов. DSA решает эту проблему через селективную обработку.

Технические характеристики

V3.2-Exp построена на базе V3.1-Terminus с идентичными конфигурациями обучения для изоляции эффекта архитектурных изменений. Команда сознательно не оптимизировала модель под бенчмарки, чтобы продемонстрировать чистый прирост эффективности.

Результаты бенчмарков:

  • Производительность практически идентична V3.1-Terminus в тестах на рассуждение и кодинг

  • Небольшие просадки в тестах, чувствительных к количеству токенов рассуждения

  • Разрыв исчезает при сопоставимом бюджете токенов

  • Существенный прирост эффективности обработки длинного контекста

Снижение стоимости API

Архитектурные улучшения позволили существенно снизить стоимость использования через API. DeepSeek установила цены $0.28/$0.42 за миллион входных/выходных токенов — в 2 и 4 раза ниже соответственно, чем у V3.1-Terminus.

Это снижение цен более чем на 50% является частью стратегии DeepSeek в условиях жесткой ценовой конкуренции на китайском рынке ИИ с такими игроками как Z.ai (Zhipu) и Alibaba Qwen.

Контекст релиза и геополитика

V3.2-Exp представляет стратегический поворот после неопределенной задержки модели R2 в середине 2025 года. Задержка стала прямым следствием американо-китайской технологической войны, ограничившей доступ к высокопроизводительным чипам Nvidia.

DeepSeek столкнулась с техническими проблемами при попытке завершить успешный цикл обучения на отечественных чипах Huawei Ascend, что вынудило компанию вернуться к проверенному оборудованию Nvidia для вычислительно-интенсивной фазы обучения.

Open-source стратегия

Модель доступна на платформе Hugging Face под лицензией MIT, что поощряет широкое внедрение. DeepSeek также выпустила open-source ядра для исследований и высокопроизводительного использования.

Доступность:

  • Hugging Face под MIT-лицензией

  • Бесплатный доступ на сайте DeepSeek

  • Мобильные приложения для iOS и Android

  • API с низкой стоимостью использования

Техническая реализация

Native Sparse Attention (NSA) интегрирует алгоритмические инновации с аппаратно-ориентированными оптимизациями. Механизм обеспечивает эффективное моделирование длинного контекста, значительно ускоряя обработку без потери точности.

Архитектурные особенности:

  • Динамический отбор токенов на основе релевантности

  • Иерархическое сжатие для снижения размерности

  • Оптимизация под аппаратные ускорители

  • Нативная обучаемость без дополнительных этапов

Конкурентное позиционирование

Релиз происходит на фоне интенсивной ценовой войны в китайском ИИ-секторе, где конкуренты вроде Z.ai с моделью GLM-4.5 и Alibaba с Qwen3-Max активно подрывают позиции DeepSeek.

Многофронтовая стратегия компании включает открытие исходного кода, снижение цен и сигнал о продолжающихся инновациях даже в условиях глобальной чиповой войны.

Практические применения

V3.2-Exp оптимизирована для задач с длинным контекстом: анализ больших документов, обработка кодовых баз, многошаговые рассуждения. Снижение вычислительных затрат делает такие задачи более доступными.

Теги:
0
Комментарии0

Публикации

Ближайшие события