DeepSeek выпустил V4 — открытую модель с контекстом в миллион токенов

Сегодня DeepSeek опубликовали две новые модели: V4-Pro и V4-Flash. Обе работают по архитектуре Mixture-of-Experts, веса доступны на Hugging Face под MIT-лицензией.
V4-Pro содержит 1,6 триллиона параметров. Контекстное окно — один миллион токенов. При этом модель потребляет около 27% вычислений от того, что требовалось предшественнику DeepSeek-V3 при аналогичном контексте.
V4-Flash меньше — 284 миллиарда параметров с 13 активными — и ещё экономичнее: примерно 10% FLOPs и 7% KV-cache по сравнению с V3. Контекст тот же — миллион токенов.

















