Источник

Всем привет! Меня зовут Валерий Гречин, я руковожу компанией ML-интегратором для бизнеса и промышленности Palatine Vision, облачным API-провайдером речевых нейросетей Palatine Speech и несколькими стартапами.

У всех, кто работает с LLM-моделями случалось, что модель на 32B параметров не влезает в 24 ГБ VRAM вашей RTX 4090, offload на CPU убивает скорость, а облако — дорого и данные уходят на сторону. NVIDIA обещает нам решение: DGX Spark (он же GB10) с 128 ГБ unified memory за ~400-500 тысяч рублей. Было потрачено две недели на глубокие бенчмарки устройства и результаты оказались... неоднозначными.

Спойлер: иногда б/у RTX 3090 будут быстрее. Но есть сценарии, где DGX Spark это лучший выбор на рынке. Разбираемся, когда стоит переплачивать, а когда — точно нет.

Однако DGX Spark это не только про разработчиков и стартапы. 128 ГБ unified memory, 140W энергопотребления и полностью автономная работа без облака делают его кандидатом для промышленного Edge AI: предиктивное обслуживание оборудования, анализ технической документации по ГОСТ и ТУ, контроль качества в цеху и другие задачи. Для предприятий с закрытым контуром (как минимум производства, банки, медицина, ОПК, КИИ), где данные не должны покидать периметр, локальный инференс часто не просто опция, а требование. Я, как интегратор, вижу этот запрос все чаще, и DGX Spark одно из первых устройство своего класса, которое закрывает его без серверной стойки.

В статье будет много графиков, сравнение нескольких форматов квантизации, тесты разных объемов подаваемого контекста, сравнения с более привычными GPU и оценка финансовой эффективности такой покупки. Цель бенчмарка разобраться, в каких ситуациях DGX Spark показывает свои преимущества, а где его архитектурные ограничения становятся узким местом и предпочтительнее выбирать другие решения.

Оглавление

TL; DR — для тех, кто спешит

Прежде чем погружаться в детали, вот краткая выжимка результатов:

Сценарий

Результат

Вердикт

Чат-боты (короткий контекст)

400–4 500 tok/s (0.6B–32B)

✅ Отлично

RAG до 4k токенов

100–1 500 tok/s

✅ Хорошо

RAG 15k–73k токенов

50–300 tok/s, TTFT до 34 сек

⚠️ На грани

MoE 30B-A3B (GPTQ)

730 tok/s chat, 361 tok/s RAG

✅ Главная находка

High-throughput (100+ RPS)

Плато на ~50 запросах

❌ Не для этого

Когда брать DGX Spark:

  • Нужна простота развертывания (одно устройство, unified memory)

  • Работаете с моделями до 32B и не нужен extreme throughput

  • Критична энергоэффективность (140W vs 575-900W у альтернатив)

  • Конфиденциальность данных это безусловное требование

  • Планируете масштабирование через кластеризацию (2 устройства = 256 GB и поддержка моделей до 405B)

Когда лучше RTX 3090/4090/5090:

  • Нужен максимальный throughput (2-4× быстрее)

  • Планируете работать с LLM моделями 70B+ параметров

  • Готовы разбираться с multi-GPU настройкой

  • Важна цена за производительность


Железо и стек: что внутри GB10 и почему это важно

Основные характеристики DGX Spark

Параметр

Значение

Архитектура

Blackwell (5 nm)

Память

128 GB unified LPDDR5X-9400

Пропускная способность памяти

273.2 GB/s

Вычислительные ядра

6 144 CUDA cores

Tensor Cores

5-го поколения с поддержкой FP4

TDP

140W (SOC) + 100W (остальные компоненты)

Сеть

ConnectX-7 SmartNIC, 2× QSFP (200 Gbps)

Networking: ConnectX-7 и кластеризация

Отдельного внимания заслуживает сетевая подсистема. Компьютер оснащен NVIDIA ConnectX-7 SmartNIC, то есть тот же чип, что используется в серверных решениях. На борту:

  • 2× QSFP порта с суммарной пропускной способностью до 200 Gbps

  • Поддержка InfiniBand и RDMA over Converged Ethernet (RoCE)

  • GPUDirect RDMA для прямой передачи данных между GPU и сетью

Это позволяет объединять два DGX Spark в кластер: 256 GB общей памяти и возможность запускать модели до 405B параметров в FP4. Сам ConnectX-7 NIC это компонент стоимостью ~130-195 тысяч рублей, так что часть цены DGX Spark оправдана серверным сетевым компонентом.

Важно: Для кластеризации потребуется один сертифицированный QSFP-кабель для данных и отдельное Ethernet/Wi-Fi соединение для управления.

Cсылка на официальную страницу устройства.

Почему bandwidth здесь главное ограничение

Ключевое ограничение этого девайса — 273 ГБ/с пропускной способности памяти. Для сравнения:

GPU

Memory Bandwidth, GB/s

Соотношение к DGX Spark

DGX Spark

273

RTX 4090

1 008

3.7×

RTX 5090

1 792

6.6×

2× RTX 3090 (NVLink)

1 872

6.9×

Это не ошибка разработчиков, а архитектурный выбор: LPDDR5X дает огромный объем при низком энергопотреблении, но при этом жертвует скоростью передачи данных.

Главный вывод: DGX Spark — это про объем, а не скорость. Unified memory позволяет загрузить модель целиком, но пропускная способность памяти определяет потолок производительности.


Как происходило тестирование: от синтетики к реальным сценариям

Главная цель тестирования – получить прикладную информацию о том, как устройство и сама архитектура Grace Blackwell 10 ведет себя в реальных сценариях инференса LLM и где находятся ее практические ограничения. Для этого методология строится вокруг главных параметров: размера модели, подаваемых на вход данных и метода квантизации.

Программный стек

Весь код бенчмарка доступен на GitHub: github.com/PalatineVision/dgx-spark-benchmark

Модели

Было выбрано семейство Qwen3 как современная и хорошо оптимизированная линейка моделей:

  • 0.6B — baseline для оценки максимальной скорости чипа

  • 4B — типичная модель для локальных задач

  • 14B — баланс качества и производительности

  • 30B-A3B MoE — Mixture of Experts: 30B параметров, ~3B активных

  • 32B — стресс-тест для архитектуры

Модели тестировались в нескольких форматах квантизации:

  • BF16 (Brain Float 16) - "гибрид" между FP16 и FP32, он занимает столько же места, сколько FP16 (половина от стандартного FP32), но сохраняет динамический диапазон полной точности (FP32) за счет снижения точности дробной части

  • FP8 — 8-битная квантизация (нативная поддержка Tensor Cores 5-го поколения)

  • AWQ 4-bit — Activation-aware Weight Quantization для максимальной пропускной способности

  • GPTQ-Int4 — Group-wise Post-Training Quantization, особенно эффективна для MoE-моделей

  • GGUF Q4 — популярный формат с отличной поддержкой в llama.cpp и Ollama (спойлер: на vLLM сейчас он работает плохо)

Датасеты

Выбрано три сценария, максимально приближенных к реальным задачам:

Датасет

Токенов на вход

Сценарий

low_context_chat

~70

Чат-боты, короткие запросы

middle_context_rag

1 000–4 000

RAG-системы, поиск по документам

long_context_rag

15 000–73 000

Анализ больших документов

Параметры тестирования

  • Concurrency: от 1 до 100 параллельных запросов

  • Output length: 1024 токена на ответ

  • Количество промптов: 50 для каждой конфигурации

Важно: был отключен prefix caching (--no-enable-prefix-caching) для измерения реальной производительности чипа. В production среде с кэшированием throughput может быть на 20-40% выше при повторяющихся системных промптах.

Заметка о программном стеке: Из-за ARM-архитектуры GB10 не все Docker-образы работают из коробки. Например, vLLM запускается только из официального образа NVIDIA (nvcr.io/nvidia/vllm), стандартный vllm/vllm-openai выдаёт ошибки. Также было зафиксированы семплы из датасета neural-bridge/rag-dataset-12000, чтобы сравнение было корректным и воспроизводимым, так как встроенные бенчмарки часто рандомизируют промпты, что даёт разброс от 97 до 300 tok/s на одной и той же конфигурации.


Четыре метрики, которые определяют все

Прежде чем смотреть на цифры, важно понимать, что они означают и когда какая метрика критична:

TTFT (Time To First Token)

Что измеряет: Время от отправки запроса до получения первого токена ответа.

Почему важна: Определяет ощущение «отзывчивости» системы. Пользователь видит, что система «думает», пока ждет первый токен.

Когда критична:

  • Интерактивные чат-боты (пользователь не любит ждать)

  • Стриминг ответов в реальном времени

  • UX-критичные приложения

Пример: TTFT равный 2-м секундам означает, что пользователь будет смотреть на пустой экран 2 секунды перед стартом ответа от LLM. Для чат-бота это много, а для batch-обработки документов уже приемлемо.

TPOT (Time Per Output Token)

Что измеряет: Среднее время генерации одного токена после первого.

Почему важна: Определяет скорость «печати» ответа. При TPOT = 100 ms токены появляются ~10 раз в секунду — это ко��фортная скорость чтения.

Когда критична:

  • Длинные ответы (суммарное время = TTFT + TPOT × количество токенов)

  • Стриминг, где слишком медленный TPOT создает «заикание»

  • Batch-обработка большого количества запросов

Пример: При TPOT = 300 ms ответ на 100 токенов займет 30 секунд только на генерацию. Для 32B модели на BF16 это реальность.

Throughput (tok/s)

Что измеряет: Общее количество токенов, генерируемых системой в секунду при параллельной обработке запросов.

Почему важна: Главная метрика для production-систем. Показывает, сколько пользователей система может обслужить одновременно.

Когда критична:

  • Production deployment с множеством пользователей

  • Batch-обработка документов

  • Оценка стоимости инференса (токены/$ или токены/ватт)

Формула связи: Throughput ≈ Concurrency / (TTFT + TPOT × avg_output_length)

Latency P99

Что измеряет: 99-й перцентиль задержки — время, за которое завершаются 99% запросов.

Почему важна: Показывает «худший случай» для пользователя. Средние значения могут скрывать редкие, но болезненные задержки.

Когда критична:

  • SLA-критичные системы

  • Финтех/медицина, где задержка это потерянные деньги или дополнительные риски

  • Системы с жесткими требованиями к latency

Пример: Средний TTFT = 500 ms, но P99 = 5 000 ms означает, что 1 из 100 пользователей ждет в 10 раз дольше остальных.


Бенчмарк: где GB10 летает, а где буксует

0.6B: когда память еще не bottleneck

Маленькие модели это идеальный сценарий для GB10. Память еще не является узким местом и чип показывает свой потенциал.

Квантизация

Dataset

Max Throughput, tok/s

TTFT, ms

TPOT, ms

FP8

low_context_chat

4 492

70

10.9

BF16

low_context_chat

3 966

87

12.3

FP8

middle_context_rag

1 007

343

24.7

BF16

middle_context_rag

1 043

982

43.1

FP8

long_context_rag

788

529

29.2

BF16

long_context_rag

813

1 079

45.2

Выводы:

  • FP8 дает +13% на коротких промптах благодаря оптимизации Tensor Cores

  • На длинном контексте разница минимальна, память еще не становится bottleneck

  • Throughput падает в 5 раз при переходе от коротких к длинным промптам

Дополнительные графики для Qwen3-0.6B

4B: рабочий вариант с неожиданными открытиями

Достаточно типичный выбор для локального инференса это модели на 4B параметров. Здесь уже начинают проявляться эффекты квантизации на этом устройстве.

Квантизация

Dataset

Max Throughput, tok/s

TTFT, ms

TPOT, ms

AWQ 4-bit

low_context_chat

2 124

331

22.3

FP8

low_context_chat

1 636

209

29.8

BF16

low_context_chat

1 034

245

47.5

GGUF Q4

low_context_chat

409

2 786

111.9

AWQ 4-bit

middle_context_rag

528

4 643

75.2

FP8

middle_context_rag

530

3 411

79.0

GGUF Q4

middle_context_rag

105

44 660

298.6

Ключевые выводы:

  • AWQ дает 2× прирост над BF16 на коротких промптах (2 124 vs 1 034 tok/s)

  • FP8 прибавляет +58% над BF16, что является хорошим компромиссом качества и скорости

  • GGUF Q4 сейчас сильно проигрывает: в 2.5-5 раз медленнее AWQ

Почему GGUF показал такие плохие результаты?

Это было большим разочарованием для тех, кто надеялся использовать GGUF как универсальный формат и причина здесь в особенностях реализации формата актуальной версии vLLM, которая использовалась на момент проведения бенчмарка (v25.11).

Согласно официальной документации vLLM:

"GGUF support in vLLM is highly experimental and under-optimized at the moment, and it might be incompatible with other features. Currently, you can use GGUF as a way to reduce memory footprint."

Ключевые ограничения GGUF в vLLM:

  • Поддерживаются только single-file GGUF модели

  • Конвертация токенизатора нестабильна и занимает много времени

  • Многие архитектуры не поддерживаются (включая некоторые версии Qwen)

  • Требуется ручное скачивание файлов, нельзя просто указать HuggingFace path

Совет: GGUF имеет отличную поддержку и оптимизацию в llama.cpp и Ollama. Для vLLM используйте AWQ или FP8, так как они лучше оптимизированы под этот inference-движок.

Дополнительные графики для Qwen3-4B

Сравнение BF16 / FP8 / AWQ:

Сравнение с GGUF (наглядная демонстрация провала):


14B: баланс качества и производительности

14B модель помещается на GB10 с большим запасом (~7 GB в AWQ, ~14 GB в FP8), при этом она достаточно умная для production-задач. Здесь квантизация раскрывается в полную силу.

Квантизация

Dataset

Max Throughput, tok/s

TTFT, ms

TPOT, ms

AWQ 4-bit

low_context_chat

914

697

52.1

FP8

low_context_chat

599

637

81.3

BF16

low_context_chat

340

880

144.1

FP8

middle_context_rag

257

9 607

152.6

AWQ 4-bit

middle_context_rag

251

14 264

140.6

BF16

middle_context_rag

179

12 536

222.6

FP8

long_context_rag

203

10 226

157.3

AWQ 4-bit

long_context_rag

198

15 131

145.3

BF16

long_context_rag

143

13 365

226.8

14B это довольно подходящий размер модели для DGX Spark. Модель достаточно умная для production-задач, при этом в AWQ-квантизации выдаёт 914 tok/s на коротких промптах, что комфортно даже для 20-30 одновременных пользователей. Если думаете, с какой модели начать – начните с 14B с AWQ.

Валерий Гречин, руководитель Palatine Vision

Ключевые выводы:

  • AWQ даёт +169% над BF16 на коротких промптах (914 vs 340 tok/s)

  • FP8 лучше на RAG-задачах: на middle_context FP8 обходит AWQ (257 vs 251 tok/s), TTFT на 33% быстрее (9 607 vs 14 264 ms)

  • TTFT парадокс: AWQ kernel медленнее на prefill из-за дополнительных dequant операций – 14 264 ms vs 9 607 ms у FP8

  • 14B наиболее оптимальна для GB10: помещается с запасом и достаточно умная для production

  • Рекомендация: AWQ для chatbot, FP8 для RAG

Дополнительные графики для Qwen3-14B

Критичные для понимания графики:


30B-A3B (MoE): знания 30B по цене 3B

MoE (Mixture of Experts) это архитектура, которая хранит все 30B параметров в памяти, но активирует только ~3B. Что это означает на практике: качество на уровне 30B модели, а стоимость инференса как у 3B модели. На GB10 эта архитектура показала себя лучше всех.

Квантизация

Dataset

Max Throughput, tok/s

TTFT, ms

TPOT, ms

GPTQ-Int4

low_context_chat

730

415

67.1

FP8

low_context_chat

493

369

100.4

BF16

low_context_chat

265

632

186.8

GPTQ-Int4

middle_context_rag

361

6 224

111.8

FP8

middle_context_rag

311

4 962

137.2

BF16

middle_context_rag

185

8 019

231.5

GPTQ-Int4

long_context_rag

291

6 675

112.3

FP8

long_context_rag

241

5 384

145.0

BF16

long_context_rag

145

8 728

241.7

MoE-модели это, пожалуй, главная находка бенчмарков. Qwen3-30B-A3B по сути даёт вам «мозги» 30-миллиардной модели, а обходится по вычислениям как 3-миллиардная. На DGX Spark это работает идеально: 730 tok/s в GPTQ быстрее, чем dense 32B в AWQ, при том же объёме памяти. Если вам нужен максимум качества при приемлемой скорости, то MoE в GPTQ-Int4 ваш выбор.

Валерий Гречин, руководитель Palatine Vision

Ключевые выводы:

  • GPTQ-Int4 критичен: +175% на low_context, +95% на middle, +101% на long vs BF16

  • MoE 30B-A3B GPTQ (730 tok/s) на 64% быстрее Dense 32B AWQ (444 tok/s) на коротких промптах

  • На middle_context: 361 vs 116 tok/s это 3× преимущество над Dense 32B!

  • TTFT значительно ниже: 415 ms vs 2212 ms у Dense 32B (GPTQ vs AWQ) благодаря ~3B активных параметров

  • MoE — оптимальная архитектура для GB10

Сравнение MoE vs Dense:

Метрика

MoE 30B-A3B GPTQ

Dense 32B AWQ

Dense 14B AWQ

low_context

730 tok/s

444 tok/s

914 tok/s

middle_context

361 tok/s

116 tok/s

251 tok/s

long_context

291 tok/s

91 tok/s

198 tok/s

Memory

~15 GB

~16 GB

~7 GB

TTFT (low)

415 ms

2 212 ms

697 ms

Дополнительные графики для Qwen3-30B-A3B MoE

Критичные для понимания графики:


32B: здесь начинается борьба с физикой

Модели на 32B параметров это стресс-тест для системы. Здесь GB10 показывает свои ограничения.

Квантизация

Dataset

Max Throughput, tok/s

TTFT, ms

TPOT, ms

AWQ 4-bit

low_context_chat

444

2 212

104.5

FP8

low_context_chat

278

1 397

174.9

BF16

low_context_chat

152

2 004

322.5

AWQ 4-bit

middle_context_rag

116

34 490

290.8

FP8

middle_context_rag

124

21 097

310.8

BF16

middle_context_rag

83

28 783

476.7

Когда впервые увидел TTFT в 34 секунды на длинном контексте, то настройки были перепроверены трижды. Казалось, что-то сломалось. Все-таки нет, все верно: это не ошибка, а архитектурный потолок LPDDR5X. Unified memory дает объем, но забирает bandwidth.

Валерий Гречин, руководитель Palatine Vision

Ключевые выводы:

  • AWQ критичен: 3× разница с BF16 (444 vs 152 tok/s)

  • Парадокс FP8: на среднем контексте FP8 быстрее AWQ (+7%)

    • Причина: FP8 лучше обрабатывается тензорными ядрами при большом KV-cache

  • BF16 на 32B можно использовать только для исследовательских задач, применение в продуктовой среде же нецелесообразно

Дополнительные графики для Qwen3-32B

Критичные для понимания графики:

Квантизация: когда помогает, а когда бесполезна

Общие закономерности

Размер модели

Эффект квантизации

Рекомендация

0.6B

Минимален (±13%)

Не обязательна

4B

FP8 +58%, AWQ +106%

AWQ для chatbot, FP8 для RAG

14B

FP8 +76%, AWQ +169%

AWQ для chatbot, FP8 для RAG

30B-A3B MoE

FP8 +86%, GPTQ +175%

GPTQ-Int4 для всех задач

32B

AWQ +192% vs BF16

Обязательна

Что работает, а что нет

AWQ 4-bit — лучший выбор для vLLM на коротких контекстах
✅ GPTQ-Int4 — оптимален для MoE-моделей, +175% на chatbot-задачах
FP8 — отличный компромисс, особенно на средних контекстах
GGUFэкспериментальная и неоптимизированная поддержка в vLLM, используйте только для llama.cpp или Ollama

Тут важно помнить: квантизация ускоряет не за счет меньшего количества вычислений, а за счет меньшего объема данных, которые нужно прогнать через память. А DGX Spark как раз работает в memory-bound режиме 90% времени.


Потолок на 50 запросах: почему больше не значит быстрее

Одна из самых интересных находок бенчмарка — эффект плато.

При увеличении concurrency от 1 до 50 throughput растет почти линейно. Но после 50 параллельных запросов происходит полная остановка роста, вариация при этом менее 1%.

Concurrency

Throughput 32B AWQ, tok/s

Изменение

5

59

20

180

+205%

50

443

+146%

70

443

0%

100

443

0%

Когда это было обнаружено, снова возникли мысли «наверное, что-то не так с настройками vLLM». Покрутил параметры, перезапустил с разными конфигами. Результат тот же. Это не софт, а та же физика: 273 ГБ/с пропускной способности памяти определяют жесткий потолок, который не обойти кодом.

Валерий Гречин, руководитель Palatine Vision

Причина: Пропускная способность памяти перегружена и все запросы стоят в очереди на доступ к памяти.

Практический вывод: Масштабировать нагрузку выше 50 параллельных запросов на одном DGX Spark бессмысленно. Для обработки большей нагрузки необходимо использовать кластеризацию через ConnectX-7.


Почему GPU простаивает: разбор узких мест

Простое объяснение: память vs вычисления

Представьте конвейер на заводе. Есть два этапа:

  1. Подвоз материалов (загрузка данных из памяти)

  2. Сборка (вычисления на GPU)

Если сборщики работают быстрее, чем им подвозят материалы, то конвейер простаивает. Это называется memory-bound (ограничение по памяти).

Инференс LLM это именно такой случай.

При генерации каждого токена GPU должен:

  1. Загрузить все веса модели из памяти (~64 ГБ для 32B модели в BF16)

  2. Выполнить относительно простые вычисления (умножение матрицы на вектор)

Тут и возникает проблема: на каждые 2 байта загруженных данных GPU выполняет всего ~2 операции. А мог бы выполнить ~300 операций за то же время, пока данные едут из памяти.

Считаем на пальцах

Для DGX Spark:

  • Memory bandwidth: 273 ГБ/с (скорость «подвоза материалов»)

  • Compute: ~80 TFLOPS (скорость «сборки»)

Сколько операций GPU может сделать, пока ждет 1 байт из памяти?

# 80 000 млрд операций/с ÷ 273 млрд байт/с ≈ 293 операции на байт

Сколько операций реально нужно при генерации токена?

При умножении матрицы весов на вектор (основная операция при decode):

  • На каждый элемент весов (2 байта в BF16) делается 2 операции

  • Итого: ~1 операция на байт

Вывод: GPU мог бы делать 293 операции пока ждет данные, а нужно всего одну. Вычислительная мощность используется на 0.3%. Остальное время GPU ждет данные из памяти.

Именно поэтому квантизация так эффективна на этом устройстве: AWQ 4-bit уменьшает размер модели в 4 раза → в 4 раза меньше данных нужно гонять через память → в ~3 раза выше throughput.

Теория vs практика: откуда 35× разница

Для Qwen3-32B BF16:

  • Размер модели: 64 ГБ

  • Наивный расчет: 273 ГБ/с ÷ 64 ГБ = 4.3 токенов в секунду

  • Реальный результат: 152 токена в секунду

  • Разница: 35×

Откуда возникает такой выигрыш?

  1. Батчинг: веса загружаются один раз, но обрабатываются сразу 50 запросов

  2. Pipelining: vLLM загружает следующий слой, пока GPU считает текущий

  3. KV-cache: не перечитываем весь промпт на каждом токене

Но есть потолок: при concurrency > 50 выигрыш от батчинга исчерпывается и мы упираемся в физику памяти.


Итоги

Ожидания vs реальность

Что обещают

Что в реальности

Комментарий

128 ГБ unified memory — запускай любые модели

70B+ работают, но ~20 tok/s

Объем есть, а bandwidth нет

Blackwell — новейшая архитектура

FP8/FP4 быстрее только на коротких контекстах

На long context выигрыш теряется

Компактный форм-фактор для офиса

✅ Верно: тихий, 140W

Исказить реальность было бы сложно)

ConnectX-7 для кластеризации

✅ Два устройства = 256 GB, до 405B моделей

Серверный networking из коробки

Альтернатива дата-центру

Скорее альтернатива рабочей станции с 2×RTX

Для настоящего уровня ДЦ нужны H100/H200

Unified memory = нет проблем с VRAM

Нет проблем с объемом, но есть с bandwidth

Маркетинг умалчивает про 273 ГБ/с vs 1.8+ ТБ/с

Что совпало с маркетингом:

  • ✅ Простота развертывания — одно устройство и один процесс vLLM

  • ✅ Энергоэффективность — реально 140W под нагрузкой

  • ✅ Модели до 32B — комфортная работа в квантизации

  • ✅ Серверный networking — ConnectX-7 с InfiniBand/RDMA

Что маркетинг умолчал:

  • ❌ Bandwidth LPDDR5X создает жесткий потолок

  • ❌ Long context (>15K токенов) — TTFT до 34 секунд

  • ❌ Не подходит для обучения моделей


Применение в промышленности

Промышленность и производство

Интеграторы, работающие с промышленными предприятиями регулярно видят один и тот же запрос: «нужен ИИ, но данные не должны покидать периметр, ставить серверную стойку негде или протянуть кабели не сможем, а облако нельзя по регламентам». DGX Spark вполне закрывает часть таких запросов лучше любого другого устройства на рынке, особенно там, где не справляются устройства от Raspberry Pi до NVIDIA Jetson.

Автономная работа в закрытом контуре

На производстве часто нет стабильного интернета или облако прямо запрещено регламентами (как минимум ОПК, критическая инфраструктура, предприятия с гостайной). DGX Spark же работает полностью автономно, а 128 GB unified memory вмещают модель, векторную базу и ОС в одном устройстве. Это принципиально отличает его от решений на consumer GPU, которые требуют серверной инфраструктуры: блока питания на 1 200W+, охлаждения и стойки.

Для объектов атомной энергетики вопрос автономности критичен. Любое решение, требующее постоянного доступа в интернет или передачи данных за пределы периметра, практически невозможно внедрить из-за регламентов. Формат, когда модель работает локально и дает результат прямо на площадке, существенно упрощает внедрение ИИ в процессы диагностики и эксплуатации оборудования.

Сергей Гречин, заместитель начальника отдела технической диагностики Курской АЭС-2

Визуальный контроль качества

Edge AI прямо в цеху это всего 140W, компактный форм-фактор, не требующий серверной комнаты и промышленного кондиционера. Модели 4B-14B могут справляться с классификацией определенных дефектов: 4B AWQ выдаёт 2 124 tok/s, что с запасом покрывает часть сценариев. При этом устройство стабильно работает часами – за время многочасовых тестовых сессий температура GPU не превышала 80°C и троттлинг не наблюдался.

Когда камеры находятся далеко от вычислительного узла, длинные кабельные трассы начинают создавать дополнительные точки отказа: от помех до потери качества изображения. Локальная обработка прямо в цеху значительно упрощает архитектуру системы и повышает надежность контроля.

Павел Кривенчук, технический руководитель проектов по автоматизации и механизации на производстве медицинских пробирок и игл

Анализ технической документации

RAG по ГОСТ, ТУ, паспортам оборудования, регламентам ТО – подходящая задача для MoE 30B-A3B. На middle_context_rag эта модель выдаёт 361 tok/s в GPTQ-Int4 с хорошим качеством 30B модели для работы со сложными нормативными документами без обращения к облаку. Инженер на площадке может задать вопрос по регламенту и получить ответ за секунды, а не искать нужный раздел в 500-страничном PDF.

Цифровой помощник оператора

На производственных линиях, где оператор работает с десятками параметров процесса, LLM-агент на DGX Spark может выступать интеллектуальным ассистентом для интерпретации показаний приборов, выдаче подсказок по настройке в соответствии с инструкциями и анализ отклонений от нормы (хотя здесь чаще эффективнее использовать другой класс ML моделей). MoE 30B-A3B в GPTQ-Int4 (730 tok/s chat, TTFT 415 ms) обеспечивает мгновенный отклик и оператор может задавать вопрос голосом, получая ответ в считанные секунду.

Масштабирование на производстве

Начать можно с одного DGX Spark в пилотном цеху. Когда задача подтвердит ROI, далее масштабировать через ConnectX-7, где два устройства дадут 256 GB unified memory, позволяя вмещать модели до 405B в FP4. Серверный networking (InfiniBand, RDMA) здесь уже встроен и не нужно докупать сетевое оборудование серверного класса.

Производственники часто приходят с запросом «хотим ИИ на площадке, но данные ни в коем случае не должны покидать периметр». Раньше часто как решение предлагались серверные стойки с A100 или аналогичными GPU. Это дорого, еще сильнее зашумляет зону и нередко требует отдельного помещения с квалифицированным обслуживанием. DGX Spark это устройство, которое можно поставить в шкаф рядом с ПЛК или, если позволяют условия, даже закрепить на самой конвейерной линии и получить инференс 30B-класса моделей. Для цифровизации производства это качественный сдвиг.

Валерий Гречин, руководитель Palatine Vision

Проведение пресейлов и демо

На этапе пресейла часто возникает задача показать работу моделей прямо на данных заказчика до подписания договора. Обычно это означает логистику тяжелого оборудования: полноценной рабочей станции или серверного решения, где только доставка может стоить десятки тысяч и заметно увеличивать стоимость пресейла.

DGX Spark меняет эту ситуацию. Устройство можно привезти как обычное компактное оборудование, быстро развернуть на площадке и запустить инференс прямо в цеху, без подготовки серверной инфраструктуры и сложного монтажа. Это позволяет в тот же день проверить реальные данные клиента, провести демо в рабочих условиях и мгновенно подтвердить техническую реализуемость решения.

Для интеграторов это снижает стоимость пресейлов, сокращает цикл сделки и дает возможность быстрее переходить от демонстрации к пилоту.

Применение для малого и среднего бизнеса

Локальные RAG-системы

128 GB unified memory это модель + векторная база + ОС. MoE 30B-A3B в GPTQ-Int4 на RAG-задачах выдаёт 361 tok/s, что вполне достаточно для корпоративной базы знаний с десятками пользователей.

Чат-боты техподдержки

14B AWQ выдает 914 tok/s на коротких запросах с TPOT 52 ms, выдавая комфортный стриминг для 20-30 одновременных пользователей.

Автоматизация отчетности и документооборота

Анализ договоров, генерация отчетов, извлечение данных из неструктурированных документов. 32B AWQ (444 tok/s) обеспечивает максимальное качество для сложных задач с пониманием контекста.

Конфиденциальность

Данные клиентов не уходят в облако, что критично для соответствия GDPR и 152-ФЗ. Все обрабатывается локально, аудит и контроль полностью на стороне предприятия.

Разработчики и стартапы

AI-разработчики: локальная разработка и тестирование без облачных API. Модели до 32B в квантизации работают комфортно, а итерация промптов мгновенная.

Исследователи: fine-tuning моделей до 7B, QLoRA на 14-32B. 128 GB unified memory снимает ограничение по VRAM, которое мешает на consumer GPU.

Стартапы: прототипирование AI-продуктов без дата-центра. От идеи до MVP на одном устройстве, без аренды облачных GPU и риска утечки интеллектуальной собственности.


Сравнение DGX Spark vs RTX сборок

Технические характеристики GPU

Параметр

DGX Spark (GB10)

RTX 3090

RTX 4090

RTX 5090

Архитектура

Blackwell

Ampere

Ada Lovelace

Blackwell

CUDA Cores

6 144

10 496

16 384

21 760

Tensor Cores

5th gen

328 (3rd gen)

512 (4th gen)

680 (5th gen)

VRAM

128 GB LPDDR5X

24 GB GDDR6X

24 GB GDDR6X

32 GB GDDR7

Memory BW

273 GB/s

936 GB/s

1 008 GB/s

1 792 GB/s

TDP

140W

350W

450W

575W

NVLink

Нет (есть ConnectX-7)

Да (600 GB/s)

Нет

Нет

Цена

~400-500k ₽

~50-80k ₽ (б/у)

~280-330k ₽

~350-600k ₽

Сравнение конфигураций

Параметр

DGX Spark

2× RTX 3090

2× RTX 4090

2× RTX 5090

Суммарный VRAM

128 GB unified

48 GB (раздельно)

48 GB (раздельно)

64 GB (раздельно)

Memory bandwidth

273 GB/s

1 872 GB/s (NVLink)

2 016 GB/s

3 584 GB/s

TDP

140W

700W

900W

1 150W

Цена

~400-500k ₽

~100-140k ₽

~560-660k ₽

~400k ₽

Multi-GPU

ConnectX-7 (кластер)

NVLink (tensor parallel)

PCIe only

PCIe only

Оценка производительности инференса LLM

Модель

DGX Spark, AWQ (tok/s)

2× RTX 3090, FP16 (tok/s)

2× RTX 4090, FP16 (tok/s)

2× RTX 5090, FP16 (tok/s)

7B

~2 000

~3 500

~3 000

~5 000

14B

~914 (AWQ)

~2 500

~2 200

~3 500

30B-A3B MoE

~730 (GPTQ)

~1 800

~1 500

~2 500

32B

~444

~1 200

~1 000

~1 800

70B

~50

~600

~500

~900

Оценка для RTX 5090 на основе bandwidth ratio. RTX 4090 без NVLink страдает от PCIe overhead.

Если бы мне год назад сказали, что я буду рекомендовать б/у видеокарты как конкурента новому железу от NVIDIA – не поверил бы. Но цифры есть цифры и в чистом throughput две 3090 с NVLink выигрывают, а стоят в 3-5 раз дешевле. Другой вопрос — сколько времени вы потратите на настройку тензорного параллелизма и охлаждение 700-ваттного+ монстра.

Валерий Гречин, руководитель Palatine Vision


Считаем ROI: когда DGX Spark окупается за год

Энергоэффективность

При работе 24/7 и тарифе 8 ₽/кВт·ч:

Конфигурация

Потребление, Вт

Стоимость/год, ₽

DGX Spark

140

~10 000

2× RTX 3090

700

~49 000

2× RTX 4090

900

~63 000

2× RTX 5090

1 150

~81 000

Экономия: 40-70k ₽/год на электричестве по сравнению с RTX-сборками.

Дополнительные расходы RTX-сборок

  • Блок питания 1 200-1 600W: 20-40k ₽

  • Охлаждение/кондиционирование: от 50k ₽

  • Корпус/стойка с хорошей вентиляцией: 15-30k ₽

  • Время на настройку тензорного параллелизма: бесценно


Кому брать девайс, а кому – точно нет

✅ Идеален для:

1. Разработчиков AI-приложений

  • Локальная разработка и отладка LLM-агентов

  • Быстрая итерация промптов без облачных API

  • Комфортная работа с моделями до 32B в подходящей квантизации

2. Малый бизнес с локальными RAG-системами

  • Вычисления на локальной машине обеспечивают полную конфиденциальность данных

  • Если 10-50 пользователей и 400-2 000 tok/s будет достаточно

  • 128 GB памяти для модели + векторной базы + ОС

3. Edge AI в корпоративных средах

  • 140W TDP это стандартная офисная стойка

  • Тихая работа vs ревущие RTX 4090

4. Кластерные решения на 2 устройства

  • 256 GB unified memory через ConnectX-7

  • Модели до 405B в FP4

  • InfiniBand/RDMA для низкой задержки между нодами

140 ватт это не просто цифра в спецификации. Это возможность поставить DGX Spark в обычный офис без промышленного кондиционера. После визитов в дата-центры с серверами на несколько 4090 или А100, где один GPU потребляет как микроволновка и издает звуки реактивного двигателя, это ощущается совершенно иначе.

❌ Не подходит для:

1. High-throughput production (>100 req/s)

  • Плато на 50 запросах из-за архитектурных ограничений

  • Для нагруженных сервисов нужны A100/H100

2. Обучение моделей

  • Memory bandwidth недостаточен для эффективного обучения

3. Длинный контекст (>100K токенов)

  • TTFT до 34 секунд — почти всегда неприемлемо для UX

4. Модели 70B+ на одном устройстве

  • Технически запустится, но ~50 tok/s это очень медленно

  • Для 70B+ нужен кластер из 2 DGX Spark или RTX-сборка


Вердикт и итоговые рекомендации

Сценарий

DGX Spark

2× RTX 3090

2× RTX 4090

2× RTX 5090

Разработка AI-агентов

Отлично

Хорошо

Средне

Хорошо

Малый бизнес с RAG

Отлично

Хорошо

Средне

Хорошо

Production (>100 req/s)

Плохо

Отлично

Хорошо

Отлично

Модели 70B+

Плохо

Отлично

Хорошо

Отлично

Энергоэффективность

Отлично

Плохо

Плохо

Плохо

Цена/производительность

Средне

Отлично

Плохо

Хорошо

Простота настройки

Отлично

Средне

Средне

Средне

Выбирайте DGX Spark если:

  • Нужна простота — одно устройство, unified memory, никакого multi-GPU

  • Работаете с моделями до 32B

  • Критична энергоэффективность и тишина

  • Конфиденциальность данных это приоритет

  • Планируете масштабирование через кластеризацию (ConnectX-7)

Выбирайте 2× RTX 3090 если:

  • Бюджет ограничен (в 3-5 раз дешевле)

  • Нужен максимальный throughput

  • Планируете работать с 70B+ моделями

  • Готовы потратить время на настройку и охлаждение

  • Важен NVLink для эффективного тензорного параллелизма

Выбирайте 2× RTX 4090 если:

  • Нужна максимальная производительность и не критична цена

  • Планируете использовать для gaming/rendering задач помимо AI

  • Не критичен NVLink (его нет на 4090)

Выбирайте 2× RTX 5090 если:

  • Нужен баланс цены и производительности

  • Хотите Blackwell на consumer GPU

  • Готовы к 1150W энергопотребления

  • Не критичен NVLink (его нет на 5090)


Заключение

NVIDIA DGX Spark это специализированное решение, а не универсальная рабочая лошадка. Его архитектурные компромиссы (низкий bandwidth, большой объем объединенной памяти, низкое энергопотреблен��е) делают его идеальным для:

  • Edge AI и IoT

  • Конфиденциальных вычислений с чувствительными данными

  • Разработки на малых и средних моделях (до 14B) и MoE-моделях (30B-A3B)

  • Кластеризации через ConnectX-7 для больших моделей

MoE-модели — главная находка бенчмарков: Qwen3-30B-A3B в GPTQ-Int4 на 64% быстрее Dense 32B AWQ на chatbot-задачах и в на RAG при сопоставимом memory footprint. Если вам нужен максимум качества от GB10, то MoE в GPTQ-Int4 ваш выбор.

Эффект плато на 50 запросах это фундаментальное ограничение пропускной способности LPDDR5X. А квантизация (FP8/AWQ) единственный путь к масштабированию производительности в этих условиях.

Для промышленных предприятий DGX Spark открывает путь к Edge AI без компромиссов: аналитика прямо на производственной площадке, анализ технической документации без облака, контроль качества с ML-моделями и все это в форм-факторе настольного компьютера с энергопотреблением 140W. А возможность кластеризации через ConnectX-7 позволяет масштабировать решение по мере роста масштаба задач.

Стоит ли переплачивать? Зависит от ваших приоритетов:

  • Если важны простота, тишина и энергоэффективность — да, DGX Spark оправдывает свою цену

  • Если нужен максимальный throughput за минимальные деньги — б/у RTX 3090 будут лучшим выбором

  • Если хотите современную архитектуру с максимальной производительностью — присмотритесь к RTX 5090


Бенчмарки проведены на NVIDIA DGX Spark (GB10) с 128 GB LPDDR5X, 273.2 GB/s bandwidth. Использовался vLLM без prefix caching, модели Qwen3 0.6B-32B (включая MoE 30B-A3B) в форматах BF16/FP8/AWQ/GPTQ/GGUF. В production среде с включенным кэшированием показатели throughput могут быть на 20-40% выше.

Репозиторий с кодом бенчмарка: github.com/PalatineVision/dgx-spark-benchmark

Буду рад замечаниям по бенчмарку и другим комментариям.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
Это мы покупаем?
40%110
28%07
32%Нужно крепко подумать…8
Проголосовали 25 пользователей. Воздержались 2 пользователя.