Valeronich Feb 16 at 08:00

Бенчмарк DGX Spark с LLM Qwen3: кому подойдет, почему 128 ГБ не серебряная пуля и о чем умолчал маркетинг NVIDIA

Medium

21 min

9.2K

Artificial IntelligenceComputer hardwareMachine learning * Industrial Programming * Video cards

Review

+11

Comments 12

Smartor Feb 16 at 10:27

Отличная статья, спасибо!

Moog_Prodigy Feb 16 at 12:54

Думаю девайс нормальный за эти деньги - особенно на фоне видеокарт с такими обьемами врама. 50 tok/s это очень медленно - да кто вам сказал то такое? Вот 0.1 tok/s - это медленно. Ну все правильно - для разработчиков и частных применений, энтузиастов ИИ. Оно и было создано для этого как бэ.

NKulikov Feb 16 at 14:50

Спасибо за статью. Несколько комментариев:

Жалко, что вы пропустили самые великолепные для DGX Spark модели класса MoE ~120B-A12B. Тут как раз очень помогает большой RAM, но за счет MoE нагрузка сильно меньше. Тот же gpt-oss-120b влезает в ~90GB VRAM легко и дает порядка 50 tok/s, что ИМХО вполне комфортно, для работы с один пользователем (а DGX Spark - в первую очередь, индивидуальное устройство).

Blackwell оптимизирован под FP4. Поэтому имеет очень много по умолчанию тестировать именно в этом формате. Желательно вообще в NVFP4, как например, Nemotron 3 Nano - 30B-A3B, NVFP4. Если взять большую модель в NVFP4, то результаты (и качество, и скорость) будет лучше, чем у меньшей модели в FP16.

Одна из самых интересных находок бенчмарка — эффект плато.

Непонятно, почему это находка. У вас в любой системе (хоть на B300) в некий момент происходит насыщение (bottleneck) и дальше, как не увеличивай число параллельных запросов, производительность не растет (растет только latency).

При генерации каждого токена GPU должен:
Загрузить все веса модели из памяти (~64 ГБ для 32B модели в BF16)

Веса модели загружаются один раз при запуске модели и больше не трогаются.

Есть два этапа:

Этапа при инференсе действительно два, но совсем других

Prefill - создание KV-Cache, Compute-Bound, зависит от размера контекста, влияет на TTFT.
Decode - последовательная генерация output tokens, Memory Bound, влияет на tok/s.

Считаем на пальцах

Тут, честно говоря, не понятно. Вы не могли бы пояснить про какие именно "ждем данные из памяти" вы пишите?

Именно поэтому квантизация так эффективна на этом устройстве: AWQ 4-bit уменьшает размер модели в 4 раза → в 4 раза меньше данных нужно гонять через память → в ~3 раза выше throughput.

Квантизация весов модели != квантизация активаций.

2× RTX 5090, FP16 (tok/s), 64 GB VRAM, для модели 70B дает ~900 tok/s

Хм.. 70B модель (например, LLama 3.3 70B) в FP16 имеет размер в 140GB. Для большого контекста требуется ~180GB. Как это запустить на 2-х 5090?

В FP8 - 70GB Min, 90GB рекомендуется для большого контекста.

RomanVelichkin Feb 17 at 08:54

Я, кстати, тоже не понял, почему 70B лучше запускать на потребительских картах, если они не умещаются в память. Наоборот, Spark нужен как раз для работы с большими моделями.

deadmoroz14 Feb 16 at 23:31

Сравнение DGX с обычными GPU это хорошо.

А почему со Strix Halo от AMD не сравнивали? Те же самые 128ГБ объединенной памяти, тот же форм-фактор, только дешевле.

debagger Feb 17 at 03:11

Для личного применения Strix Halo (Ryzen AI Max+ 395) однозначно интереснее, в силу того, что в основе это обычный x86.
DGX Spark это все же очень специализированная железка. По производительности DGX Spark лучше, но не прям драматично.

Kissofthevoid Feb 17 at 05:22

А вы не думали туда еще Mac Studio на m4 Max с тем же диапазоном комбинированной памяти добавить?

Mortello Feb 17 at 19:53

Ура, обошлось без ollama )
Насчет NVFP4, вдруг есть возможность сделать апдейт или вторую часть?
Спасибо за обзор!

stanislav37 Feb 22 at 03:39

Осталось только написать цифры по токенам в режиме 1 запроса(и нет, просто разделить на 50 не выйдет, оно нелинейно), а то выглядит смешно, особенно для людей, которые хоть как то с LLM работают в реальных задачах. Хотя если хомяков разводить, то вероятно ок..

p.s. 4x3090 bf16 Qwen3-30B-A3B thinking с использованием VLLM выдают около 200t\s на 1 запросе.
p.p.s. и неплохо бы раскрыть, в какой именно реальной задаче может пригодиться 30B-A3 модель квантованная до 4 бит... в 70% случаев она "теряет нить разговора задолго до барри уайта", RAG c 15к+ токенами ? Похоже на диалог с алкоголиком после 2 литров, выдать результат tool запроса в виде json\xml ? ... после 3 литров. Такая себе реклама.

NKulikov Feb 22 at 21:38

в какой именно реальной задаче может пригодиться 30B-A3 модель квантованная до 4 бит

30B-A3B https://research.nvidia.com/labs/nemotron/nemotron-qad/

Квантование до NVFP4 может минимально влиять на качество. https://research.nvidia.com/labs/nemotron/files/NVFP4-QAD-Report.pdf А можно и пост-трейнинг сразу сделать в FP4 - https://developer.nvidia.com/blog/optimizing-llms-for-performance-and-accuracy-with-post-training-quantization/ + https://openai.com/index/introducing-gpt-oss/

А так, модели 30B-A3B прекрасно справляются с задачами суммаризации сложных тестов, объяснения тем, написания текстов/писем/etc и многими другими задачами.

Ну и в общем, gpt-oss-20B/Qwen3-30B-A3B/Nemotron 3 Nano на уровне SoTA моделей образца 2024 года по бенчмаркам, таких как gpt-4o, Gemini 1.5 Pro, o3-mini, Llama 3.3 70B и т.д. ИМХО, это вполне приличный уровень, который недавно считался исключительным.

stanislav37 Mar 4 at 20:21

Все красиво и хорошо, кроме небольшой мелочи - практика и нарисованные тесты, вместе со статьями написанным нейросетями имеют мало общего. Нарисованные тесты nvfp4 - было бы очень странно для Nvidia показывать нечто отличное, с учетом того, что это главный фактор в маркетинге spark и не только. У них и nemotron модели во всех тестах, иногда существенно опережают модели на основе которых они сделаны, только вот на практике все ровно наоборот, увы.

NKulikov Mar 5 at 11:28

Иногда существенно опережают модели на основе которых они сделаны

Так в этом и смысл, что берется базовая модель и делается версия на её основе, которая лучше (характеристики "лучше" - различные. Иногда это сильно быстрее, при сравнимом качестве, иногда это умнее при той же скорости, иногда это добавление фич типа рассуждений в модели, где этого нет, и т.д.), чем оригинал. Иначе на фига этим всем заниматься? Делается это за счет множества разных вещей от QAD, до очень активного дообучения через RL, Model as a Judge, etc.

Ну и, кстати, Nemotron 3, о которой была табличка выше, не сделана на базе чего-то. Это обученная с нуля модель.

Нарисованные тесты nvfp4

А что вы называете нарисованными тестами? Есть открытые и признанные в индустрии бенчмарки. Есть открытая модель - качайте и повторяйте. Это модель проходит бенчмарк. Получаем на выходе абсолютное, измеряемое и повторяемое значение. Это значение публикуется. В общем-то ровно также делает любой Model Builder.

практика и нарисованные тесты, вместе со статьями написанным нейросетями имеют мало общего

Ну не знаю. Я тестировал Nemotron 3 в NVFP4 и BF16. Разницы не заметил. И gpt-oss-120b использую. Хотя легко допускаю, что вы можете увидеть. А третий - нет. Вот поэтому и существуют бенчмарки, чтобы уйти от субъективной и личностной оценки к объективным и воспроизводимым измерениям.

очень странно для Nvidia показывать нечто отличное

Хм.. А для OpenAI с gpt-oss? У которой открытые модели в MXFP4? BlackForest c FLUX.2 dev и klien, kontext в NVFP4 (1, 2, 3)? Mistral Large 3 c NVFP4 (где Mistral пишет, что до 32K ISL разницы нет, а больше она мала)?

главный фактор в маркетинге spark и не только

Мне кажется, что Spark тут наименьшее играет значение в маркетинге NVFP4. Продвижение/реклама NVFP4 началось за долго до Spark, по той причине, что в Blackwell они появились и это способ заметно ускориться по сравнению с FP8. И по мере того, как все больше будет Blackwell систем у Model Builder, тем больше будет появляться FP4-native моделей (сейчас там очень часто можно встретить Hopper, а на Hopper делать трейнинг в FP4 смысла никакого нет)

Кстати, AMD ровно так же продвигает MXFP4/MXFP6 - 1, 2, 3, 4 ; По той же самой причине.