Комментарии 12
Отличная статья, спасибо!
Думаю девайс нормальный за эти деньги - особенно на фоне видеокарт с такими обьемами врама. 50 tok/s это очень медленно - да кто вам сказал то такое? Вот 0.1 tok/s - это медленно. Ну все правильно - для разработчиков и частных применений, энтузиастов ИИ. Оно и было создано для этого как бэ.
Спасибо за статью. Несколько комментариев:
Жалко, что вы пропустили самые великолепные для DGX Spark модели класса MoE ~120B-A12B. Тут как раз очень помогает большой RAM, но за счет MoE нагрузка сильно меньше. Тот же gpt-oss-120b влезает в ~90GB VRAM легко и дает порядка 50 tok/s, что ИМХО вполне комфортно, для работы с один пользователем (а DGX Spark - в первую очередь, индивидуальное устройство).
Blackwell оптимизирован под FP4. Поэтому имеет очень много по умолчанию тестировать именно в этом формате. Желательно вообще в NVFP4, как например, Nemotron 3 Nano - 30B-A3B, NVFP4. Если взять большую модель в NVFP4, то результаты (и качество, и скорость) будет лучше, чем у меньшей модели в FP16.
Одна из самых интересных находок бенчмарка — эффект плато.
Непонятно, почему это находка. У вас в любой системе (хоть на B300) в некий момент происходит насыщение (bottleneck) и дальше, как не увеличивай число параллельных запросов, производительность не растет (растет только latency).
При генерации каждого токена GPU должен:
Загрузить все веса модели из памяти (~64 ГБ для 32B модели в BF16)
Веса модели загружаются один раз при запуске модели и больше не трогаются.
Есть два этапа:
Этапа при инференсе действительно два, но совсем других
Prefill - создание KV-Cache, Compute-Bound, зависит от размера контекста, влияет на TTFT.
Decode - последовательная генерация output tokens, Memory Bound, влияет на tok/s.
Считаем на пальцах
Тут, честно говоря, не понятно. Вы не могли бы пояснить про какие именно "ждем данные из памяти" вы пишите?
Именно поэтому квантизация так эффективна на этом устройстве: AWQ 4-bit уменьшает размер модели в 4 раза → в 4 раза меньше данных нужно гонять через память → в ~3 раза выше throughput.
Квантизация весов модели != квантизация активаций.
2× RTX 5090, FP16 (tok/s), 64 GB VRAM, для модели 70B дает ~900 tok/s
Хм.. 70B модель (например, LLama 3.3 70B) в FP16 имеет размер в 140GB. Для большого контекста требуется ~180GB. Как это запустить на 2-х 5090?
В FP8 - 70GB Min, 90GB рекомендуется для большого контекста.
Сравнение DGX с обычными GPU это хорошо.
А почему со Strix Halo от AMD не сравнивали? Те же самые 128ГБ объединенной памяти, тот же форм-фактор, только дешевле.
А вы не думали туда еще Mac Studio на m4 Max с тем же диапазоном комбинированной памяти добавить?
Ура, обошлось без ollama )
Насчет NVFP4, вдруг есть возможность сделать апдейт или вторую часть?
Спасибо за обзор!
Осталось только написать цифры по токенам в режиме 1 запроса(и нет, просто разделить на 50 не выйдет, оно нелинейно), а то выглядит смешно, особенно для людей, которые хоть как то с LLM работают в реальных задачах. Хотя если хомяков разводить, то вероятно ок..
p.s. 4x3090 bf16 Qwen3-30B-A3B thinking с использованием VLLM выдают около 200t\s на 1 запросе.
p.p.s. и неплохо бы раскрыть, в какой именно реальной задаче может пригодиться 30B-A3 модель квантованная до 4 бит... в 70% случаев она "теряет нить разговора задолго до барри уайта", RAG c 15к+ токенами ? Похоже на диалог с алкоголиком после 2 литров, выдать результат tool запроса в виде json\xml ? ... после 3 литров. Такая себе реклама.
в какой именно реальной задаче может пригодиться 30B-A3 модель квантованная до 4 бит

Квантование до NVFP4 может минимально влиять на качество. https://research.nvidia.com/labs/nemotron/files/NVFP4-QAD-Report.pdf А можно и пост-трейнинг сразу сделать в FP4 - https://developer.nvidia.com/blog/optimizing-llms-for-performance-and-accuracy-with-post-training-quantization/ + https://openai.com/index/introducing-gpt-oss/
А так, модели 30B-A3B прекрасно справляются с задачами суммаризации сложных тестов, объяснения тем, написания текстов/писем/etc и многими другими задачами.
Ну и в общем, gpt-oss-20B/Qwen3-30B-A3B/Nemotron 3 Nano на уровне SoTA моделей образца 2024 года по бенчмаркам, таких как gpt-4o, Gemini 1.5 Pro, o3-mini, Llama 3.3 70B и т.д. ИМХО, это вполне приличный уровень, который недавно считался исключительным.
Все красиво и хорошо, кроме небольшой мелочи - практика и нарисованные тесты, вместе со статьями написанным нейросетями имеют мало общего. Нарисованные тесты nvfp4 - было бы очень странно для Nvidia показывать нечто отличное, с учетом того, что это главный фактор в маркетинге spark и не только. У них и nemotron модели во всех тестах, иногда существенно опережают модели на основе которых они сделаны, только вот на практике все ровно наоборот, увы.
Иногда существенно опережают модели на основе которых они сделаны
Так в этом и смысл, что берется базовая модель и делается версия на её основе, которая лучше (характеристики "лучше" - различные. Иногда это сильно быстрее, при сравнимом качестве, иногда это умнее при той же скорости, иногда это добавление фич типа рассуждений в модели, где этого нет, и т.д.), чем оригинал. Иначе на фига этим всем заниматься? Делается это за счет множества разных вещей от QAD, до очень активного дообучения через RL, Model as a Judge, etc.
Ну и, кстати, Nemotron 3, о которой была табличка выше, не сделана на базе чего-то. Это обученная с нуля модель.
Нарисованные тесты nvfp4
А что вы называете нарисованными тестами? Есть открытые и признанные в индустрии бенчмарки. Есть открытая модель - качайте и повторяйте. Это модель проходит бенчмарк. Получаем на выходе абсолютное, измеряемое и повторяемое значение. Это значение публикуется. В общем-то ровно также делает любой Model Builder.
практика и нарисованные тесты, вместе со статьями написанным нейросетями имеют мало общего
Ну не знаю. Я тестировал Nemotron 3 в NVFP4 и BF16. Разницы не заметил. И gpt-oss-120b использую. Хотя легко допускаю, что вы можете увидеть. А третий - нет. Вот поэтому и существуют бенчмарки, чтобы уйти от субъективной и личностной оценки к объективным и воспроизводимым измерениям.
очень странно для Nvidia показывать нечто отличное
Хм.. А для OpenAI с gpt-oss? У которой открытые модели в MXFP4? BlackForest c FLUX.2 dev и klien, kontext в NVFP4 (1, 2, 3)? Mistral Large 3 c NVFP4 (где Mistral пишет, что до 32K ISL разницы нет, а больше она мала)?
главный фактор в маркетинге spark и не только
Мне кажется, что Spark тут наименьшее играет значение в маркетинге NVFP4. Продвижение/реклама NVFP4 началось за долго до Spark, по той причине, что в Blackwell они появились и это способ заметно ускориться по сравнению с FP8. И по мере того, как все больше будет Blackwell систем у Model Builder, тем больше будет появляться FP4-native моделей (сейчас там очень часто можно встретить Hopper, а на Hopper делать трейнинг в FP4 смысла никакого нет)
Кстати, AMD ровно так же продвигает MXFP4/MXFP6 - 1, 2, 3, 4 ; По той же самой причине.

Бенчмарк DGX Spark с LLM Qwen3: кому подойдет, почему 128 ГБ не серебряная пуля и о чем умолчал маркетинг NVIDIA