Pull to refresh

Comments 10

Отличная статья, спасибо!

Думаю девайс нормальный за эти деньги - особенно на фоне видеокарт с такими обьемами врама. 50 tok/s это очень медленно - да кто вам сказал то такое? Вот 0.1 tok/s - это медленно. Ну все правильно - для разработчиков и частных применений, энтузиастов ИИ. Оно и было создано для этого как бэ.

Спасибо за статью. Несколько комментариев:

Жалко, что вы пропустили самые великолепные для DGX Spark модели класса MoE ~120B-A12B. Тут как раз очень помогает большой RAM, но за счет MoE нагрузка сильно меньше. Тот же gpt-oss-120b влезает в ~90GB VRAM легко и дает порядка 50 tok/s, что ИМХО вполне комфортно, для работы с один пользователем (а DGX Spark - в первую очередь, индивидуальное устройство).

Blackwell оптимизирован под FP4. Поэтому имеет очень много по умолчанию тестировать именно в этом формате. Желательно вообще в NVFP4, как например, Nemotron 3 Nano - 30B-A3B, NVFP4. Если взять большую модель в NVFP4, то результаты (и качество, и скорость) будет лучше, чем у меньшей модели в FP16.

Одна из самых интересных находок бенчмарка — эффект плато.

Непонятно, почему это находка. У вас в любой системе (хоть на B300) в некий момент происходит насыщение (bottleneck) и дальше, как не увеличивай число параллельных запросов, производительность не растет (растет только latency).

При генерации каждого токена GPU должен:

  1. Загрузить все веса модели из памяти (~64 ГБ для 32B модели в BF16)

Веса модели загружаются один раз при запуске модели и больше не трогаются.

Есть два этапа:

Этапа при инференсе действительно два, но совсем других

  • Prefill - создание KV-Cache, Compute-Bound, зависит от размера контекста, влияет на TTFT.

  • Decode - последовательная генерация output tokens, Memory Bound, влияет на tok/s.

Считаем на пальцах

Тут, честно говоря, не понятно. Вы не могли бы пояснить про какие именно "ждем данные из памяти" вы пишите?

Именно поэтому квантизация так эффективна на этом устройстве: AWQ 4-bit уменьшает размер модели в 4 раза → в 4 раза меньше данных нужно гонять через память → в ~3 раза выше throughput.

Квантизация весов модели != квантизация активаций.

2× RTX 5090, FP16 (tok/s), 64 GB VRAM, для модели 70B дает ~900 tok/s

Хм.. 70B модель (например, LLama 3.3 70B) в FP16 имеет размер в 140GB. Для большого контекста требуется ~180GB. Как это запустить на 2-х 5090?

В FP8 - 70GB Min, 90GB рекомендуется для большого контекста.

Я, кстати, тоже не понял, почему 70B лучше запускать на потребительских картах, если они не умещаются в память. Наоборот, Spark нужен как раз для работы с большими моделями.

Сравнение DGX с обычными GPU это хорошо.

А почему со Strix Halo от AMD не сравнивали? Те же самые 128ГБ объединенной памяти, тот же форм-фактор, только дешевле.

Для личного применения Strix Halo (Ryzen AI Max+ 395) однозначно интереснее, в силу того, что в основе это обычный x86.
DGX Spark это все же очень специализированная железка. По производительности DGX Spark лучше, но не прям драматично.

А вы не думали туда еще Mac Studio на m4 Max с тем же диапазоном комбинированной памяти добавить?

  1. Ура, обошлось без ollama )

  2. Насчет NVFP4, вдруг есть возможность сделать апдейт или вторую часть?

  3. Спасибо за обзор!

Осталось только написать цифры по токенам в режиме 1 запроса(и нет, просто разделить на 50 не выйдет, оно нелинейно), а то выглядит смешно, особенно для людей, которые хоть как то с LLM работают в реальных задачах. Хотя если хомяков разводить, то вероятно ок..

p.s. 4x3090 bf16 Qwen3-30B-A3B thinking с использованием VLLM выдают около 200t\s на 1 запросе.
p.p.s. и неплохо бы раскрыть, в какой именно реальной задаче может пригодиться 30B-A3 модель квантованная до 4 бит... в 70% случаев она "теряет нить разговора задолго до барри уайта", RAG c 15к+ токенами ? Похоже на диалог с алкоголиком после 2 литров, выдать результат tool запроса в виде json\xml ? ... после 3 литров. Такая себе реклама.

в какой именно реальной задаче может пригодиться 30B-A3 модель квантованная до 4 бит

30B-A3B https://research.nvidia.com/labs/nemotron/nemotron-qad/

Квантование до NVFP4 может минимально влиять на качество. https://research.nvidia.com/labs/nemotron/files/NVFP4-QAD-Report.pdf А можно и пост-трейнинг сразу сделать в FP4 - https://developer.nvidia.com/blog/optimizing-llms-for-performance-and-accuracy-with-post-training-quantization/ + https://openai.com/index/introducing-gpt-oss/

А так, модели 30B-A3B прекрасно справляются с задачами суммаризации сложных тестов, объяснения тем, написания текстов/писем/etc и многими другими задачами.

Ну и в общем, gpt-oss-20B/Qwen3-30B-A3B/Nemotron 3 Nano на уровне SoTA моделей образца 2024 года по бенчмаркам, таких как gpt-4o, Gemini 1.5 Pro, o3-mini, Llama 3.3 70B и т.д. ИМХО, это вполне приличный уровень, который недавно считался исключительным.

Sign up to leave a comment.

Articles