Как мы валидировали сервер YADRO для NVIDIA H100 PCIe / Хабр

Недавно на рынке появились PCIe-карты NVIDIA H100: они позиционируются как решения на базе SXM-чипов, извлеченных из HGX-модулей. Но точно ли их производительность не уступает производительности оригинальных NVIDIA H100 NVL?

Меня зовут Артём Маклаев, вместе с командой я занимаюсь оценкой производительности серверных платформ для задач искусственного интеллекта в YADRO. В целях эксперимента мы решили сравнить показатели PCIe-карты NVIDIA H100 (дальше по тексту буду называть их NVIDIA H100 Special) и NVIDIA H100 NVL. Для этого провели испытания с использованием сервера YADRO G4208P G3. Методику построили так, чтобы результат можно было проверить и воспроизвести: для сравнения использовали одинаковую серверную платформу, одинаковые версии драйвера, CUDA и ОС, а также два уровня тестов — прикладной vLLM benchmark и NCCL all_reduce_perf для проверки GPU-интерконнекта.

Ниже поделюсь результатами, покажу результаты бенчмарков на типовых LLM-конфигурациях и дам рекомендации, как валидировать ускорители перед включением в проектный или продуктовый контур. Будет полезно, если приобретаете карты для работы над задачами ИИ.

Характеристики тестируемых конфигураций

Посмотрим, какими характеристиками обладают PCIe-карт NVIDIA H100 Special:

# nvidia-smi 
Wed Dec 17 18:28:01 2025       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.171.04             Driver Version: 535.171.04   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          Off | 00000000:16:00.0 Off |                    0 |
| N/A   73C    P0             697W / 700W |  72977MiB / 81559MiB |    100%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A      3876      C   ./gpu_burn                                72968MiB |
+---------------------------------------------------------------------------------------+

По данным утилиты nvidia-smi, энергопотребление карты доходит до 700 Вт включительно, а это может стать серьезным вызовом для системы охлаждения сервера. Для сравнения: у NVIDIA H100 NVL энергопотребление — 350–400 Вт.

В испытаниях мы использовали сервер YADRO G4208P G3 — это наш главный сервер под задачи ИИ. Он поддерживает установку не менее восьми GPU, предназначенных для выполнения задач искусственного интеллекта, машинного обучения, высокопроизводительных вычислений и обработки больших массивов данных. Конструктивно он готов к установке ускорителей с суммарной расчетной мощностью не менее 4 800 Вт — то есть не менее 600 Вт каждый.

Конфигурации стендов были такими:

Компонент/платформа	YADRO G4208P G3 (4 × NVIDIA H100 Special)	YADRO G4208P G3 (4 × H100 NVL)
CPU	2 × Intel Xeon Platinum 6430	2 × Intel Xeon Platinum 6430
GPU	4 × NVIDIA H100 Special (80 ГБ), попарно объединены NVIDIA NVLink bridge	4 × H100 NVL (94 ГБ), попарно объединены NVIDIA NVLink bridge
RAM	2 ТБ (32 × 64 ГБ)	2 ТБ (32 × 64 ГБ)
SSD	7 ТБ NVMe	7 ТБ NVMe
Драйвер NVIDIA	560.35.5	560.35.5
Версия CUDA	12.6	12.6
ОС	Ubuntu 22.04, Linux 6.8.0-57-generic	Ubuntu 22.04, Linux 6.8.0-57-generic

ИИ-модели, которые мы применяли, отличались размером и требуемым числом GPU при контексте 128k. Характеристики:


Модель	Релиз	Число параметров	Precision	Требования для запуска при контексте 128k. Количество GPU H100	Ссылка на Hugging Face
Qwen3-Coder-30B-A3B-Instruct	май, 2025	31B	BF16	2	https://huggingface.co/Qwen/Qwen3-Coder-30B-A3B-Instruct
Qwen3-Coder-Next	февраль, 2026	80B	BF16	4	https://huggingface.co/Qwen/Qwen3-Coder-Next

Методика тестирования

Для оценки производительности серверной платформы мы использовали бенчмарки из проекта vLLM. Этот проект представляет собой инструменты для загрузки и экспериментов с LLM-моделями и набор сценариев для сравнения производительности на разных платформах с гибкой настройкой параметров. Так мы могли оценить производительность релевантных моделей на различных конфигурациях сервера.

Чтобы оценить эффективность GPU-интерконнекта, дополнительно использовали бенчмарки NCCL all_reduce_perf из репозитория nccl-tests. NCCL — это библиотека стандартных процедур коммуникации между GPU, разрабатываемая NVIDIA. Она используется для выполнения инференса — в случае, когда модель требует более одной NVIDIA GPU для исполнения, а указанные тесты как раз и призваны оценить эффективность работы этой библиотеки при передаче данных между GPU.

Присоединяйтесь к команде! У нас открыты вакансии:
Full‑Stack разработчик
DevSecOps-инженер
Старший инженер по автоматизации тестирования

Бенчмарк vLLM

Для тестирования взяли фреймворк vLLm версии v0.18.0 — релиз от марта 2026 года, который поставляется в готовом docker image от vLLM.

Запуски vLLM server и vLLM benchmark

Ниже покажу, как выглядели запуски и какие результаты мы получили.

vLLM server

Qwen3-Coder-30B-A3B-Instruct:

docker run --network host --gpus all --shm-size 64G -v <models_dir>:/models vllm/vllm-openai:v0.18.0 --model /models/Qwen3-Coder-30B-A3B-Instruct -tp 2

Qwen3-Coder-Next:

 docker run --network host --gpus all --shm-size 64G -v <models_dir>:/models vllm/vllm-openai:v0.18.0 --model /models/Qwen3-Coder-Next -tp 4

Важно: <models_dir> нужно заменить на полный путь до места нахождения моделей.

vLLM benchmark

Этот эксперимент нацелен не на точное воспроизведение пользовательского сценария, а на сравнение поведения карт NVIDIA H100 Special и H100 NVL. Поэтому для удобства воспроизводимости мы будем использовать случайные датасеты заданных размеров: 1k токенов на входе и 1k на выходе, а также 127k на входе и 1k на выходе. Это позволяет изолировать влияние GPU и интерконнекта от вариативности реальных пользовательских запросов.

Команды запуска vLLM server для двух тестируемых моделей:

random 1k-1k:

docker run --rm --entrypoint vllm --network=host -v <models_dir>:/models vllm/vllm-openai:v0.18.0 bench serve --model /models/<model_name> --dataset-name random --random-output-len 1024 --random-input-len 1024 --num-prompts 1000 --port 8000

random 127k-1k:

docker run --rm --entrypoint vllm --network=host -v <models_dir>:/models vllm/vllm-openai:v0.18.0 bench serve --model /models/<model_name> --dataset-name random --random-output-len 1024 --random-input-len 130048 --num-prompts 10 --port 8000

Здесь <models_dir> — это полный путь к каталогу с моделями, а <model_name> — название тестируемой модели: Qwen3-Coder-30B-A3B-Instruct или Qwen3-Coder-Next.

Результаты бенчмарков vLLM

На этой диаграмме вы видите сравнение пропускной способности по выходным токенам, профиль random 1k-1k:

Тут то же самое, но профиль random 127k-1k:

Ниже в таблице покажу сводные значения по двум профилям нагрузки. Ratio > 1 означает, что конфигурация с NVIDIA H100 Special уступает по производительности H100 NVL.

Модель	Профиль нагрузки	Производительность NVIDIA H100 Special, выходных токенов/с	Производительность H100 NVL, выходных токенов/с	Отношение H100 NVL / NVIDIA H100 Special
Qwen3-Coder-Next	random 1k-1k	3592,70	8923,46	2,48
Qwen3-Coder-30B-A3B-Instruct	random 1k-1k	8310,40	9207,59	1,11
Qwen3-Coder-Next	random 127k-1k	64,37	166,50	2,59
Qwen3-Coder-30B-A3B-Instruct	random 127k-1k	73,27	72,75	0,99

По результатам бенчмарков vLLM ускорители NVIDIA H100 Special заметно уступают H100 NVL в сценариях, где Tensor Parallelism используется между несколькими GPU.На модели Qwen3-Coder-Next отставание более чем в два раза как в профиле random 1k–1k, так и в профиле random 127k–1k. На модели Qwen3-Coder-30B-A3B-Instruct различие значительно меньше. Это указывает на высокую зависимость производительности от характеристик GPU-интерконнекта при развертывании модели.

Чтобы полностью провалидировать такие ускорители, кроме производительности нужно отдельно оценивать энергопотребление и тепловой профиль. Эти параметры могут отличаться от параметров оригинальных PCIe-ускорителей NVIDIA H100 NVL.

Тестирование производительности GPU-интерконнекта

Теперь очередь бенчмарка NCCL all_reduce_perf. Клонируем репозиторий в директорию <nccl_tests_dir>. Сборку выполняем с такими параметрами:

cd <nccl_tests_dir>
make MPI=1 MPI_HOME=<mpi_dir> CUDA_HOME=<cuda_dir>

Использовались cuda=12.6 и nvcc=12.6.

Запуск мы выполняли в двух режимах — Ring и Tree, почитать о них можно в документации NCCL. Параметры такие:

export LD_LIBRARY_PATH=<mpi_dir>/lib:$LD_LIBRARY_PATH
export PATH=<mpi_dir>/bin:$PATH
export NCCL_MIN_NCHANNELS=4
export NCCL_ALGO=Ring
mpirun -np 4 -N 4 -H <host_name>:4 \
    -x NCCL_ALGO -x NCCL_MIN_NCHANNELS \
    -x LD_LIBRARY_PATH -x PATH \
    <nccl_tests_dir>/build/all_reduce_perf \
    -b 1M -e 8G -f 2 -g 1

export NCCL_ALGO=Tree
mpirun -np 4 -N 4 -H <host_name>:4 \
    -x NCCL_ALGO -x NCCL_MIN_NCHANNELS \
    -x LD_LIBRARY_PATH -x PATH \
    <nccl_tests_dir>/build/all_reduce_perf \
    -b 1M -e 8G -f 2 -g 1

Результаты

Ниже в таблице показываю результаты теста NCCL all_reduce_perf — отношение H100 NVL к NVIDIA H100 PCIe. Ratio > 1 означает, что конфигурация с NVIDIA H100 Special уступает по производительности H100 NVL.

Algo	4 × NVIDIA H100 Special, ГБ/с	4 × H100 NVL ГБ/с	Отношение H100 NVL / NVIDIA H100 Special
Ring	7,93	39,37	4,96
Tree	11,55	45,38	3,93

Результаты подтверждают, что пропускная способность GPU-интерконнекта в конфигурации с NVIDIA H100 Special ниже, чем в конфигурации с H100 NVL. Это согласуется с результатами бенчмарков vLLM и объясняет заметное снижение производительности в сценариях развертывания моделей на нескольких GPU.

Выводы и рекомендации

Наши испытания показывают, что ускорители NVIDIA H100 Special в PCIe-форм-факторе на базе SXM-чипов могут уступать оригинальным H100 NVL в сценариях, где требуется интенсивный обмен данными между несколькими GPU. В протестированных конфигурациях на модели Qwen3-Coder-Next отставание достигло 2,5 раз. Результаты бенчмарков NCCL подтверждают, что ключевая причина — ограниченная пропускная способность GPU-интерконнекта.

Вывод: использовать такие ускорители в продуктовых или проектных решениях допустимо только после полноценной технической валидации. Она должна включать как прикладные бенчмарки, так и измерение характеристик GPU-интерконнекта и энергопотребления.

Напоследок — рекомендация для проектной практики. Перед включением ускорителей в проект проверяйте не только паспортные характеристики GPU, но и постоянную мощность (Sustained Power), тепловой режим, фактическую топологию NVLink/PCIe и результаты прикладного бенчмарка LLM на целевой модели.

Как мы валидировали сервер YADRO для NVIDIA H100 PCIe