Недавно на рынке появились PCIe-карты NVIDIA H100: они позиционируются как решения на базе SXM-чипов, извлеченных из HGX-модулей. Но точно ли их производительность не уступает производительности оригинальных NVIDIA H100 NVL? 

Меня зовут Артём Маклаев, вместе с командой я занимаюсь оценкой производительности серверных платформ для задач искусственного интеллекта в YADRO. В целях эксперимента мы решили сравнить показатели PCIe-карты NVIDIA H100 (дальше по тексту буду называть их NVIDIA H100 Special) и NVIDIA H100 NVL. Для этого провели испытания с использованием сервера YADRO G4208P G3. Методику построили так, чтобы результат можно было проверить и воспроизвести: для сравнения использовали одинаковую серверную платформу, одинаковые версии драйвера, CUDA и ОС, а также два уровня тестов — прикладной vLLM benchmark и NCCL all_reduce_perf для проверки GPU-интерконнекта. 

Ниже поделюсь результатами, покажу результаты бенчмарков на типовых LLM-конфигурациях и дам рекомендации, как валидировать ускорители перед включением в проектный или продуктовый контур. Будет полезно, если приобретаете карты для работы над задачами ИИ. 

Характеристики тестируемых конфигураций

Посмотрим, какими характеристиками обладают PCIe-карт NVIDIA H100 Special:

# nvidia-smi 
Wed Dec 17 18:28:01 2025       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.171.04             Driver Version: 535.171.04   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          Off | 00000000:16:00.0 Off |                    0 |
| N/A   73C    P0             697W / 700W |  72977MiB / 81559MiB |    100%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A      3876      C   ./gpu_burn                                72968MiB |
+---------------------------------------------------------------------------------------+

По данным утилиты nvidia-smi, энергопотребление карты доходит до 700 Вт включительно, а это может стать серьезным вызовом для системы охлаждения сервера. Для сравнения: у NVIDIA H100 NVL энергопотребление — 350–400 Вт.

В испытаниях мы использовали сервер YADRO G4208P G3 — это наш главный сервер под задачи ИИ. Он поддерживает установку не менее восьми GPU, предназначенных для выполнения задач искусственного интеллекта, машинного обучения, высокопроизводительных вычислений и обработки больших массивов данных. Конструктивно он готов к установке ускорителей с суммарной расчетной мощностью не менее 4 800 Вт — то есть не менее 600 Вт каждый. 

Конфигурации стендов были такими:

Компонент/платформа

YADRO G4208P G3 (4 × NVIDIA H100 Special)

YADRO G4208P G3 (4 × H100 NVL)

CPU

2 × Intel Xeon Platinum 6430

2 × Intel Xeon Platinum 6430

GPU

4 × NVIDIA H100 Special (80 ГБ), попарно объединены NVIDIA NVLink bridge

4 × H100 NVL (94 ГБ), попарно объединены NVIDIA NVLink bridge

RAM

2 ТБ (32 × 64 ГБ)

2 ТБ (32 × 64 ГБ)

SSD

7 ТБ NVMe

7 ТБ NVMe

Драйвер NVIDIA

560.35.5

560.35.5

Версия CUDA

12.6

12.6

ОС

Ubuntu 22.04, Linux 6.8.0-57-generic

Ubuntu 22.04, Linux 6.8.0-57-generic

ИИ-модели, которые мы применяли, отличались размером и требуемым числом GPU при контексте 128k. Характеристики:

Модель 

Релиз

Число параметров

Precision

Требования для запуска при контексте 128k. Количество GPU H100

Ссылка на Hugging Face 

Qwen3-Coder-30B-A3B-Instruct

май, 2025

31B

BF16

2

https://huggingface.co/Qwen/Qwen3-Coder-30B-A3B-Instruct

Qwen3-Coder-Next

февраль, 2026

80B

BF16

4

https://huggingface.co/Qwen/Qwen3-Coder-Next

Методика тестирования

Для оценки производительности серверной платформы мы использовали бенчмарки из проекта vLLM. Этот проект представляет собой инструменты для загрузки и экспериментов с LLM-моделями и набор сценариев для сравнения производительности на разных платформах с гибкой настройкой параметров. Так мы могли оценить производительность релевантных моделей на различных конфигурациях сервера. 

Чтобы оценить эффективность GPU-интерконнекта, дополнительно использовали бенчмарки NCCL all_reduce_perf из репозитория nccl-tests. NCCL — это библиотека стандартных процедур коммуникации между GPU, разрабатываемая NVIDIA. Она используется для выполнения инференса — в случае, когда модель требует более одной NVIDIA GPU для исполнения, а указанные тесты как раз и призваны оценить эффективность работы этой библиотеки при передаче данных между GPU. 

Присоединяйтесь к команде! У нас открыты вакансии:

Бенчмарк vLLM 

Для тестирования взяли фреймворк vLLm версии v0.18.0 — релиз от марта 2026 года, который поставляется в готовом docker image от vLLM.

Запуски vLLM server и vLLM benchmark

Ниже покажу, как выглядели запуски и какие результаты мы получили.

vLLM server

Qwen3-Coder-30B-A3B-Instruct:

docker run --network host --gpus all --shm-size 64G -v <models_dir>:/models vllm/vllm-openai:v0.18.0 --model /models/Qwen3-Coder-30B-A3B-Instruct -tp 2

Qwen3-Coder-Next:

 docker run --network host --gpus all --shm-size 64G -v <models_dir>:/models vllm/vllm-openai:v0.18.0 --model /models/Qwen3-Coder-Next -tp 4 

Важно: <models_dir> нужно заменить на полный путь до места нахождения моделей.

vLLM benchmark

Этот эксперимент нацелен не на точное воспроизведение пользовательского сценария, а на сравнение поведения карт NVIDIA H100 Special и H100 NVL. Поэтому для удобства воспроизводимости мы будем использовать случайные датасеты заданных размеров: 1k токенов на входе и 1k на выходе, а также 127k на входе и 1k на выходе. Это позволяет изолировать влияние GPU и интерконнекта от вариативности реальных пользовательских запросов.

Команды запуска vLLM server для двух тестируемых моделей:

random 1k-1k:

docker run --rm --entrypoint vllm --network=host -v <models_dir>:/models vllm/vllm-openai:v0.18.0 bench serve --model /models/<model_name> --dataset-name random --random-output-len 1024 --random-input-len 1024 --num-prompts 1000 --port 8000 

random 127k-1k:

docker run --rm --entrypoint vllm --network=host -v <models_dir>:/models vllm/vllm-openai:v0.18.0 bench serve --model /models/<model_name> --dataset-name random --random-output-len 1024 --random-input-len 130048 --num-prompts 10 --port 8000  

Здесь <models_dir> — это полный путь к каталогу с моделями, а <model_name> — название тестируемой модели: Qwen3-Coder-30B-A3B-Instruct или Qwen3-Coder-Next.

Результаты бенчмарков vLLM

На этой диаграмме вы видите сравнение пропускной способности по выходным токенам, профиль random 1k-1k:

Тут то же самое, но профиль random 127k-1k:

Ниже в таблице покажу сводные значения по двум профилям нагрузки. Ratio > 1 означает, что конфигурация с NVIDIA H100 Special уступает по производительности H100 NVL.

Модель

Профиль нагрузки

Производительность NVIDIA H100 Special, выходных токенов/с

Производительность H100 NVL, выходных токенов/с

Отношение H100 NVL / NVIDIA H100 Special

Qwen3-Coder-Next

random 1k-1k

3592,70

8923,46

2,48

Qwen3-Coder-30B-A3B-Instruct

8310,40

9207,59

1,11

Qwen3-Coder-Next

random 127k-1k

64,37

166,50

2,59

Qwen3-Coder-30B-A3B-Instruct

73,27

72,75

0,99

По результатам бенчмарков vLLM ускорители NVIDIA H100 Special заметно уступают H100 NVL в сценариях, где Tensor Parallelism используется между несколькими GPU.На модели Qwen3-Coder-Next отставание более чем в два раза как в профиле random 1k–1k, так и в профиле random 127k–1k. На модели Qwen3-Coder-30B-A3B-Instruct различие значительно меньше. Это указывает на высокую зависимость производительности от характеристик GPU-интерконнекта при развертывании модели.

Чтобы полностью провалидировать такие ускорители, кроме производительности нужно отдельно оценивать энергопотребление и тепловой профиль. Эти параметры могут отличаться от параметров оригинальных PCIe-ускорителей NVIDIA H100 NVL.

Тестирование производительности GPU-интерконнекта

Теперь очередь бенчмарка NCCL all_reduce_perf. Клонируем репозиторий в директорию <nccl_tests_dir>. Сборку выполняем с такими параметрами:

cd <nccl_tests_dir>
make MPI=1 MPI_HOME=<mpi_dir> CUDA_HOME=<cuda_dir>

Использовались cuda=12.6 и nvcc=12.6.

Запуск мы выполняли в двух режимах — Ring и Tree, почитать о них можно в документации NCCL. Параметры такие:

export LD_LIBRARY_PATH=<mpi_dir>/lib:$LD_LIBRARY_PATH
export PATH=<mpi_dir>/bin:$PATH
export NCCL_MIN_NCHANNELS=4
export NCCL_ALGO=Ring
mpirun -np 4 -N 4 -H <host_name>:4 \
    -x NCCL_ALGO -x NCCL_MIN_NCHANNELS \
    -x LD_LIBRARY_PATH -x PATH \
    <nccl_tests_dir>/build/all_reduce_perf \
    -b 1M -e 8G -f 2 -g 1

export NCCL_ALGO=Tree
mpirun -np 4 -N 4 -H <host_name>:4 \
    -x NCCL_ALGO -x NCCL_MIN_NCHANNELS \
    -x LD_LIBRARY_PATH -x PATH \
    <nccl_tests_dir>/build/all_reduce_perf \
    -b 1M -e 8G -f 2 -g 1

Результаты

Ниже в таблице показываю результаты теста NCCL all_reduce_perf — отношение H100 NVL к NVIDIA H100 PCIe. Ratio > 1 означает, что конфигурация с NVIDIA H100 Special уступает по производительности H100 NVL.

Algo

4 × NVIDIA H100 Special, ГБ/с 

4 × H100 NVL ГБ/с 

Отношение H100 NVL / NVIDIA H100 Special

Ring

7,93

39,37

4,96

Tree

11,55

45,38

3,93

Результаты подтверждают, что пропускная способность GPU-интерконнекта в конфигурации с NVIDIA H100 Special ниже, чем в конфигурации с H100 NVL. Это согласуется с результатами бенчмарков vLLM и объясняет заметное снижение производительности в сценариях развертывания моделей на нескольких GPU.

Выводы и рекомендации

Наши испытания показывают, что ускорители NVIDIA H100 Special в PCIe-форм-факторе на базе SXM-чипов могут уступать оригинальным H100 NVL в сценариях, где требуется интенсивный обмен данными между несколькими GPU. В протестированных конфигурациях на модели Qwen3-Coder-Next отставание достигло 2,5 раз. Результаты бенчмарков NCCL подтверждают, что ключевая причина — ограниченная пропускная способность GPU-интерконнекта. 

Вывод: использовать такие ускорители в продуктовых или проектных решениях допустимо только после полноценной технической валидации. Она должна включать как прикладные бенчмарки, так и измерение характеристик GPU-интерконнекта и энергопотребления.

Напоследок — рекомендация для проектной практики. Перед включением ускорителей в проект проверяйте не только паспортные характеристики GPU, но и постоянную мощность (Sustained Power), тепловой режим, фактическую топологию NVLink/PCIe и результаты прикладного бенчмарка LLM на целевой модели.