Недавно на рынке появились PCIe-карты NVIDIA H100: они позиционируются как решения на базе SXM-чипов, извлеченных из HGX-модулей. Но точно ли их производительность не уступает производительности оригинальных NVIDIA H100 NVL?
Меня зовут Артём Маклаев, вместе с командой я занимаюсь оценкой производительности серверных платформ для задач искусственного интеллекта в YADRO. В целях эксперимента мы решили сравнить показатели PCIe-карты NVIDIA H100 (дальше по тексту буду называть их NVIDIA H100 Special) и NVIDIA H100 NVL. Для этого провели испытания с использованием сервера YADRO G4208P G3. Методику построили так, чтобы результат можно было проверить и воспроизвести: для сравнения использовали одинаковую серверную платформу, одинаковые версии драйвера, CUDA и ОС, а также два уровня тестов — прикладной vLLM benchmark и NCCL all_reduce_perf для проверки GPU-интерконнекта.
Ниже поделюсь результатами, покажу результаты бенчмарков на типовых LLM-конфигурациях и дам рекомендации, как валидировать ускорители перед включением в проектный или продуктовый контур. Будет полезно, если приобретаете карты для работы над задачами ИИ.
Характеристики тестируемых конфигураций
Посмотрим, какими характеристиками обладают PCIe-карт NVIDIA H100 Special:
# nvidia-smi Wed Dec 17 18:28:01 2025 +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.171.04 Driver Version: 535.171.04 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA H100 80GB HBM3 Off | 00000000:16:00.0 Off | 0 | | N/A 73C P0 697W / 700W | 72977MiB / 81559MiB | 100% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | 0 N/A N/A 3876 C ./gpu_burn 72968MiB | +---------------------------------------------------------------------------------------+
По данным утилиты nvidia-smi, энергопотребление карты доходит до 700 Вт включительно, а это может стать серьезным вызовом для системы охлаждения сервера. Для сравнения: у NVIDIA H100 NVL энергопотребление — 350–400 Вт.
В испытаниях мы использовали сервер YADRO G4208P G3 — это наш главный сервер под задачи ИИ. Он поддерживает установку не менее восьми GPU, предназначенных для выполнения задач искусственного интеллекта, машинного обучения, высокопроизводительных вычислений и обработки больших массивов данных. Конструктивно он готов к установке ускорителей с суммарной расчетной мощностью не менее 4 800 Вт — то есть не менее 600 Вт каждый.
Конфигурации стендов были такими:
Компонент/платформа | YADRO G4208P G3 (4 × NVIDIA H100 Special) | YADRO G4208P G3 (4 × H100 NVL) |
CPU | 2 × Intel Xeon Platinum 6430 | 2 × Intel Xeon Platinum 6430 |
GPU | 4 × NVIDIA H100 Special (80 ГБ), попарно объединены NVIDIA NVLink bridge | 4 × H100 NVL (94 ГБ), попарно объединены NVIDIA NVLink bridge |
RAM | 2 ТБ (32 × 64 ГБ) | 2 ТБ (32 × 64 ГБ) |
SSD | 7 ТБ NVMe | 7 ТБ NVMe |
Драйвер NVIDIA | 560.35.5 | 560.35.5 |
Версия CUDA | 12.6 | 12.6 |
ОС | Ubuntu 22.04, Linux 6.8.0-57-generic | Ubuntu 22.04, Linux 6.8.0-57-generic |
ИИ-модели, которые мы применяли, отличались размером и требуемым числом GPU при контексте 128k. Характеристики:
Модель | Релиз | Число параметров | Precision | Требования для запуска при контексте 128k. Количество GPU H100 | Ссылка на Hugging Face |
Qwen3-Coder-30B-A3B-Instruct | май, 2025 | 31B | BF16 | 2 | |
Qwen3-Coder-Next | февраль, 2026 | 80B | BF16 | 4 |
Методика тестирования
Для оценки производительности серверной платформы мы использовали бенчмарки из проекта vLLM. Этот проект представляет собой инструменты для загрузки и экспериментов с LLM-моделями и набор сценариев для сравнения производительности на разных платформах с гибкой настройкой параметров. Так мы могли оценить производительность релевантных моделей на различных конфигурациях сервера.
Чтобы оценить эффективность GPU-интерконнекта, дополнительно использовали бенчмарки NCCL all_reduce_perf из репозитория nccl-tests. NCCL — это библиотека стандартных процедур коммуникации между GPU, разрабатываемая NVIDIA. Она используется для выполнения инференса — в случае, когда модель требует более одной NVIDIA GPU для исполнения, а указанные тесты как раз и призваны оценить эффективность работы этой библиотеки при передаче данных между GPU.
Присоединяйтесь к команде! У нас открыты вакансии:
Бенчмарк vLLM
Для тестирования взяли фреймворк vLLm версии v0.18.0 — релиз от марта 2026 года, который поставляется в готовом docker image от vLLM.
Запуски vLLM server и vLLM benchmark
Ниже покажу, как выглядели запуски и какие результаты мы получили.
vLLM server
Qwen3-Coder-30B-A3B-Instruct:
docker run --network host --gpus all --shm-size 64G -v <models_dir>:/models vllm/vllm-openai:v0.18.0 --model /models/Qwen3-Coder-30B-A3B-Instruct -tp 2
Qwen3-Coder-Next:
docker run --network host --gpus all --shm-size 64G -v <models_dir>:/models vllm/vllm-openai:v0.18.0 --model /models/Qwen3-Coder-Next -tp 4
Важно: <models_dir> нужно заменить на полный путь до места нахождения моделей.
vLLM benchmark
Этот эксперимент нацелен не на точное воспроизведение пользовательского сценария, а на сравнение поведения карт NVIDIA H100 Special и H100 NVL. Поэтому для удобства воспроизводимости мы будем использовать случайные датасеты заданных размеров: 1k токенов на входе и 1k на выходе, а также 127k на входе и 1k на выходе. Это позволяет изолировать влияние GPU и интерконнекта от вариативности реальных пользовательских запросов.
Команды запуска vLLM server для двух тестируемых моделей:
random 1k-1k:
docker run --rm --entrypoint vllm --network=host -v <models_dir>:/models vllm/vllm-openai:v0.18.0 bench serve --model /models/<model_name> --dataset-name random --random-output-len 1024 --random-input-len 1024 --num-prompts 1000 --port 8000
random 127k-1k:
docker run --rm --entrypoint vllm --network=host -v <models_dir>:/models vllm/vllm-openai:v0.18.0 bench serve --model /models/<model_name> --dataset-name random --random-output-len 1024 --random-input-len 130048 --num-prompts 10 --port 8000
Здесь <models_dir> — это полный путь к каталогу с моделями, а <model_name> — название тестируемой модели: Qwen3-Coder-30B-A3B-Instruct или Qwen3-Coder-Next.
Результаты бенчмарков vLLM
На этой диаграмме вы видите сравнение пропускной способности по выходным токенам, профиль random 1k-1k:

Тут то же самое, но профиль random 127k-1k:

Ниже в таблице покажу сводные значения по двум профилям нагрузки. Ratio > 1 означает, что конфигурация с NVIDIA H100 Special уступает по производительности H100 NVL.
Модель | Профиль нагрузки | Производительность NVIDIA H100 Special, выходных токенов/с | Производительность H100 NVL, выходных токенов/с | Отношение H100 NVL / NVIDIA H100 Special |
Qwen3-Coder-Next | random 1k-1k | 3592,70 | 8923,46 | 2,48 |
Qwen3-Coder-30B-A3B-Instruct | 8310,40 | 9207,59 | 1,11 | |
Qwen3-Coder-Next | random 127k-1k | 64,37 | 166,50 | 2,59 |
Qwen3-Coder-30B-A3B-Instruct | 73,27 | 72,75 | 0,99 |
По результатам бенчмарков vLLM ускорители NVIDIA H100 Special заметно уступают H100 NVL в сценариях, где Tensor Parallelism используется между несколькими GPU.На модели Qwen3-Coder-Next отставание более чем в два раза как в профиле random 1k–1k, так и в профиле random 127k–1k. На модели Qwen3-Coder-30B-A3B-Instruct различие значительно меньше. Это указывает на высокую зависимость производительности от характеристик GPU-интерконнекта при развертывании модели.
Чтобы полностью провалидировать такие ускорители, кроме производительности нужно отдельно оценивать энергопотребление и тепловой профиль. Эти параметры могут отличаться от параметров оригинальных PCIe-ускорителей NVIDIA H100 NVL.
Тестирование производительности GPU-интерконнекта
Теперь очередь бенчмарка NCCL all_reduce_perf. Клонируем репозиторий в директорию <nccl_tests_dir>. Сборку выполняем с такими параметрами:
cd <nccl_tests_dir> make MPI=1 MPI_HOME=<mpi_dir> CUDA_HOME=<cuda_dir>
Использовались cuda=12.6 и nvcc=12.6.
Запуск мы выполняли в двух режимах — Ring и Tree, почитать о них можно в документации NCCL. Параметры такие:
export LD_LIBRARY_PATH=<mpi_dir>/lib:$LD_LIBRARY_PATH export PATH=<mpi_dir>/bin:$PATH export NCCL_MIN_NCHANNELS=4 export NCCL_ALGO=Ring mpirun -np 4 -N 4 -H <host_name>:4 \ -x NCCL_ALGO -x NCCL_MIN_NCHANNELS \ -x LD_LIBRARY_PATH -x PATH \ <nccl_tests_dir>/build/all_reduce_perf \ -b 1M -e 8G -f 2 -g 1 export NCCL_ALGO=Tree mpirun -np 4 -N 4 -H <host_name>:4 \ -x NCCL_ALGO -x NCCL_MIN_NCHANNELS \ -x LD_LIBRARY_PATH -x PATH \ <nccl_tests_dir>/build/all_reduce_perf \ -b 1M -e 8G -f 2 -g 1
Результаты
Ниже в таблице показываю результаты теста NCCL all_reduce_perf — отношение H100 NVL к NVIDIA H100 PCIe. Ratio > 1 означает, что конфигурация с NVIDIA H100 Special уступает по производительности H100 NVL.
Algo | 4 × NVIDIA H100 Special, ГБ/с | 4 × H100 NVL ГБ/с | Отношение H100 NVL / NVIDIA H100 Special |
Ring | 7,93 | 39,37 | 4,96 |
Tree | 11,55 | 45,38 | 3,93 |
Результаты подтверждают, что пропускная способность GPU-интерконнекта в конфигурации с NVIDIA H100 Special ниже, чем в конфигурации с H100 NVL. Это согласуется с результатами бенчмарков vLLM и объясняет заметное снижение производительности в сценариях развертывания моделей на нескольких GPU.
Выводы и рекомендации

Наши испытания показывают, что ускорители NVIDIA H100 Special в PCIe-форм-факторе на базе SXM-чипов могут уступать оригинальным H100 NVL в сценариях, где требуется интенсивный обмен данными между несколькими GPU. В протестированных конфигурациях на модели Qwen3-Coder-Next отставание достигло 2,5 раз. Результаты бенчмарков NCCL подтверждают, что ключевая причина — ограниченная пропускная способность GPU-интерконнекта.
Вывод: использовать такие ускорители в продуктовых или проектных решениях допустимо только после полноценной технической валидации. Она должна включать как прикладные бенчмарки, так и измерение характеристик GPU-интерконнекта и энергопотребления.
Напоследок — рекомендация для проектной практики. Перед включением ускорителей в проект проверяйте не только паспортные характеристики GPU, но и постоянную мощность (Sustained Power), тепловой режим, фактическую топологию NVLink/PCIe и результаты прикладного бенчмарка LLM на целевой модели.