С выходом Open-Source модели от OpenAI, появилось очень много новостей и обсуждений бенчмарков, но реальной статистики, гайдов запуска, и загрузочных тестов, лично я не встречал.
В этой статье я покажу максимальную производительность GPT-OSS 20B, которую можно добиться на современной H100, чтобы сэкономить время тем, кто вдруг решит ее разворачивать локально на своем оборудовании!
С чего начнем?
Установите Ubuntu 22.04.5 LTS
Сначала скачаем контейнер под vLLM для gpt-oss-20b. Он отличается тем, что внутри него конкретная версия
vllm 0.10.1
и другие важные зависимости.Дальше копируем код, который я подготовил для теста:
https://github.com/Chashchin-Dmitry/gpt-oss-20b-h100-benchmark/tree/main
Запускаем контейнер с GPT-OSS-20b
docker run --gpus all -p 8000:8000 --ipc=host vllm/vllm-openai:gptoss --model openai/gpt-oss-20b --max-model-len 65536 --gpu-memory-utilization 0.96 --max-num-seqs 64 --max-num-batched-tokens 8192 --disable-log-requests --port 8000
Дополнительная информация по флагам, запуску vllm с этой версией, и общие рекомендации к конфигурациям: https://docs.vllm.ai/projects/recipes/en/latest/OpenAI/GPT-OSS.html
Запускаем Python файл для симуляции нагрузки с реальным промтом(пример):
python3 vllm_gptoss20b_benchmark.py
--urlhttp://0.0.0.0:8000
--model openai/gpt-oss-20b
--n-requests 100
--concurrency 16
Длинный запрос-ответ
А это результаты, которые у меня получились:
Метрика | Значение |
---|---|
Количество запросов (всего) | 64 |
Параллельно (concurrency) | 64 |
Wall-time всей волны (сек) | 27.25 |
Среднее время на 1 запрос (сек) | 25.29 |
p50 латентности (сек) | 27.09 |
p99 латентности (сек) | 27.18 |
Входных токенов (сумма) | 1 520 704 |
Входных токенов на запрос (сред) | ~23 761 |
Выходных токенов (сумма) | 120 704 |
Выходных токенов на запрос (сред) | ~1 886 |
TPS генерации (wall) | 4 429 ток/с |
TPS prompt+gen (wall) | 60 233 ток/с |
GPU загрузка | ~91 % |

Средний запрос - ответ
Результаты для более типичного запроса:
Метрика | 16 потоков | 32 потока | 64 потока |
---|---|---|---|
Количество запросов (всего) | 160 | 320 | 640 |
Параллельно (concurrency) | 16 | 32 | 64 |
Wall-time всей волны (сек) | 198.99 | 146.43 | 227.06 |
Среднее время на 1 запрос (сек) | ~6.89 | ~7.48 | ~10.79 |
p50 латентности (сек) | 5.89 | 7.01 | 11.07 |
p95 латентности (сек) | 13.19 | 9.00 | 15.64 |
p99 латентности (сек) | 27.53 | 17.19 | 19.24 |
Входных токенов (сумма) | 396 000 | 792 000 | 1 584 000 |
Входных токенов на запрос (сред) | ~2 475 | ~2 475 | ~2 475 |
Выходных токенов (сумма) | 147 167 | 266 293 | 500 587 |
Выходных токенов на запрос (сред) | ~2 475 | ~2 600 | ~2 600 |
TPS генерации (wall) | ~736 ток/с | ~1 819 ток/с | ~2 205 ток/с |
TPS prompt+gen (wall) | ~2 674 ток/с | ~7 227 ток/с | ~9 181 ток/с |
GPU загрузка | ~80 % | ~85 % | ~91 % |

Пофантазируем
Сколько выходит токенов в месяц при загрузке 24/7?
Длинный запрос-ответ / 64 потока:
Генерация:
Общая пропускная способность:
Маловероятный сценарий, поскольку сложно загружать ИИ на различные задачи постоянно. Однако вот, применяйте статистику для своих нужд!
Итог
Чем больше полезной информации по разным моделям ИИ, тем больше сообщество будет применять локальные ИИ решения в повседневной жизни и в среде бизнеса!
Я думаю, что бенчмарки выше, будут одинаково полезны как для любителей, кто увлекается этим делом, так и для людей, кто всерьез планирует разместить такую большую "штуку" у себя в северной!
Дисклеймер: Обязательно тестируйте самостоятельно ваши бизнес-кейсы на облачных решениях, прежде чем закупать оборудование.