GPT-OSS-20B, H100: выжимаем 156 миллиардов токенов в месяц

Средний

3 мин

227

Искусственный интеллектМашинное обучение *

Обзор

С выходом Open-Source модели от OpenAI, появилось очень много новостей и обсуждений бенчмарков, но реальной статистики, гайдов запуска, и загрузочных тестов, лично я не встречал.
В этой статье я покажу максимальную производительность GPT-OSS 20B, которую можно добиться на современной H100, чтобы сэкономить время тем, кто вдруг решит ее разворачивать локально на своем оборудовании!

С чего начнем?

Установите Ubuntu 22.04.5 LTS
Сначала скачаем контейнер под vLLM для gpt-oss-20b. Он отличается тем, что внутри него конкретная версия vllm 0.10.1 и другие важные зависимости.
https://hub.docker.com/layers/vllm/vllm-openai/gptoss/images/sha256-43892706699a4a390dab480e6a3b2f144203de11e0caebdbcb0c29ca1bce63c6
Дальше копируем код, который я подготовил для теста:
https://github.com/Chashchin-Dmitry/gpt-oss-20b-h100-benchmark/tree/main
Запускаем контейнер с GPT-OSS-20b
docker run --gpus all -p 8000:8000 --ipc=host vllm/vllm-openai:gptoss --model openai/gpt-oss-20b --max-model-len 65536 --gpu-memory-utilization 0.96 --max-num-seqs 64 --max-num-batched-tokens 8192 --disable-log-requests --port 8000
Дополнительная информация по флагам, запуску vllm с этой версией, и общие рекомендации к конфигурациям: https://docs.vllm.ai/projects/recipes/en/latest/OpenAI/GPT-OSS.html
Запускаем Python файл для симуляции нагрузки с реальным промтом(пример):
python3 vllm_gptoss20b_benchmark.py --urlhttp://0.0.0.0:8000--model openai/gpt-oss-20b --n-requests 100 --concurrency 16

Длинный запрос-ответ

А это результаты, которые у меня получились:

Метрика	Значение
Количество запросов (всего)	64
Параллельно (concurrency)	64
Wall-time всей волны (сек)	27.25
Среднее время на 1 запрос (сек)	25.29
p50 латентности (сек)	27.09
p99 латентности (сек)	27.18
Входных токенов (сумма)	1 520 704
Входных токенов на запрос (сред)	~23 761
Выходных токенов (сумма)	120 704
Выходных токенов на запрос (сред)	~1 886
TPS генерации (wall)	4 429 ток/с
TPS prompt+gen (wall)	60 233 ток/с
GPU загрузка	~91 %

GPT-OSS 20B и H100: Производительность на длинных запросах

Средний запрос - ответ

Результаты для более типичного запроса:

Метрика	16 потоков	32 потока	64 потока
Количество запросов (всего)	160	320	640
Параллельно (concurrency)	16	32	64
Wall-time всей волны (сек)	198.99	146.43	227.06
Среднее время на 1 запрос (сек)	~6.89	~7.48	~10.79
p50 латентности (сек)	5.89	7.01	11.07
p95 латентности (сек)	13.19	9.00	15.64
p99 латентности (сек)	27.53	17.19	19.24
Входных токенов (сумма)	396 000	792 000	1 584 000
Входных токенов на запрос (сред)	~2 475	~2 475	~2 475
Выходных токенов (сумма)	147 167	266 293	500 587
Выходных токенов на запрос (сред)	~2 475	~2 600	~2 600
TPS генерации (wall)	~736 ток/с	~1 819 ток/с	~2 205 ток/с
TPS prompt+gen (wall)	~2 674 ток/с	~7 227 ток/с	~9 181 ток/с
GPU загрузка	~80 %	~85 %	~91 %

GPT-OSS-20B и H100: Производительность на запросах 5k input / output tokens

Пофантазируем

Сколько выходит токенов в месяц при загрузке 24/7?

Длинный запрос-ответ / 64 потока:

Генерация:
Общая пропускная способность:

Маловероятный сценарий, поскольку сложно загружать ИИ на различные задачи постоянно. Однако вот, применяйте статистику для своих нужд!

Итог

Чем больше полезной информации по разным моделям ИИ, тем больше сообщество будет применять локальные ИИ решения в повседневной жизни и в среде бизнеса!

Я думаю, что бенчмарки выше, будут одинаково полезны как для любителей, кто увлекается этим делом, так и для людей, кто всерьез планирует разместить такую большую "штуку" у себя в северной!

Дисклеймер: Обязательно тестируйте самостоятельно ваши бизнес-кейсы на облачных решениях, прежде чем закупать оборудование.

Хабы: