Как стать автором
Поиск
Написать публикацию
Обновить

GPT-OSS-20B, H100: выжимаем 156 миллиардов токенов в месяц

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров227

С выходом Open-Source модели от OpenAI, появилось очень много новостей и обсуждений бенчмарков, но реальной статистики, гайдов запуска, и загрузочных тестов, лично я не встречал.
В этой статье я покажу максимальную производительность GPT-OSS 20B, которую можно добиться на современной H100, чтобы сэкономить время тем, кто вдруг решит ее разворачивать локально на своем оборудовании!

С чего начнем?

  1. Установите Ubuntu 22.04.5 LTS

  2. Сначала скачаем контейнер под vLLM для gpt-oss-20b. Он отличается тем, что внутри него конкретная версия vllm 0.10.1 и другие важные зависимости.

    https://hub.docker.com/layers/vllm/vllm-openai/gptoss/images/sha256-43892706699a4a390dab480e6a3b2f144203de11e0caebdbcb0c29ca1bce63c6

  3. Дальше копируем код, который я подготовил для теста:

    https://github.com/Chashchin-Dmitry/gpt-oss-20b-h100-benchmark/tree/main

  4. Запускаем контейнер с GPT-OSS-20b

    docker run --gpus all -p 8000:8000 --ipc=host vllm/vllm-openai:gptoss --model openai/gpt-oss-20b --max-model-len 65536 --gpu-memory-utilization 0.96 --max-num-seqs 64 --max-num-batched-tokens 8192 --disable-log-requests --port 8000

    Дополнительная информация по флагам, запуску vllm с этой версией, и общие рекомендации к конфигурациям: https://docs.vllm.ai/projects/recipes/en/latest/OpenAI/GPT-OSS.html

  5. Запускаем Python файл для симуляции нагрузки с реальным промтом(пример):

    python3 vllm_gptoss20b_benchmark.py
    --url
    http://0.0.0.0:8000
    --model openai/gpt-oss-20b
    --n-requests 100
    --concurrency 16

Длинный запрос-ответ

А это результаты, которые у меня получились:

Метрика

Значение

Количество запросов (всего)

64

Параллельно (concurrency)

64

Wall-time всей волны (сек)

27.25

Среднее время на 1 запрос (сек)

25.29

p50 латентности (сек)

27.09

p99 латентности (сек)

27.18

Входных токенов (сумма)

1 520 704

Входных токенов на запрос (сред)

~23 761

Выходных токенов (сумма)

120 704

Выходных токенов на запрос (сред)

~1 886

TPS генерации (wall)

4 429 ток/с

TPS prompt+gen (wall)

60 233 ток/с

GPU загрузка

~91 %

GPT-OSS 20B и H100: Производительность на длинных запросах
GPT-OSS 20B и H100: Производительность на длинных запросах

Средний запрос - ответ

Результаты для более типичного запроса:

Метрика

16 потоков

32 потока

64 потока

Количество запросов (всего)

160

320

640

Параллельно (concurrency)

16

32

64

Wall-time всей волны (сек)

198.99

146.43

227.06

Среднее время на 1 запрос (сек)

~6.89

~7.48

~10.79

p50 латентности (сек)

5.89

7.01

11.07

p95 латентности (сек)

13.19

9.00

15.64

p99 латентности (сек)

27.53

17.19

19.24

Входных токенов (сумма)

396 000

792 000

1 584 000

Входных токенов на запрос (сред)

~2 475

~2 475

~2 475

Выходных токенов (сумма)

147 167

266 293

500 587

Выходных токенов на запрос (сред)

~2 475

~2 600

~2 600

TPS генерации (wall)

~736 ток/с

~1 819 ток/с

~2 205 ток/с

TPS prompt+gen (wall)

~2 674 ток/с

~7 227 ток/с

~9 181 ток/с

GPU загрузка

~80 %

~85 %

~91 %

GPT-OSS-20B и H100: Производительность на запросах 5k input / output tokens
GPT-OSS-20B и H100: Производительность на запросах 5k input / output tokens

Пофантазируем

Сколько выходит токенов в месяц при загрузке 24/7?

Длинный запрос-ответ / 64 потока:

Генерация: 4,429 × 2,592,000 = 11,479,968,000 токенов
Общая пропускная способность: 60,233 × 2,592,000 = 156,123,936,000 токенов

Маловероятный сценарий, поскольку сложно загружать ИИ на различные задачи постоянно. Однако вот, применяйте статистику для своих нужд!

Итог

Чем больше полезной информации по разным моделям ИИ, тем больше сообщество будет применять локальные ИИ решения в повседневной жизни и в среде бизнеса!

Я думаю, что бенчмарки выше, будут одинаково полезны как для любителей, кто увлекается этим делом, так и для людей, кто всерьез планирует разместить такую большую "штуку" у себя в северной!


Дисклеймер: Обязательно тестируйте самостоятельно ваши бизнес-кейсы на облачных решениях, прежде чем закупать оборудование.

Теги:
Хабы:
0
Комментарии0

Публикации

Ближайшие события