GPT-OSS-20B / 120B: Сухие цифры после реальных тестов

Средний

5 мин

2.8K

Искусственный интеллектМашинное обучение *

OpenAI выпустила GPT-OSS модели (https://huggingface.co/openai/gpt-oss-20b и https://huggingface.co/openai/gpt-oss-120b) , и сообщество немедленно начало экспериментировать. Но реальные бенчмарки производительности найти сложно. В этой статье представлены результаты нашего практического тестирования на арендованном железе через RunPod с использованием Ollama.

Ремарка: Тесты проводились на Ollama для быстрого деплоя. Если будете использовать vLLM, то производительность будет примерно +30%, но он слабо адаптирован под консьюмерские GPU, за исключением RTX 5090.

Что тестировалось:

GPT-OSS-20B на RTX 4090 и RTX 5090
GPT-OSS-120B на H100 PCIe (80GB)
6 различных типов промптов для оценки производительности

Методология тестирования

Железо и конфигурация

Модель	GPU	VRAM
GPT-OSS-20B	RTX 4090	24 GB
GPT-OSS-20B	RTX 5090	32 GB
GPT-OSS-120B	H100 PCIe	80 GB

Набор тестовых промптов

Для тестирования использовалось 6 промптов разной сложности и назначения:

Логические загадки — серия связанных загадок с объяснением логики
Быстрый Q&A — короткий философский вопрос о дедлайнах и черных дырах
Алгоритмическая задача — классическая задача с 8 шарами и весами
Генерация кода — Game of Life на Python с дополнительными фичами
Творческий текст — гайд по выживанию джуниора в IT
Философский поток сознания — самосознание нейросети

Пример одного из промтов:

На собеседовании в FAANG компанию тебе задали вопрос:

У тебя есть 8 шаров. Один из них тяжелее остальных. У тебя есть весы, которые показывают только какая чаша тяжелее (без веса). Какое минимальное количество взвешиваний нужно, чтобы гарантированно найти тяжелый шар?

Объясни алгоритм поиска пошагов

Подготовка и загрузка моделей

1) Для начала скачиваем контейнер Docker для Ollama

2) Затем, скачиваем наши с вами модели. Ссылаться буду на официальную инструкцию (https://gpt-oss.com):

ollama pull gpt-oss:20b

ollama run gpt-oss:20b

3) После этого, по Endpoint обращаемся к нашей с вами модели.

curl -X POST http:/<ВАШ IP / ДОМЕН>/api/generate -H "Content-Type: application/json" -d '{ "model": "gpt-oss:20b", "prompt": "Привет, как дела?", "stream": false }'

Результаты тестирования

Ниже приведу числа, какой TPS (tokens / seconds) на разном железе по двум моделям:

GPT-OSS-20B

Тест	RTX 4090 TPS	RTX 5090 TPS	Прирост
Логические загадки	101.49	133.09	+31.1%
Q&A	95.32	133.33	+39.9%
Алгоритм	95.86	135.03	+40.8%
Генерация кода	95.94	134.05	+39.7%
Творческий текст	96.64	130.52	+35.1%
Философия	98.32	134.33	+36.6%
Средний TPS	97.26	133.39	+37.2%

GPT-OSS-120B на H100 PCIe

Тест	TPS	Токенов сгенерировано	Время генерации
Логические загадки	80.80	2048	25.35 сек
Q&A	82.25	653	7.94 сек
Алгоритм	81.56	1024	12.56 сек
Генерация кода	80.81	3146	38.92 сек
Творческий текст	80.84	3421	42.66 сек
Философия	81.47	1536	18.85 сек
Средний TPS	81.29	-	-

Изображение 2: TPS GPT-OSS-120B H100 PCIe

Особенность: "Thinking" токены

GPT-OSS использует встроенный Chain-of-Thought механизм. Модель генерирует невидимые пользователю "thinking" токены перед основным ответом. И важная деталь заключается в том, что они тоже являются частью output токенов.

Условно, у вас стоит num_predict 2048. И перед тем как ответить, модель использовала 700 токенов "на подумать" и в реальный ответ у вас останется 1348.

Изображение 3: соотношения response / thinking

Интересное наблюдение, которое можете увидеть сверху — gpt‑oss-20b/120b тратит кратно больше токенов output на thinking, когда речь идет об анализе каких‑либо фактов, но совсем «не парится», когда запрос от пользователя поступил по теме «Креатив», по типу «напиши мне статью» и т. д.

Примеры ответов модели

GPT-OSS-120B: Дедлайн vs Черная дыра

Запрос:

{

"model": "gpt-oss:120b",

"prompt": "Быстрый вопрос: что общего между дедлайном и горизонтом событий черной дыры?",

"stream": false,

"options": {

"num_predict": 2048,

"temperature": 0.7

}

Ответ:

{

"model": "gpt-oss:120b",

"created_at": "2025-08-12T12:34:49.409905913Z",

"response": "Дедлайн и горизонт событий черной дыры – это два разных явления, но они разделяют одну фундаментальную черту: это «границы нулевого возврата».\n\n| Что такое | Дедлайн | Горизонт событий |\n|-----------|---------|------------------|\n| Определение | Конечный срок, после которого выполнение задачи считается недопустимым. | Предел, за которым никакой сигнал, даже свет, не может покинуть черную дыру. |\n| Ключевая черта | После него «победить» уже невозможно: задача считается пропущенной. | После него любой объект, даже свет, «потерян» – он не может выйти наружу. |\n| Время | Часовой «пульс» – вы видите, как время истекает. | Время «застревает» – для внешнего наблюдателя объект замедляется и исчезает. |\n| Каскадные последствия | Задержки приводят к штрафам, конфликтам, потере репутации. | Внутри горизонта всё, включая информацию, исчезает из наблюдаемой Вселенной. |\n| Эмоциональный отклик | Тревога, стресс, ощущение «потерянности» в работе. | Фантастическое чувство «потерянности» в космосе, страх перед неизбежностью. |\n\nИтак, общность в том, что оба представляют собой точку, после которой «возврат» невозможен – будь то возвращение к сроку или к внешнему миру. Это граница, за которой всё становится недоступным, и она определяет наши действия и решения.",

"thinking": "We need to answer in Russian. The question: \"Быстрый вопрос: что общего между дедлайном и горизонтом событий черной дыры?\" They ask: \"What is common between a deadline and the event horizon of a black hole?\" We should answer conceptually: both represent boundaries beyond which you cannot escape or return, both involve time constraints, both have a point of no return, both are defined by limits of causality, etc. The answer can be humorous or philosophical: both are \"point of no return\", both involve time, both are something that once crossed you cannot get back, etc. Provide a concise answer. The user asked \"Быстрый вопрос\" so we should keep it short. But we can give a thoughtful explanation. We'll respond in Russian.",

"done": true,

"done_reason": "stop",

...

Технические находки

1. VRAM использование

GPT-OSS-20B на RTX 4090: ~15 GB (67% от доступных 24 GB)
GPT-OSS-20B на RTX 5090: ~15 GB (62% от доступных 32 GB)
GPT-OSS-120B на H100 PCIe: ~70-75 GB (88-94% от доступных 80 GB)

2. Стабильность производительности

Разброс TPS в пределах одного GPU:

RTX 4090: ±3.1% от среднего
RTX 5090: ±2.3% от среднего
H100 PCIe: ±1.2% от среднего

3. Латентность

Среднее время на токен:

RTX 4090: 10.31 ms
RTX 5090: 7.48 ms
H100 PCIe (120B): 12.30 ms

Выводы

В статье я не указывал результаты всех ответов, иначе статья превратилась бы в полотно сырого JSON. Однако, мой вердикт следующий — мне очень понравилась модель GPT‑OSS-20B. Помимо того, что она маленькая, так еще и внутри нее стоит неплохой трехуровневый reasoning (Low, Medium, High), который сильно влияет на финальный ответ. Так еще и объективно ресурсов мало требует, а скорость ответов, как в пользовательском интерфейсе обычного ChatGPT.

Если вы рассматриваете вариант развернуть модель ИИ локально, то 20B — это золотая середина, между качеством и скоростью. Хотя качеством она меня пока еще и не обижала.

Что же до 120B, то я не сомневаюсь в том, что она умная и сообразительная. Но для бизнес кейсов, или для ежедневных рутинных задач, малой модели GPT‑OSS хватит спокойно.

Хабы: