
Привет, Хабр! На связи Илья Мартысь из Рег.облака. Каждый раз, когда выходит новое поколение ускорителей, в чатах начинается одно и то же: «брать B300 или хватит H200?». И отвечают на это табличкой со спеками — вот память, вот терафлопсы, новое лучше.
Тут есть нюанс. В момент выхода нового поколения вопрос «брать ли его» обычно даже не стоит: оно появляется на рынке с задержкой в год-два. Реальный вопрос другой — когда начинать переплачивать за новое и нужно ли оно вашему проекту вообще. Дальше разберем это по двум вещам, которые в Hopper и Blackwell реально меняют расклад: память и FP4.
Сразу оговорюсь про вычислительную часть. H200 бывает как в одиночном, так и в формате 8×GPU; B300 — только 8×GPU. Это серверные конфигурации за десятки миллионов, которые потребляют 12-14 кВт и стоят в дата-центрах. Для большинства задач, особенно для профессиональной графики, такое не нужно — для них есть отдельная карта, до нее дойдем в конце. Но начать стоит с тяжелой артиллерии, чтобы было видно, от чего вы отказываетесь и почему.
Навигация по тексту:
Память: либо модель влезла, либо нет
С памятью GPU нет полутонов — но только при одном условии. Если вы для себя решили, что не используете ни offload (выгрузку части весов в системную память), ни квантизацию, то все просто: модель либо помещается в VRAM целиком, либо нет. Не помещается — режете на несколько карт или включаете offload, и тогда работает, но медленно.
В реальных боевых проектах от этих полутонов как раз не отказываются. Квантизация и offload часто дешевле, чем докупать еще одну карту за сотни тысяч. Так что «модель не влезла → нужна карта побольше» — это упрощение, верное только если вы сами запретили себе компромиссы. Держите это в голове, когда смотрите на цифры памяти:
H100 — 80 ГБ HBM3
H200 — 141 ГБ HBM3e, 4,8 ТБ/с
B200 — 180 ГБ
B300 — 288 ГБ HBM3e на чип, 8 ТБ/с
PRO 6000 Blackwell — 96 ГБ
Простой пример. Llama 70B в FP16 — это около 140 ГБ под одни только веса, без учета KV-кэша (а он тоже ест память, и это часто упускают). На H100 с ее 80 ГБ модель в полной точности не влезет, нужны две карты. На H200 (141 ГБ) веса в FP16 встают впритык — но это не значит, что всё работает. Оставшийся ~1 ГБ не вмещает даже минимальный KV-кэш (4–8K контекст): без него модели просто некуда генерировать. Даже при batch size=1 такой сетап неюзабелен — модель не встаёт целиком. Вот зачем нужна H200: кристалл и вычислительная мощность те же, что у H100, но памяти столько, что класс моделей переезжает с двух карт на одну. При условии, что вы используете квантизацию или чуть меньшую модель.
Второй параметр — пропускная способность памяти. Когда LLM генерирует токены, она упирается не в вычисления, а в скорость, с которой память отдает веса. У H200 это 4,8 ТБ/с против 3,35 у H100 — почти +40 % на таких задачах, и всё на том же кристалле. Поэтому H200 часто ради скорости памяти берут и те, кому 141 ГБ не нужны.
FP4: вот тут поколения и расходятся
А этого у Hopper нет — точнее, есть, но не там, где надо. FP4 — это вычисления с точностью 4 бита на число вместо 16 или 32. Hopper умеет скормить FP4 в обычные CUDA-ядра, но ускорения вы не получите: будет даже медленнее, чем FP8 на тензорных ядрах. Аппаратной поддержки FP4 в тензорных ядрах у Hopper нет.
Новое в Blackwell — это как раз тензорные ядра пятого поколения с аппаратной поддержкой FP4 в режиме матричного умножения, то есть ровно того, что нужно трансформерам и LLM. Вот в чем суть: формат как способ ускорить матричные умножения появился только в Blackwell.
Важно сразу убрать одно расхожее заблуждение. Никакого «железо подбирает точность на лету» нет — такой магии в видеокартах не существует. Разработчик сам размечает в графе вычислений, где использовать FP4, а где оставить FP8/FP16. Разница в том, что Blackwell позволяет смешивать форматы без падения скорости — в отличие от Hopper, где микширование FP8 и FP16 уже работает менее эффективно. То есть выигрыш не в «автоматике», а в том, что FP4 дает скорость и экономию VRAM при минимальных потерях качества, и Blackwell это тянет аппаратно.
И немного про нюансы.
FP4 — крутая штука с долгим вектором развития, но она еще не стала стандартом совместимости. Стандарт сегодня — FP8 (и всякие Q4-кванты). А FP4 в основном живет в vLLM — ollama отпадает. Модель под FP4 на huggingface придется искать в формате NVFP4 либо брать unquantized и конвертировать самому. Инференс становится чуть сложнее: кто хотел «просто запустить в ollama», будет вынужден подучиться.Вывод по FP4 простой: Blackwell дает ощутимый прирост, но клиент обязан реально использовать FP4. А это не всегда выгодно и не всегда нужно. Если ваш стек на FP8/FP16 — Blackwell вы возьмете дороже, а пользоваться будете как Hopper.
Что в итоге брать: H200 или B300
И здесь — главная поправка, без которой вся развилка разваливается. B300 не продается «по одной штуке». Ее делают только в формате HGX — нода из 8 видеокарт. То есть сравнивать одну H200 против одной B300 бессмысленно — это разные весовые категории. H100 и H200 можно найти поштучно и взять 1–4 карты. B200 и B300 — нет. Так что реальное сравнение выглядит так:
8×H200 — 1128 ГБ суммарно, карты в NVLink
8×B300 — 2304 ГБ суммарно, ~20 кВт, от 60 млн ₽ в закупке
Кстати, B200 и B300 — это одна и та же архитектура Blackwell. У B200 тоже есть FP4, и характеристики близкие. B300 — это больше частот и больше памяти, не отдельное поколение.
Про связь между картами тоже надо быть аккуратным. NVLink в Hopper — 900 ГБ/с, но это двунаправленная цифра. На практике выходит около 450 ГБ/с на карту и меньше. И это не шина «карта-карта», а шина до NVLink Switch, который у ноды 8×H200 становится бутылочным горлышком. В B300 (Blackwell Ultra) картина другая: используется NVLink 5 с полной неблокирующей коммутацией через NVLink Switch. Топология full-mesh — каждая карта связана с каждой напрямую, пропускная способность до 1,8 ТБ/с (900 ГБ/с в одну сторону) между любыми двумя GPU. Никаких узких мест на уровне пар или PCIe нет.
Резонный вопрос: зачем вообще берут такую ноду?
На 8×B300 (2304 ГБ) можно поднять, например, Llama-3.1-405B — причем сразу две таких, либо одну с огромным контекстом. Или гонять большие MoE вроде DeepSeek-V3. Или поднимать много мелких моделей разом. Потенциал там такой, что в FP16 влезает модель на триллион параметров — а таких моделей пока просто нет. Поэтому такую ноду берут под обучение моделей или под инференс нескольких моделей одновременно.
Правило по выбору простое: если нужны гига-вычисления с утилизацией под 100 % в режиме 24/7 — ваш выбор H200 или B300. Вопрос не в личных предпочтениях, а в необходимости для конкретного проекта.
А если задача попроще — можно взять RTX PRO 6000
Теперь к карте, ради которой эту статью и открыли некоторые читатели точно. RTX PRO 6000 Blackwell — это та же архитектура Blackwell, но не серверная нода, а одна видеокарта, которую можно поставить в обычную рабочую станцию:
96 ГБ памяти GDDR7 с ECC
24 064 ядра CUDA
188 RT-ядер четвертого поколения — они ускоряют рендер
Тут важно оговориться, что это не «не-enterprise решение для графики». RTX PRO 6000 отлично подходит и для ИИ-вычислений — просто в ней нет NVLink (быстрой шины для объединения карт, в отличие от PCIe). Сейчас это, по сути, эталон цена/качество на рынке: современное решение на актуальной архитектуре без переплаты за то, что вам не нужно.
Для графики она закрывает почти все: 96 ГБ хватает на тяжелые сцены — сотни миллионов полигонов, 4K и 8K, большие текстуры. Redshift, OctaneRender, V-Ray GPU, Arnold GPU, Blender Cycles масштабируются хорошо. А заодно на ней можно дообучать модели до 70B через QLoRA или FP8-квантизацию прямо на рабочей станции. Получается, днем рендер, а ночью эксперименты с моделью.
Правило здесь зеркальное к предыдущему: если объединение карт не нужно (аппетиты умещаются в 96 ГБ) и хочется современное решение с балансом цена/качество — лучше RTX PRO 6000 сейчас по сути ничего нет.
Сводная таблица
Задача | Что брать | Что решает |
Гига-вычисления, утилизация ~100 % 24/7, большие LLM и MoE | H200 / B300 (нода 8×GPU) | объем суммарной VRAM, обучение и параллельный инференс |
Все помещается в 96 ГБ, объединение карт не нужно, баланс цена/качество | RTX PRO 6000 | эталон цена/качество, есть и AI, и графика |
3D-рендер, VFX, CAD, архвиз | RTX PRO 6000 | RT-ядра, драйверы, мониторы, 96 ГБ |
Покупать нельзя арендовать
В 2026 году этот вопрос стоит острее обычного. Новое поколение выходит с задержкой год-два, и когда оно появляется, бизнес упирается в вопрос: пора ли переплачивать за свежую технологию и окупится ли она. Память и GPU подорожали и стали дефицитом, сроки поставки топовых карт — недели и месяцы.
Все упирается в загрузку и срок окупаемости. Правило грубое, но рабочее:
облако выгоднее, если карта занята меньше 40–50 % месяца (меньше ~300–350 часов);
bare-metal выгоднее, если загрузка выше 60–70 % (больше ~450–500 часов), — тогда фиксированная стоимость окупается приблизительно за 2–3 месяца.
* Цены и конфигурации приблизительные — точные цифры зависят от модели GPU, ситуации на рынке и условий поставки.
Отдельно про то, как вообще устроена покупка bare-metal GPU. Это не «зашел на сайт и купил». Из-за огромных сумм это всегда обсуждение, договор, тестирование и выдача — и сами клиенты этого хотят, никто не отдает десятки миллионов вслепую. У нас в Рег.облаке есть эксперты, которые помогают все это просчитать и спланировать: какая конфигурация под задачу, что окупится, а что нет.
В цифрах рост спроса виден: за полгода работы сервиса GPU Cloud число пользователей серверов с ускорителями выросло почти втрое, и тянут этот рост AI- и ML-задачи.
Итого
В Hopper и Blackwell важны не терафлопсы из таблицы, а две вещи. Память решает, влезет ли модель на карту, — но только если вы запретили себе offload и квантизацию; в реальных проектах эти компромиссы часто дешевле лишней карты. FP4 — то, чего у Hopper нет в тензорных ядрах: на инференсе он дает прирост, но клиент обязан реально на нем работать, а FP4 пока не стандарт и тянет за собой жертвы по софту.
B300 не существует в виде одной карты — это нода 8×GPU за десятки миллионов, ее берут под обучение и параллельный инференс крупных моделей. Если такие мощности не нужны и все умещается в 96 ГБ — берите RTX PRO 6000, сейчас это лучший баланс цена/качество.
А покупать или арендовать — решает ваша загрузка. Посчитайте, сколько часов в месяц карта реально будет работать и за сколько месяцев окупится. Это и есть ответ.
