Comments 14
Мой надмозг тут выделяет самые важные ограничения:
Графические АПИ недоступны;
Это потому, что вы читаете про:
1.) C-profiles. В них по определению нет графических API. Графические API есть в W/Q/etc профилях, которые входят в vGPU и покрываются MIG-Backed vGPU https://docs.nvidia.com/vgpu/19.0/grid-vgpu-user-guide/index.html#changing-vgpu-scheduling-policy И/ИЛИ
2.) В H100/H200/B200/B300 вообще нет графики толком, поэтому графические API для них не актуальны. За графикой это к L40/L40S/RTX PRO 6000 Blackwell Server Edition. И вот как раз RTX Pro 6000 BSE (в отличии от L40) поддерживает, и MIG, и графические API через vGPU.
Тренировать нейросети с поддержкой GPU to GPU P2P (PCIe или NVLink) не получится;
В рамках одного CUDA-процесса возможно только указать одно MIG-устройство;
Нельзя мешать MIG-подустройство и просто обычную карточку в рамках CUDA-процесса;
ИМХО, написанное выше - логично. Зачем вам multi-GPU, если вы еще не выросли из одной карты? Там правило другое - сначала вы растете по профилям, доходите до полной карты, потом переходите на Multi-GPU (Scale-Up) в рамках одной ноды (до 8 карт на сервер), затем на Multi-Node (Scale-Out), если в одну ноду уже не влезаете.
Если сравнивать без тензорных ядер и добавить карточки поколений до "пузыря" … то можно и загрустить. Но у H100 мало обычных CUDA-ядер и она совсем тогда загрустит.
Это странное сравнение, потому что вы принципиально не учитываете то, для чего эта карта нужна. H100/H200/B200/B300 - карты как раз для тензорных ядер, супербыстрой памяти (HBM vs GDDR) и NVLINK (для Multi-GPU). Ну и разрядность здесь не маловажна - L40S быстрее H100 в FP32 (92 vs 67 TFLOP), медленнее в FP16 (733 vs 1979 TFLOPS), а в FP64 так вообще L40/RTX Pro/GeForce не могут (точнее технически могут, но там вообще нет производительности).
Для примера B300
Не может же так быть, чтобы карта за 3000 килорублей была хуже карты за 300 килорублей (а 5090 по нашим тестам получше чем RTX A5000 Ada)?
А вы попробуйте, например, запустить тренинг/fine-tune. Можно еще с моделью, которая не влезает в 20GB VRAM. Можно еще сделать TP на 8 карт в одном NVLINK домене с TP8 и FP16. Тогда сразу станет видна разница.
Получается, что без разбивки на "кусочки", карта имеет более низкую пропускную способность.
Это очевидно, какой-то косяк с настройкой, конфигурацией или самим тестом. Большинство H100/H200 работают без MIG на полной скорости. Вот примеры тестов и результатов - https://mlcommons.org/benchmarks/inference-datacenter/ (Тут есть и H100, и RXT 4090, и RTX Pro 6000 BSE (ближайший аналог RTX 5090 c т.з. compute). Вопрос почему у вас система шлет запросы последовательно и не может утилизировать одну карту - хз.
А вы попробуйте, например, запустить тренинг/fine-tune. Можно еще с моделью, которая не влезает в 20GB VRAM. Можно еще сделать TP на 8 карт в одном NVLINK домене с TP8 и FP16. Тогда сразу станет видна разница.
Разница будет как минимум в 10 раз?
Зачем вам multi-GPU, если вы еще не выросли из одной карты?
Тут вопрос не в том, выросли мы на инференсе или не выросли. А в том, можно ли получить из этой карты хоть что-то, что хоть как-то коррелирует с её ценником. Один из "извращенных" способов это сделать - рассматривать её как N карт.
А вы попробуйте, например, запустить тренинг/fine-tune. Можно еще с моделью, которая не влезает в 20GB VRAM.
Проблематично что-то существенное потренировать за несколько часов. Да и смысла мало инвестировать в одноразовые пайплайны.
Сравнивая игровые карты выглядит так, что это пресловутое ограничение по VRAM по сути как раз и есть один из способов сегментировать рынок.
На рынке есть 2-х слотовые 5090 от умельцев с нормальным охладом и большой памятью по цене около игровых. Но насколько это надежно - вопрос отдельный, может кто-то тыкал такие франкенштейны)
Вопрос почему у вас система шлет запросы последовательно и не может утилизировать одну карту - хз.
Прочитайте статью внимательнее, пожалуйста. Почему без разделения на кусочки нет полной утилизации - тут скорее всего или сетка слишком маленькая, или просто ускорялка инференса на другие юзкейсы настроена.
На рынке есть 2-х слотовые 5090 от умельцев с нормальным охладом и большой памятью по цене около игровых.
Уже начали перепаивать чипы памяти, как было для RTX4090 с 48Гб? У этих 64 Гб?
Сам в руках не держал, видел объявления на площадке б/у товаров, проверкой не занимался
Китайцы 128гб уже скрафтили вроде, хотят за неё чуть больше 10 килобаксов.
Есть очень большие сомнения в этом - https://videocardz.com/newz/no-there-is-no-geforce-rtx-5090-with-128gb-memory
"The big-picture question is what is done to the GPU to support this much memory. Currently, no GDDR7 memory modules are surpassing 24 Gbit, or about 3 GB per module, with the smaller capacity ones coming at 16 Gbit, or 2 GB per module. The largest configuration that a dual-sided, sandwiched approach to the PCB modding could support is 96 GB. That is exactly how NVIDIA's ProViz RTX PRO 6000 Blackwell GPU gets its 96 GB GDDR7 capacity. However, given that there are no 4 GB GDDR7 modules, we can only assume that some serious PCB modification was made to accommodate all the modules. Most likely, a PCB riser, tucked away somewhere, or any other interesting solution could be at play." https://www.techpowerup.com/340771/nvidia-geforce-rtx-5090-gets-128-gb-vram-capacity-mod
Разница будет как минимум в 10 раз?
Если подогнать параметры так, чтобы модель влезала в одну H100, но требовала 4 GeForce 5090, а обучать в FP8, то может быть и больше на трейнинге.
Но если посмотреть на стоимость аренды GPU, которые включают не только стоимость карты, то там нет разницы 10 раз. Вот просто пример:
4090 - 0.34 $/Hour
5090 - 0.7 $/Hour
L40S - 0.79 $/Hour
H100 PCIe - 1.99 $/Hour
H200 3.6 $/Hour
B200 - 6$/Hour
Один из "извращенных" способов это сделать - рассматривать её как N карт.
Все правильно. Это плюс, что вы можете сделать из одной фермы с H100 много разных размеров/форматов карт. Условно берете одну H100 и раздаете четырем людям 4 GPU размером по 20GB. Я пишу про то, что multi-gpu для этого совсем не нужен.
Сравнивая игровые карты выглядит так, что это пресловутое ограничение по VRAM по сути как раз и есть один из способов сегментировать рынок.
Я не могу комментрировать игровые карты, но пишу вам о другом. О том, что вы в рамках этого сравнения не учитываете то, за что вы доплачиваете в случае H100 - быструю RAM, Tensor Cores, NVLINK. Приведу вам такой пример - вот есть RTX PRO 6000 Blackwell Server Edition. 96GB GDDR7, PCIe-only, 2 Slots, 24k CUDA Cores, passive. Стоит она 10-12k$ нынче в магазинах (не в РФ). H100 (хоть это и прошлое поколение) с 80GB HBMe, NVLINK, 18k CUDA cores стоят 30-40k$. Но это не значит, что H100 не имеет больше никакого смысла (вот A100 - да, больше не имеет). Они нужны для разного.
тут скорее всего или сетка слишком маленькая, или просто ускорялка инференса на другие юзкейсы настроена.
Ну вот о чем и речь. Сетка влезает куда угодно, производительность карты утилизировать не может, ну тогда очевидно, что разницы вы не увидите, но вы делаете (ну или по крайней мере я так читаю), оценки о производительности карты в целом, что очевидно ошибочно. А так можно запустить множество копий модели на одном GPU и без MIG - например, https://www.tensorflow.org/api_docs/python/tf/config/set_logical_device_configuration + https://www.tensorflow.org/api_docs/python/tf/config/experimental/set_memory_growth+ https://www.tensorflow.org/guide/gpu
Но если посмотреть на стоимость аренды GPU, которые включают не только стоимость карты, то там нет разницы 10 раз. Вот просто пример:
Есть подозрение, что если арендовать 4-8 карт (для тренировки мало кто берет по 1 карте), то эффект будет более явно выражен.
оценки о производительности карты в целом, что очевидно ошибочно.
И поэтому потом запускаем N воркеров параллельно с запросами на N инстансов MIG … и видим приросты. Другой вопрос, почему утилизация на более "простых" картах была 100 без каких-либо оптимизаций.
Приведу вам такой пример - вот есть RTX PRO 6000 Blackwell Server Edition. 96GB GDDR7, PCIe-only, 2 Slots, 24k CUDA Cores, passive. Стоит она 10-12k$ нынче в магазинах (не в РФ). H100 (хоть это и прошлое поколение) с 80GB HBMe, NVLINK, 18k CUDA cores стоят 30-40k$.
На первой странице гугла увидел разброс цен от 900к до 1700к. Вероятно пока экзотика. Но это не отменяет "премии" за условные попугаи. При этом, как писал в статье, цены на топовые игровые решения "скальпит" уже сама Nvidia и пытается сделать их неюзабельными для расчетов без пайки и перебора.
В сухом остатке мы получили рост цены на новую топовую игровую карту условно с 30к рублей до 300к рублей (складывая все факторы), а "профессиональные" имеют мультипликаторы уже к игровым.
По сути прибавочная стоимость ушла от игроков, энтузиастов и крипто-спекулянтов и скальперов к самой Nvidia.
Я не могу комментрировать игровые карты, но пишу вам о другом. О том, что вы в рамках этого сравнения не учитываете то, за что вы доплачиваете в случае H100 - Tensor Cores
В игровых картах Tensor Cores уже очень давно есть, внезапно. И судя по маркировкам чипов, скорее всего в рамках одного поколения как у всех просто продается один и тот же чип в 3 сегментах по разной цене.

Но честно говоря после начала торговых войн стандартный цикл - новое поколение => проф. карточки => карточки для обучения как-то нарушился, по крайней мере чисто информационно. И со всеми ограничениями стало немного неочевидно какая карта следует за какой, хотя в принципе по префиксам и названиям понятно. Плюс цены стали такими, что будто бы совсем новые профессиональные решения не торопятся у нас завозить.
Есть подозрение, что если арендовать 4-8 карт (для тренировки мало кто берет по 1 карте), то эффект будет более явно выражен.
Будет, но в обратную сторону. Потому что вам нужно взять или 10 H100 по 2$/h, т.е. 20$ в час или 25 5090 по 0.7$/h, т.е. 17.5 $/h, чтобы получить 800GB VRAM. Да даже, если и одинаковое количество, то если разница в стоимости между одиночными картами 3 раза, то и разница между сотней одних карт и сотней других будет 3 раза.
Другой вопрос, почему утилизация на более "простых" картах была 100 без каких-либо оптимизаций.
Ну так это просто значит, что конкретно вам не нужна более производительная карта. Хорошая новость для вас, но не всем так повезло.
В игровых картах Tensor Cores уже очень давно есть, внезапно. И судя по маркировкам чипов, скорее всего в рамках одного поколения как у всех просто продается один и тот же чип в 3 сегментах по разной цене.
В игровых картах, Tensor Core, разумеется, есть. Вопрос в том, сколько их. И карты для Compute (H100/H200, B200/B300) сильно отличаются от General Propose (GeForce, RTX, L40, etc). Потому что в чипах для compute меньше CUDA Cores, нет RT-cores, а зато сильно больше Tensor Cores.
Но честно говоря после начала торговых войн стандартный цикл - новое поколение => проф. карточки => карточки для обучения как-то нарушился, по крайней мере чисто информационно
Главное, что изменилось со времен Ampere это то, что появилось два отдельных направления/семейства базе разных чипов и решений: 1.) У вас отдельно идут Сompute GPU в лице Hopper (H100 -> H200), потом Blackwell (B200 -> B300), потом будет Rubin. 2.) Отдельно идут General Propose: Ada Lovelace (для ПК - GeForce 40xx, для рабочих станций RTX XXXX Ada, серверные L4/L40/L40S) -> Blackwell (GeForce 50xx для ПК, RTX PRO для рабочих станций и серверов).
…но я не думал, что в России в принципе появятся H100…
Ну вы даёте. Их довольно много и даже B200 встречаются.
Играемся с видеокартой Tesla H100 (GH100)