Обновить

NVIDIA RTX PRO 2000 Blackwell. На что способен «младшенький GPU» нового семейства профессиональных карт NVIDIA

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели8.7K
Всего голосов 6: ↑6 и ↓0+6
Комментарии17

Комментарии 17

Арендуйте сервер с RTX PRO 2000 BlackwellОцените производительность недорогого GPU-сервера для ваших задач.

Вы рекламируете облачные услуги, но простите, даже ваш сайт недоступен из-за рубежа. Какой смысл людям что-то покупать у вас?

И последнее сравнение с A4000. Начнем с цены: сейчас A4000 можно найти в районе 130 000 рублей. То есть RTX PRO 2000 Blackwell обойдется на 35% дешевле, чем A4000.

Что мы имеем: холодную карту в компактном исполнении с низким энергопотреблением на новейшей архитектуре NVIDIA, которая чуть больше четверти проигрывает своей предшественнице A4000 в инференсе, но при этом стоит в два раза дешевле A4000 и потребляет в два раза меньше энергии.

Так на треть дешевле или наполовину?)

И что насчет тестов генерации текста?

На треть, сейчас поправим. Генерация кода и текстов дает одинаковую скорость, просто в коде больше выход контекста, чем у текстов. Про невозможность заказа все претензии к нашим законодателям, это не наша прихоть.

спасибо

По характеристикам ядер наша RTX PRO 2000 лежит между RTX 5060 Ti и RTX 5060, по AI превосходит 5060 (хотя и ненамного), как и по характеристикам, но проигрывает по производительности FP32. Хотя, возможно, тут играет роль «задушенное» питание карты, так как ее энергопотребление меньше в два раза даже 5060, и меньшая пропускная способность (хотя память тут та же GDDR7 с ECC, и шина PCI-E урезана так же, как у 5060).

я еще этот момент не понял - вы сравниваете 2000 с 5060 и 5060 ti и приходите к выводу, что они примерно одинаковы. При этом упущен тот факт, что 2000 в полтора раза дороже. Дальше 5060 и 5060 ti исчезают и не участвуют в тестах. Так а какая скорость в сравнении с ними?

RTX PRO 2000 профессиональная сертифицированная карта и сравнение с 5060 и 5060 Ti чисто показать ее положение в линейке Blackwell и по мощности она будет также примерно посередине. У нас таких карт нет, в серверы их не ставят и нам сравнивать не с чем.

Кто захочет, может сам сравнить свою 5060 с помощью нашего тестового скрипта, он опенсурсный. Единственное с чем обычно сравниваем, это с 5090/4090 и результаты опять же есть по ссылке с нашим тестом.

В чем проблема (кроме цены) сделать 24Гб? Ведь с 16Гб за бортом остаются 30B модели. Например, вчерашняя Nemotron Nano от самой Nvidia.
Для тех кто готов мириться с меньшей производительностью, но при этом работать с достаточно мощными LLM, Image, Video.

Зачем 24Гб? Существует дешевая сдвоенная intel arc b60 есть с 48Гб, правда ее достать сложно

Она же без CUDA. Производительность, совместимость. Тогда уж лучше Apple Mac Mini с Unify RAM, M4 pro 48Gb (под «видео» будет около 40). Около 180 тыс. И лучшая энергоэффективность. Можно еще в пачки объединять.

да, вы правы. Не подумал об этом

Есть вопросы по поводу картинок и видео на Apple Silicon. Возможно, даже AI Max от AMD будет лучше с ROCm, хотя и там все далеко не идеально. К сожалению, если хотите картинки и особенно видео - тогда от NVIDIA деваться некуда, только себе в ногу выстрелите.

24 гиговая это RTX PRO 4000 Blackwell

В чем проблема (кроме цены) сделать 24Гб?

Вот вы сами и ответили на свой вопрос)
Только немного в другую сторону - при наличии 24 Гб на младшей карте не будут так интенсивно покупать старшие. Нвидиа не первое поколение таким промышляет.

А не проще ли купить RTX Pro 6000 Blackwell SERVER Edition и нарезать её на части через MIG (до 4-х частей), если нужно? Да, 1/4 RTX Pro 6000 будет быстрее, чем RTX PRO 2000 (Скорее ближе к RTX PRO 4000 - 24GB вместо 16GB, 6k CUDA вместо 4.3k и т.д.) и вероятно так же дороже, но зато сильно удобнее/универсальнее. Хотите - полную GPU отдавайте, хотите 1/2, хотите 1/4.

Нарезать будет дороже в 4 раза. И народу подавай свое, а не виртуальное.

Эм.. Почему? Я вот смотрю тут:

  • RTX PRO 6000 BWE- 9000$; 9000/4=2250$.

  • RTX PRO 2000 - 850$

  • RTX PRO 4000 - 2000$.

    Разница между 4000 (к которой ближе и 1/4 RTX PRO и заменяемая вам A4000) и 1/4 6000 в общем-то не большая - 10%.

Ну а про "свое" тоже не очень понятно: MIG - это же про аппаратное разделение. Я ведь не timeslicing vGPU предлагаю. А пользователь увидит только MIG профайл в своей ВМ и всё.

2000 vs 2250 конечно не о чем. Да и скорее сценариев когда нужно на полную использовать больше, чем 1 раз нарезать всем по относительно чуть-чуть.

Есть подозрение, что если клиенты будут реально гонять на полную катушку свои нарезанные четверти, то у них будут проблемы по шине памяти или pci-e. И производительность в итоге рискует быть хуже.

Все-таки люди, которые арендуют такое железо, примерно представляют себе, какой производительности ждать. Это не впски продавать по 20 человек на ядро и глазами хлопать "мы не знаем что не так".

MIG обеспечивает изоляцию на уровне кодеков/декодеков, SM, L2 Cache, VRAM (both bandwidth и capacity) и system pipeline. Единственное, что действительно Shared - это PCIe, но это обычно не очень критично, ибо делится +- равномерно на всех под нагрузкой + этапы обращения к CPU часто не совпадают у разных пользователей.

https://docs.nvidia.com/datacenter/tesla/mig-user-guide/introduction.html

Вот тут есть детали https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf + https://www.nvidia.com/content/dam/en-zz/Solutions/design-visualization/solutions/resources/documents1/TB-10226-001_v01.pdf хоть документы и старые, а вот тут тесты https://research.colfax-intl.com/sharing-nvidia-gpus-at-the-system-level-time-sliced-and-mig-backed-vgpus/

Таким образом, если взять и разделить RTX PRO 6000 на 4 части, то каждый инстанс получит:

  • 6k SM (RTX PRO 2000 - 4k; RTX PRO 4000 - 9k)

  • 24GB VRAM c 400GB/s (RTX PRO 2000 - 16GB@288GB/s; RTX PRO 4000 - 24GB@670GB/s)

  • PCIe от 32GB/s до 128GB/s (в зависимости от нагрузки) (RTX PRO 2000 - 64GB/s; RTX PRO 4000 - 128GB/s)

  • По одному NVENC/NVDEC/JPEG движку (RTX PRO 2000 - по одному; RTX PRO 4000 - по два)

Т.е. я не спорю, что 1/4 RTX PRO 6000 - это меньше, чем RTX PRO 4000, но в любом случае больше, чем RTX PRO 2000. И MIG позволяет гарантировать QoS и Fault Isolation в рамках Instance/Profile - в этом и его смысл. При этом есть возможеость в рамках одного и того же сервера получать всю линейку от RTX PRO "3000" (в смысле между 2000 и 3000) до полных RTX PRO 6000.

Ну и наконец, аналогия про переподписку на vps не актуальна (это ближе к time-slicing, хотя и оно не до конца справедливо, при этом многие бы хотели переподписывать GPU). Это ближе к тому, что на 32 ядерном CPU, мы отдаем по 8 ядер в монопольное пользование каждой ВМ (хотя тут будет даже несколько хуже, ибо RAM будет shared в отличии от MIG).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
www.hostkey.ru
Дата регистрации
Дата основания
Численность
101–200 человек
Местоположение
Россия