Pull to refresh

Comments 40

Не понимаю я этих маркетологов...

А100 под названием А800. Его отличием от оригинала стала пониженная примерно на треть 

Почему не A67?

не H100, а Н800.

... Так, если у H100 это 300 Гбит/с, то у китайской версии — всего 150 Гбит/с.

Почему не H50?

Китайцы любят восьмерки

А можно натренировать ИИ чтобы он выдал варианты реализации физической базы для собственного экзистенциализма? Варианты "хочу быть кисой" не рассматривать.

Вообще, пропускная способность этой самой шины не всегда является ограничением, так что ускорители вполне себе можно считать полноценными для многих задач. Особенно, если не тренировать модели, а делать инференс правильным способом. А hpc может быть Китаю не так и нужен, как цифровой концлагерь.

Почти во всех этих AI'х, когда ты оптимизировал все (инференс и тренинг) - ты уткнулся в IO. Если повезло - в ио на борту карты, если не повезло - в ио на материнке.

Объясните насчет лимита пропускной способности на pci-e gen4 для инференса, скажем видео?

64 потока hevc 4k залетают в gpu, требуя меньше 1 гбит/сек пропускной способности.

Это кодинг\декодинг, не ML? Видео кодеки и игры - довольно давно не те активности, которые намазывают икру на хлеб Nvidia.

Игры для НВидии это очень важно. У них с игр половина дохода. Вторая половина с ML. Остальное копейки.

Почему не ml, это видео инференс, для которого не страшна пропускная способность шины gpu.

Китайскому концлагерю вполне себе.

Китайскому концлагерю и, прости господи, джетсона в подсобке хватит. Тут бьются за чуть более серьезные вещи. Например, чтобы примерно такое https://www.nvidia.com/en-us/data-center/dgx-gh200/ было сложнее построить.

Какая модель, видяха и batch size?
4x A6000, blip2 12b модель, задача - прелейблинг/классификация/сегментация, порядка 700Tb медиа в пайпе. Во что упремся (при условии, что хотим маскимизировать утилизацию GPU)? Ж)

Ваш довод в духе, «а знаешь кто мой брат!?»

Думаю, что пока вы на H800 и H100 не запустите, не поймем. А кидаться терабайтами - ну такое себе. Умеючи можно и лом сломать.

Что же касается A6000, предположу что упретесь в GPU, а не шину. Памяти у нее много, а по вычислительной мощности она процентов на 50 быстрее A4000, то есть такое себе - переоценена во многом, на мой взгляд.

Не совсем, это просто регулярный воркфлоу одного небольшого стартапа.

Упираемся именно в мать. При понижении плотности видях - начинаем стучаться в сам pci-e. Можно добиться ситуации «постучались в видяху» (например, через ее распиливание), но это сильно уронит throughput всего развлечения.

Касательно деплоймета в H серию - да, примерно это будем делать со временем. Но подобные штуки скушаны тренировкой, на обычные пре\пост пайплайны пока нет ресурсов ставить.

Мы проводили сравнительные тесты PCIE и NVLINK, при использовании второго общая производительность выше в несколько раз.

Вы не поняли. Это инференс или обучение? Я пишу про инференс. У вас в инференсе быстрее работает, на какой карте? Так то a100 80gb известно, что быстрее a100 40gb независимо от шины.

Это был DGEMM benchmark. Неважно, какой работой вы нагрузите систему, факт останется фактом - PCI express в разы медленнее NVLink. В том числе из-за отсутствия peer-to-peer. Далее уже зависит от конкретной задачи, естественно: кто-то почувствует эти ограничения, кто-то нет.

Да, я понимаю, что вы писали про инференс. Но мне эта позиция не совсем понятна, потому что для инференса, во-первых, нужны обученные модели (а где их обучать, без производительных архитектур?), во-вторых, зачастую хватает гораздо менее сложных устройств, вроде Jetson, да даже на мобильных телефонах инференс работает, хватало бы памяти. Если речь вести именно про шину (PCIE vs NVLink), то этот разговор в целом имеет смысл только в контексте обучения (и других задач, GPU не только для нейронок используются), на мой взгляд.

Речь о том, что шина не везде критична. Никакой связи между во-первых и во-вторых нет. И речь не про сравнение pcie и nvlink в рамках этой ветки.

Для инференса важна скорость инференса, Jetson NX, скажем сегментацию в рилтайм не может, да и скажем для 4-8 камер на коробку уже мало что может, а t4, a10 может. Есть гибридные архитектуры, на edge первичная обработка, в ядре тяжелая.

Есть устройства чисто для инференса, например у amd это xilinx v70, на них, в принципе, невозможно учить. Инферить ли на a100/h100 зависит от того, какая будет стоимость в пересчете на поток.

Резюмирую: для инференса скорость шины может быть не так важна, да. Но только инференс - это лишь одна из множества задач, которые сегодня решаются с помощью ускорителей. На них оффлоадтся вычисления различного софта для физических, химических расчетов и тд. И таких задач гораздо больше, и именно поэтому так нужны системы, про которые написан пост. Для инференса такие системы, по большому счету, вообще не требуются.

Вы правы, относительно спектра применений, но не в полной мере правы про инференс. Представим, что у вас в мегаполисе произошел инцидент, например, ограбление. Вам надо быстро выдать информацию для расследования инцидента правоохранительным образом.

Для этого надо загрузить видео-информацию в систему и максимально быстро ее обработать, чтобы построить условное геопространственновременное дерево решений по инциденту. Вы "кормите" системе видео, в этом случае шина - не узкое место, при этом вам необходимы огромные вычислительные мощности, чтобы быстро получить результат и уменьшить размер дерева решений. Вот в этом случае, условные A100/H100 вполне себе зайдут.

Далее, представьте Пекин или Гуанчжоу, где таких событий десятки в минуту. Мы переходим к классической HPC-системе с пакетной загрузкой, которая непосредственно получит профит от H800, без ограничений по шине.

Мое понимание в этом вопросе такое: если вы используете для обработки данных GPU, то данные на этот GPU как-то надо загрузить. Для этого шина как раз и используется. Чем она быстрее - тем быстрее загрузятся данные и начнется счет. Только можно взять одно карту с быстрой шиной, а можно - несколько штук с шиной помедленнее, и распараллелить счет, засчет чего итоговое время останется примерно таким же. Что и делают сейчас китайцы, скупая эти урезанные карты десятками тысяч.

Это не верное рассуждение, для конвейерной обработки все зависит от самого узкого места и часто это не шина карты. Вы можете сколько угодно быстро загружать данные, но если их обработка медленная, все равно будет гордышко на обработке.

Так обработка будет одинаковая, потому что сами карты - одинаковые. Отличается только пропускная способность шины.

Ну так я Вам об этом и говорю, что если PCIE не узкое место, то карты-то одинаковые.

Интересно по цене их продают дороже не урезанных? А-то бизнес 100500 левла - продать на хайпе кучу неконкурентоспособных, по сравнению с неурезанными, ускорителей. И бабки есть и рынок не перегреется...

По-моему это не Китай пользуется лазейкой, а Китаем пользуются...

А какие у них еще варианты? Либо урезанные, либо никаких. Тут можно даже и больше ценники заряжать, никуда с подводной лодки не денутся...

В России берут автомобили по двойной цене. Вариантов мало.

Аппаратная начинка, количество транзисторов - всё такое же. Плюс партии очевидно меньше. То есть стоимость производства для NVIDIA как минимум не меньше, чем у оригиналов.
По всем правилам такие урезанные адаптеры должны быть дороже, но никак не дешевле.

Почему не сделали оригинальный чип с защитой, ну как от майнинга? После продажи китайские хакеры взломали, и ни к кому нет вопросов.

Ну регулятор требует ограничений, мы их вводим чтобы соответствовать.

Пример - вот одна страна решила не ввозить автомобили которые могут ехать быстрее 100 км/ч. Самое простое - добавить связь между спидометром и мозгами двигателя. Покупать такие машины будут неохотно. Но если хакеры это взломают, то все в итоге довольны.

Не охотно? Будут пешком ходить? Вы понимаете, что на этом рынке(в отличие от автомобильного) нет конкуренции?

Будут все равно покупать если альтернативы нет. А производителю авто чипов не выгодно что бы его взломали - ведь если завтра все изменится и скажут "ладно, теперь можно 120", то можно будет ещё раз машины чипы продать. Причем если везде уже все едет 140, то можно продать старое поколение будет. А если "хакеры взломают", то могут вообще запретить поставки в любом виде, что бы в будущем не взломали.

Вот тоже любопытно, андерклокинг у А800, часом, не джампером на плате выполняется?

Я так и не понял из статьи, где именно урезание. На программном уровне или чипы просто слабее.

Просто если программный уровень, то его могут обойти, а вот если чипы сразу произведены слабее, то, к сожалению, не обойти.

Я так и не понял из статьи, где именно урезание. На программном уровне или чипы просто слабее.

Просто если программный уровень, то его могут обойти, а вот если чипы сразу произведены слабее, то, к сожалению, не обойти.

А вы как себе это представляете? Допустим что одна компания фиктивно продаёт другой компании искусственно заторможенный товар. Делает это исключительно для того, чтобы обойти ограничения регулятора.

И представители этих обеих компаний такие "да так то вообще фигня, одной перемыкой разгоняется", да?

Думаю, тут немного не тот масштаб денег и власти, чтобы факт лёгкого оверклокинга(вернее приведения в норму) был публичен и широко известен.

Sign up to leave a comment.