kalmagaev Aug 14 2023 at 03:25

Как Китай пользуется лазейкой с урезанными версиями ИИ-ускорителей: покупки на будущее достигают миллиардов долларов США

4 min

6.4K

Selectel corporate blogResearch and forecasts in IT*Manufacture and development of electronics*IT-companies

+42

Comments 40

Nick_Shl Aug 14 2023 at 03:39

Не понимаю я этих маркетологов...

А100 под названием А800. Его отличием от оригинала стала пониженная примерно на треть

Почему не A67?

не H100, а Н800.
... Так, если у H100 это 300 Гбит/с, то у китайской версии — всего 150 Гбит/с.

Почему не H50?

wazzard Aug 14 2023 at 04:06

Китайцы любят восьмерки

+16

dragonnur Aug 14 2023 at 08:10

Потому что маркетинг!

mishkin79 Aug 14 2023 at 04:13

А можно натренировать ИИ чтобы он выдал варианты реализации физической базы для собственного экзистенциализма? Варианты "хочу быть кисой" не рассматривать.

ivankudryavtsev Aug 14 2023 at 07:08

Вообще, пропускная способность этой самой шины не всегда является ограничением, так что ускорители вполне себе можно считать полноценными для многих задач. Особенно, если не тренировать модели, а делать инференс правильным способом. А hpc может быть Китаю не так и нужен, как цифровой концлагерь.

CKA304HUK Aug 14 2023 at 07:47

Почти во всех этих AI'х, когда ты оптимизировал все (инференс и тренинг) - ты уткнулся в IO. Если повезло - в ио на борту карты, если не повезло - в ио на материнке.

ivankudryavtsev Aug 14 2023 at 08:24

Объясните насчет лимита пропускной способности на pci-e gen4 для инференса, скажем видео?

ivankudryavtsev Aug 14 2023 at 08:27

64 потока hevc 4k залетают в gpu, требуя меньше 1 гбит/сек пропускной способности.

CKA304HUK Aug 17 2023 at 20:33

Это кодинг\декодинг, не ML? Видео кодеки и игры - довольно давно не те активности, которые намазывают икру на хлеб Nvidia.

BugM Aug 17 2023 at 22:36

Игры для НВидии это очень важно. У них с игр половина дохода. Вторая половина с ML. Остальное копейки.

ivankudryavtsev Aug 17 2023 at 23:32

Почему не ml, это видео инференс, для которого не страшна пропускная способность шины gpu.

Китайскому концлагерю вполне себе.

CKA304HUK Aug 20 2023 at 05:50

Китайскому концлагерю и, прости господи, джетсона в подсобке хватит. Тут бьются за чуть более серьезные вещи. Например, чтобы примерно такое https://www.nvidia.com/en-us/data-center/dgx-gh200/ было сложнее построить.

CKA304HUK Aug 17 2023 at 20:27

Какая модель, видяха и batch size?
4x A6000, blip2 12b модель, задача - прелейблинг/классификация/сегментация, порядка 700Tb медиа в пайпе. Во что упремся (при условии, что хотим маскимизировать утилизацию GPU)? Ж)

ivankudryavtsev Aug 17 2023 at 23:28

Ваш довод в духе, «а знаешь кто мой брат!?»

Думаю, что пока вы на H800 и H100 не запустите, не поймем. А кидаться терабайтами - ну такое себе. Умеючи можно и лом сломать.

Что же касается A6000, предположу что упретесь в GPU, а не шину. Памяти у нее много, а по вычислительной мощности она процентов на 50 быстрее A4000, то есть такое себе - переоценена во многом, на мой взгляд.

CKA304HUK Aug 20 2023 at 05:33

Не совсем, это просто регулярный воркфлоу одного небольшого стартапа.

Упираемся именно в мать. При понижении плотности видях - начинаем стучаться в сам pci-e. Можно добиться ситуации «постучались в видяху» (например, через ее распиливание), но это сильно уронит throughput всего развлечения.

Касательно деплоймета в H серию - да, примерно это будем делать со временем. Но подобные штуки скушаны тренировкой, на обычные пре\пост пайплайны пока нет ресурсов ставить.

serejk Aug 24 2023 at 05:37

Мы проводили сравнительные тесты PCIE и NVLINK, при использовании второго общая производительность выше в несколько раз.

ivankudryavtsev Aug 24 2023 at 06:15

Производительность в чем?

serejk Aug 24 2023 at 06:37

Во флопсах.

ivankudryavtsev Aug 24 2023 at 07:08

Вы не поняли. Это инференс или обучение? Я пишу про инференс. У вас в инференсе быстрее работает, на какой карте? Так то a100 80gb известно, что быстрее a100 40gb независимо от шины.

serejk Aug 24 2023 at 07:13

Это был DGEMM benchmark. Неважно, какой работой вы нагрузите систему, факт останется фактом - PCI express в разы медленнее NVLink. В том числе из-за отсутствия peer-to-peer. Далее уже зависит от конкретной задачи, естественно: кто-то почувствует эти ограничения, кто-то нет.

ivankudryavtsev Aug 24 2023 at 07:15

А теперь прочитайте начало ветки…

serejk Aug 24 2023 at 07:20

Да, я понимаю, что вы писали про инференс. Но мне эта позиция не совсем понятна, потому что для инференса, во-первых, нужны обученные модели (а где их обучать, без производительных архитектур?), во-вторых, зачастую хватает гораздо менее сложных устройств, вроде Jetson, да даже на мобильных телефонах инференс работает, хватало бы памяти. Если речь вести именно про шину (PCIE vs NVLink), то этот разговор в целом имеет смысл только в контексте обучения (и других задач, GPU не только для нейронок используются), на мой взгляд.

ivankudryavtsev Aug 24 2023 at 07:35

Речь о том, что шина не везде критична. Никакой связи между во-первых и во-вторых нет. И речь не про сравнение pcie и nvlink в рамках этой ветки.

Для инференса важна скорость инференса, Jetson NX, скажем сегментацию в рилтайм не может, да и скажем для 4-8 камер на коробку уже мало что может, а t4, a10 может. Есть гибридные архитектуры, на edge первичная обработка, в ядре тяжелая.

Есть устройства чисто для инференса, например у amd это xilinx v70, на них, в принципе, невозможно учить. Инферить ли на a100/h100 зависит от того, какая будет стоимость в пересчете на поток.

serejk Aug 24 2023 at 07:40

Резюмирую: для инференса скорость шины может быть не так важна, да. Но только инференс - это лишь одна из множества задач, которые сегодня решаются с помощью ускорителей. На них оффлоадтся вычисления различного софта для физических, химических расчетов и тд. И таких задач гораздо больше, и именно поэтому так нужны системы, про которые написан пост. Для инференса такие системы, по большому счету, вообще не требуются.

ivankudryavtsev Aug 24 2023 at 08:34

Вы правы, относительно спектра применений, но не в полной мере правы про инференс. Представим, что у вас в мегаполисе произошел инцидент, например, ограбление. Вам надо быстро выдать информацию для расследования инцидента правоохранительным образом.

Для этого надо загрузить видео-информацию в систему и максимально быстро ее обработать, чтобы построить условное геопространственновременное дерево решений по инциденту. Вы "кормите" системе видео, в этом случае шина - не узкое место, при этом вам необходимы огромные вычислительные мощности, чтобы быстро получить результат и уменьшить размер дерева решений. Вот в этом случае, условные A100/H100 вполне себе зайдут.

Далее, представьте Пекин или Гуанчжоу, где таких событий десятки в минуту. Мы переходим к классической HPC-системе с пакетной загрузкой, которая непосредственно получит профит от H800, без ограничений по шине.

serejk Aug 24 2023 at 08:43

Мое понимание в этом вопросе такое: если вы используете для обработки данных GPU, то данные на этот GPU как-то надо загрузить. Для этого шина как раз и используется. Чем она быстрее - тем быстрее загрузятся данные и начнется счет. Только можно взять одно карту с быстрой шиной, а можно - несколько штук с шиной помедленнее, и распараллелить счет, засчет чего итоговое время останется примерно таким же. Что и делают сейчас китайцы, скупая эти урезанные карты десятками тысяч.

ivankudryavtsev Aug 24 2023 at 09:02

Это не верное рассуждение, для конвейерной обработки все зависит от самого узкого места и часто это не шина карты. Вы можете сколько угодно быстро загружать данные, но если их обработка медленная, все равно будет гордышко на обработке.

serejk Aug 24 2023 at 09:15

Так обработка будет одинаковая, потому что сами карты - одинаковые. Отличается только пропускная способность шины.

ivankudryavtsev Aug 24 2023 at 10:43

Ну так я Вам об этом и говорю, что если PCIE не узкое место, то карты-то одинаковые.

Arhammon Aug 14 2023 at 07:54

Интересно по цене их продают дороже не урезанных? А-то бизнес 100500 левла - продать на хайпе кучу неконкурентоспособных, по сравнению с неурезанными, ускорителей. И бабки есть и рынок не перегреется...

По-моему это не Китай пользуется лазейкой, а Китаем пользуются...

nidalee Aug 14 2023 at 08:01

А какие у них еще варианты? Либо урезанные, либо никаких. Тут можно даже и больше ценники заряжать, никуда с подводной лодки не денутся...

Hardcoin Aug 14 2023 at 10:09

В России берут автомобили по двойной цене. Вариантов мало.

VitalySh Aug 14 2023 at 15:32

Аппаратная начинка, количество транзисторов - всё такое же. Плюс партии очевидно меньше. То есть стоимость производства для NVIDIA как минимум не меньше, чем у оригиналов.
По всем правилам такие урезанные адаптеры должны быть дороже, но никак не дешевле.

-1

DGN Aug 15 2023 at 02:21

Почему не сделали оригинальный чип с защитой, ну как от майнинга? После продажи китайские хакеры взломали, и ни к кому нет вопросов.

Nick_Shl Aug 15 2023 at 02:27

А зачем?

DGN Aug 19 2023 at 12:23

Ну регулятор требует ограничений, мы их вводим чтобы соответствовать.

Пример - вот одна страна решила не ввозить автомобили которые могут ехать быстрее 100 км/ч. Самое простое - добавить связь между спидометром и мозгами двигателя. Покупать такие машины будут неохотно. Но если хакеры это взломают, то все в итоге довольны.

Nick_Shl Aug 19 2023 at 14:40

Не охотно? Будут пешком ходить? Вы понимаете, что на этом рынке(в отличие от автомобильного) нет конкуренции?

Будут все равно покупать если альтернативы нет. А производителю ~~авто~~ чипов не выгодно что бы его взломали - ведь если завтра все изменится и скажут "ладно, теперь можно 120", то можно будет ещё раз ~~машины~~ чипы продать. Причем если везде уже все едет 140, то можно продать старое поколение будет. А если "хакеры взломают", то могут вообще запретить поставки в любом виде, что бы в будущем не взломали.

u007 Aug 15 2023 at 03:28

Вот тоже любопытно, андерклокинг у А800, часом, не джампером на плате выполняется?

bit8 Aug 15 2023 at 08:16

Я так и не понял из статьи, где именно урезание. На программном уровне или чипы просто слабее.

Просто если программный уровень, то его могут обойти, а вот если чипы сразу произведены слабее, то, к сожалению, не обойти.

sa1ntik Aug 16 2023 at 10:39

Я так и не понял из статьи, где именно урезание. На программном уровне или чипы просто слабее.
Просто если программный уровень, то его могут обойти, а вот если чипы сразу произведены слабее, то, к сожалению, не обойти.

А вы как себе это представляете? Допустим что одна компания фиктивно продаёт другой компании искусственно заторможенный товар. Делает это исключительно для того, чтобы обойти ограничения регулятора.

И представители этих обеих компаний такие "да так то вообще фигня, одной перемыкой разгоняется", да?

Думаю, тут немного не тот масштаб денег и власти, чтобы факт лёгкого оверклокинга(вернее приведения в норму) был публичен и широко известен.