Stanislav_ITE Jun 30 at 12:42

GPU Server and AI Infrastructure: тренды архитектуры 2030

Medium

15 min

1.6K

OpenYard corporate blogIT Infrastructure*High performance*Artificial Intelligence

Analytics

+10

Comments 4

DenisVV Jun 30 at 16:38

💪

onpremise Jun 30 at 16:38

Хороший срез, особенно в части, где показано, как формально открытые стандарты превращаются в проприетарные расширения. У Nvidia HGX это видно на уровне разводки, не только документации. Чёткая связка: сеть, память, питание, охлаждение. Всё именно так и проектируется - не по линейке, а вокруг ограничения по теплу, плотности и распределению. Упоминание CXL и DLC не про «тренды», а про узлы будущего, которые уже считаются.

Отдельно полезно, что не стали идеализировать совместимость в OCP: по факту, даже формально стандартизованные узлы часто конфликтуют по питанию или охлаждению.

Было бы интересно увидеть раскладку по orchestration-слоям (K8s, Slurm, UFM и т.д.) - как всё это управляется при 100+ кВт на стойку.

Stanislav_ITE Jun 30 at 17:14

Спасибо за отзыв.

На счёт оркестрации. С k8s, кажется, более менее понятно. Slurm - о, это хорошо. Для HPC, которых у нас в России не так уж и много. И, в целом, я мало встречал разработчиков под HPC, MPI.

Отдельно уже про Singularity. Тоже мир HPC, но вот почему как альтернатива доя куба не получил у нас популярности...

Тема очень интересная и ёмкая. Подумаю.

Спасибо.

xander___cage Jul 1 at 08:28

интересная статья, спасибо!

правда, недавно, корейские товарищи выдали прогноз, что при переходе на HBM5 технологии охлаждения DLC уже будет нехватать, а это горизонт планирования 2029 г.