alzotov 25 окт 2023 в 07:22

Штучная работа. Как мы собрали суперкомпьютер для моделирования новых материалов

Средний

8 мин

8.3K

Блог компании К2ТехВысоконагруженные системы * IT-инфраструктура * СуперкомпьютерыКомпьютерное железо

Кейс

✏️ Технотекст 2023

+38

Комментарии 19

nkretov 25 окт 2023 в 07:39

Добрый день!
А подскажите, насколько типовые нагрузки на такой кластер зависят от пропускной способности интерконнекта? То есть обычная 10г сеть выглядит гораздо проще в администрировании и наверное сильно дешевле.
обратил внимание что если вычислительное ядро всего из 7 серверов то и сетевого взаимодействия между ними будет не много.

gibson_dev 25 окт 2023 в 07:49

С Ethernet проще конечно но задержки другие и они не детерминированы.

alzotov 25 окт 2023 в 11:54

Добрый день! Да, можно строить интерконнект и на базе классического Ethernet, но все же в специализированных решениях для HPC скорость и задержки стоят на первом месте. У нас каналы утилизируются практически полностью - примерно 6 Гбайт/сек, при этом задержки ниже на порядок, в сравнении с обычными 10G коммутаторами, и составили у нас порядка 1 мкс. Также не забываем про то, что мы строили систему с заделом на дальнейшее масштабирование. И с Ангарой это сделать значительно проще в плане сохранения низких задержек в сети.

CodARM 25 окт 2023 в 08:09

Доброе утро! Глянул на характеристики машин, и возник вопрос, а почему-бы не собрать 2 сервера? Как я вижу для цпу производительности подойдет условный EPYC на SP3 сокете в количестве 2 штук по 64 ядра(256 потоков на сервер). Мне кажется что он будет, как минимум, не медленнее массива из семи 56(2х28) ядерных серверов из-за отсутствия межсерверных задержек. Да и 2 ТБ памяти эпики давно могут переварить
Насчет "нейросетевой" производительности еще легче, в SuperMicro SYS-420GP-TNR можно уместить 10 видеокарт.
Если это проба пера или сборка суперкомпьютера с целью опробывать свои силы для будущих крупных проектов, то тогда понятно. Но если это реальный проект под реальные задачи, у меня возникают некоторые вопросы

select26 25 окт 2023 в 08:22

И вообще есть уже и 128 ядер на кристалл. И платформы с 2 CPU.
И влияние (и, соответственно, требования) интерконнекта значительно снизится.
Но это уже будет не суперкомпьютер, а суперсервер.

Автор, расскажите пожалуйста про ТЗ? Не воду про задачи, решаемые при помощи, а именно какая задача была поставлена перед К2 и исходя из каких критериев вы выбрали оборудование?
А то

задержка на передачу сообщений между двумя соседними узлами на сети «Ангара» ощутимо меньше

звучит как то странно, при пиковой разнице в пол микросекунды. Не мили а микро.
Из каких соображений был сделан выбор в пользу:

392 процессорных ядра, установленных в 7 высокопроизводительных серверах; в качестве CPU используется Intel 3-го поколения с 28 ядрами и 256 ГБ RAM; в качестве GPU — NVIDIA A100 80G;

?
Правда - очень интересно.
Заранее спасибо!

alzotov 25 окт 2023 в 12:19

Добрый день! Я в целом уже ответил в комментариях, задача стояла собрать решение полностью из отечественных компонентов: это касается как серверов, так и интерконнекта.

И хотел бы дополнить, что даже 0.5 мкс разницы в задержке на передачу сообщений в нашем случае - это целых 50% выигрыша в сравнении с InfiniBand.

BoogieMan75 29 окт 2023 в 05:38

А подскажите кто производитель процессора и озу ?

daboriginal 25 окт 2023 в 09:02

Я не автор, но несколько подобных систем собирал.

По всей видимости, на данном кластере будут проводиться инженерные вычислления, тесты в FlowVision (CFD-решатель) на это намекают, а большинство подобных вычислительных продуктов писались в большей степени с использованием математических библиотек Intel. Даже всемирноизвестный Ansys начал адаптировать свой код под камни AMD сравнительно недавно (2-3 года назад вышла первая адаптированная версия). Однако, заокеанские "друзья" добились огромного прогресса в этом направлении и для CFD-вычислений процессоры AMD сейчас приоритетны. Не смогу точно сказать на сколько будет отличаться производительность FlowVision на ядрах различных вендоров.

Также стоит отметить, что любое подобное инденерное ПО предпочитает только физические ядра, поэтому HT и SMT не используется ни в одном HPC.

alzotov 25 окт 2023 в 12:20

Спасибо вам за комментарий! Тут я полностью согласен, даже немного раскрыл и дополнил идеи в предыдущих комментариях.

alzotov 25 окт 2023 в 12:17

Для использования AMD-платформы необходимо адаптировать расчетный софт, ориентированный в первую очередь на Intel. Hyper Threading тоже нужно отключать, так как он неприемлем в классических HPC.

Также хотел бы дополнить, что мы строили решение на отечественных серверах, которые в первую очередь предпочитают использовать процессоры Intel, а AMD хоть и встречается, но пока достаточно редко.

А в целом платформы SuperMicro на базе AMD мы прекрасно используем в других проектах под задачи AI/ML/DL.

vkomen 25 окт 2023 в 09:36

Очень интересно! А реально АНГАРА настолько конкурентна как интерконнект? Они пишут о каких-то саморазработанных чипах по топологии 65нм, где их производят? Если это, конечно, не что-то перемаркированное...

alzotov 25 окт 2023 в 11:44

Что касается чипов, коммутаторов, карт и прикладного софта, то это все собственная разработка производителя. Насчет конкуренции с InfiniBand, в целом, это достойная замена FDR 56 Gb/s как по скорости, так и по задержкам. Ну и не забываем, что мы строили решение на базе отечественного оборудования, поэтому выбор был для нас очевиден.

PereslavlFoto 25 окт 2023 в 10:13

Будут ли фотографии этого суперкомпьютера доступны для свободного использования в других проектах по лицензиям Creative Commons?

alex50555 25 окт 2023 в 13:34

Это опечатка "Intel 3-го поколения"?

alzotov 25 окт 2023 в 14:38

Имеется в виду Intel Xeon Scalable Gen3

garwall 26 окт 2023 в 09:33

А что используется для управления кластером? xcat, Bright, что-то ещё?

alzotov 26 окт 2023 в 13:35

Обычно мы используем xCAT, и данный проект не исключение. В инсталляциях с Ubuntu берём MAAS. А в сравнительно небольших кейсах и Ansible вполне достаточно.

semendyaevanton 1 ноя 2023 в 05:06

интересно, но я бы вместо zvirt брест выбрал бы или vmmanager. все таки они безопаснее на мой взгляд и вендорская поддержка есть

alzotov 1 ноя 2023 в 15:12

Да, действительно, для решения задач виртуализации есть разные варианты. В целом, мы работаем практически со всеми вендорами на рынке (с тем же Брестом у нас есть проекты). И заказчикам мы внедряем решения, исходя из их запросов и планов развития.

В данном конкретном проекте в НГУ мы посчитали, что zVirt — это наиболее оптимальное решение с учетом всех обозначенных требований и целей. До этого мы этот продукт внедряли у достаточно большого числа своих заказчиков, поэтому для нас это решение проверенное, стабильное, весьма зрелое. И вендорская поддержка, к слову, тоже есть

Зарегистрируйтесь на Хабре, чтобы оставить комментарий