Pull to refresh

Comments 19

Добрый день!
А подскажите, насколько типовые нагрузки на такой кластер зависят от пропускной способности интерконнекта? То есть обычная 10г сеть выглядит гораздо проще в администрировании и наверное сильно дешевле.
обратил внимание что если вычислительное ядро всего из 7 серверов то и сетевого взаимодействия между ними будет не много.

С Ethernet проще конечно но задержки другие и они не детерминированы.

Добрый день! Да, можно строить интерконнект и на базе классического Ethernet, но все же в специализированных решениях для HPC скорость и задержки стоят на первом месте. У нас каналы утилизируются практически полностью - примерно 6 Гбайт/сек, при этом задержки ниже на порядок, в сравнении с обычными 10G коммутаторами, и составили у нас порядка 1 мкс. Также не забываем про то, что мы строили систему с заделом на дальнейшее масштабирование. И с Ангарой это сделать значительно проще в плане сохранения низких задержек в сети.

Доброе утро! Глянул на характеристики машин, и возник вопрос, а почему-бы не собрать 2 сервера? Как я вижу для цпу производительности подойдет условный EPYC на SP3 сокете в количестве 2 штук по 64 ядра(256 потоков на сервер). Мне кажется что он будет, как минимум, не медленнее массива из семи 56(2х28) ядерных серверов из-за отсутствия межсерверных задержек. Да и 2 ТБ памяти эпики давно могут переварить
Насчет "нейросетевой" производительности еще легче, в SuperMicro SYS-420GP-TNR можно уместить 10 видеокарт.
Если это проба пера или сборка суперкомпьютера с целью опробывать свои силы для будущих крупных проектов, то тогда понятно. Но если это реальный проект под реальные задачи, у меня возникают некоторые вопросы

И вообще есть уже и 128 ядер на кристалл. И платформы с 2 CPU.
И влияние (и, соответственно, требования) интерконнекта значительно снизится.
Но это уже будет не суперкомпьютер, а суперсервер.

Автор, расскажите пожалуйста про ТЗ? Не воду про задачи, решаемые при помощи, а именно какая задача была поставлена перед К2 и исходя из каких критериев вы выбрали оборудование?
А то

задержка на передачу сообщений между двумя соседними узлами на сети «Ангара» ощутимо меньше

звучит как то странно, при пиковой разнице в пол микросекунды. Не мили а микро.
Из каких соображений был сделан выбор в пользу:

392 процессорных ядра, установленных в 7 высокопроизводительных серверах; в качестве CPU используется Intel 3-го поколения с 28 ядрами и 256 ГБ RAM; в качестве GPU — NVIDIA A100 80G;

?
Правда - очень интересно.
Заранее спасибо!

Добрый день! Я в целом уже ответил в комментариях, задача стояла собрать решение полностью из отечественных компонентов: это касается как серверов, так и интерконнекта.

И хотел бы дополнить, что даже 0.5 мкс разницы в задержке на передачу сообщений в нашем случае - это целых 50% выигрыша в сравнении с InfiniBand.

А подскажите кто производитель процессора и озу ?

Я не автор, но несколько подобных систем собирал.

По всей видимости, на данном кластере будут проводиться инженерные вычислления, тесты в FlowVision (CFD-решатель) на это намекают, а большинство подобных вычислительных продуктов писались в большей степени с использованием математических библиотек Intel. Даже всемирноизвестный Ansys начал адаптировать свой код под камни AMD сравнительно недавно (2-3 года назад вышла первая адаптированная версия). Однако, заокеанские "друзья" добились огромного прогресса в этом направлении и для CFD-вычислений процессоры AMD сейчас приоритетны. Не смогу точно сказать на сколько будет отличаться производительность FlowVision на ядрах различных вендоров.

Также стоит отметить, что любое подобное инденерное ПО предпочитает только физические ядра, поэтому HT и SMT не используется ни в одном HPC.

Спасибо вам за комментарий! Тут я полностью согласен, даже немного раскрыл и дополнил идеи в предыдущих комментариях.

Для использования AMD-платформы необходимо адаптировать расчетный софт, ориентированный в первую очередь на Intel. Hyper Threading тоже нужно отключать, так как он неприемлем в классических HPC.

Также хотел бы дополнить, что мы строили решение на отечественных серверах, которые в первую очередь предпочитают использовать процессоры Intel, а AMD хоть и встречается, но пока достаточно редко.

А в целом платформы SuperMicro на базе AMD мы прекрасно используем в других проектах под задачи AI/ML/DL.

Очень интересно! А реально АНГАРА настолько конкурентна как интерконнект? Они пишут о каких-то саморазработанных чипах по топологии 65нм, где их производят? Если это, конечно, не что-то перемаркированное...

Что касается чипов, коммутаторов, карт и прикладного софта, то это все собственная разработка производителя. Насчет конкуренции с InfiniBand, в целом, это достойная замена FDR 56 Gb/s как по скорости, так и по задержкам. Ну и не забываем, что мы строили решение на базе отечественного оборудования, поэтому выбор был для нас очевиден.

Будут ли фотографии этого суперкомпьютера доступны для свободного использования в других проектах по лицензиям Creative Commons?

Имеется в виду Intel Xeon Scalable Gen3

А что используется для управления кластером? xcat, Bright, что-то ещё?

Обычно мы используем xCAT, и данный проект не исключение. В инсталляциях с Ubuntu берём MAAS. А в сравнительно небольших кейсах и Ansible вполне достаточно.

интересно, но я бы вместо zvirt брест выбрал бы или vmmanager. все таки они безопаснее на мой взгляд и вендорская поддержка есть

Да, действительно, для решения задач виртуализации есть разные варианты. В целом, мы работаем практически со всеми вендорами на рынке (с тем же Брестом у нас есть проекты). И заказчикам мы внедряем решения, исходя из их запросов и планов развития.

В данном конкретном проекте в НГУ мы посчитали, что zVirt — это наиболее оптимальное решение с учетом всех обозначенных требований и целей. До этого мы этот продукт внедряли у достаточно большого числа своих заказчиков, поэтому для нас это решение проверенное, стабильное, весьма зрелое. И вендорская поддержка, к слову, тоже есть

Sign up to leave a comment.