Comments / Profile of HPCHub / Habr

Vilgelm Bitner @HPCHub

HPC in the Cloud

Производительность сети малой латентности InfiniBand на виртуальном кластере HPC HUB

HPCHub Jan 30 2017 at 04:13

Для задач HPC важна сеть малой латентности. Есть несколько таких сетей. Infiniband традиционно используется в HPC, когда используется оборудование разных вендоров. Infiniband поддерживает SR-IOV и есть открытые драйвера для Linux. Опять же есть некоторый опыт в мире по виртуализации Infiniband.

Look

Производительность сети малой латентности InfiniBand на виртуальном кластере HPC HUB

HPCHub Jan 25 2017 at 06:40

но 2 нода на 40 коров это не показатель

С чего-то надо начинать. Сейчас подобные тесты пока не выходят за пределы 4-8 узлов.

да и MPI ведёт себя довольно не предсказуемо в разных версиях и сборках

В статье есть подробная информация о версиях использованного софта. Опять же можно попробовать самому.

не было так же упомянуто про роль производительного shared storage( e.g lustre) что не маловажно, ну когда нодов более 2х во многооо раз конечно)

Мы не используем Lustre, мы используем gfs2 и ранее об этом писали в своих статьях. К тому же у нас неблокирующий свитч, и вроде как роутинг с round-robin. Поэтому есть основания ожидать, что IB будет вести себя прилично при масштабировании.

виртуализация в любом её виде плохо влияет на производительность подобныих вычислений

Вопрос на сколько плохо. В конце концов и сеть малой латентности «плохо влияет» по сравнению с большой SMP машиной. А еще лучше вообще однопроцессорная одноядерная машина с очень быстрой памятью и периферией, вообще без ОС, а только с кодом расчета и минимально-необходимой поддержкой I/O. Но почему-то так никто не делает.

Look

Производительность сети малой латентности InfiniBand на виртуальном кластере HPC HUB

HPCHub Jan 25 2017 at 06:06

спасибо за Ваше замечание.
да, Вы правы. Infiniband разрабатывался IBTA. То, что в Интел были разработаны и реализованы первые чипы Infiniband, а также устройства на их основе, безусловно не дает права цеплять приставку Intel к бренду Infiniband.

Look

Создание разделяемого хранилища на базе CEPH RBD и GFS2

HPCHub Oct 15 2016 at 08:34

Основная проблема, как нам видится в том, что пространство пользовательских ID для независимых кластеров пересекаются. В результате сложно разграничить доступ. Плюс также проблемы с кооперативными квотами для разных кластеров.

Look

Создание разделяемого хранилища на базе CEPH RBD и GFS2

HPCHub Oct 15 2016 at 08:33

Неудобно, медленно. К тому же пространство пользовательских ID для независимых кластеров пересекаются, сложно доступ разграничить. Плюс кооперативные квоты.

Look

Виртуальный суперкомпьютер по требованию

HPCHub Oct 3 2016 at 15:52

У нас есть узлы с Intel Xeon Phi 7120P, но они пока предоставляются как bare-metal инфраструктура.

В зависимости от спроса на такие узлы готовы рассмотреть вариант интеграции их в общую облачную инфраструктуру со всеми фичами (on-demand, pay-per-use, snapshotting, etc.).

Касательно проприетарного софта. Мы стараемся это делегировать клиенту. Он сам устанавливает и заботится о лицензиях. Мы можем сохранить настроенное клиентское окружение, чтобы в следующий раз клиент не тратил на это время.

Мы ведём переговоры с рядом вендоров коммерческого кластерного ПО и планируем предоставлять шаблоны vSC заранее + гибкую аренду лицензий.

Look

Виртуальный суперкомпьютер по требованию

HPCHub Oct 3 2016 at 15:24

Скорее всего есть небольшое недопонимание.
Наша цель — предоставлять как можно гибко суперкомпьютерные мощности. Желательно столь же гибко как оно бывает с VPS/VDS.

На данный момент мы нащупываем ту модель коммерциализации, которая была бы интересна нашим потенциальным клиентам.

На данный момент оно работает так.
Клиент:

регистрируется в контрольной панели и закидывает на лицевой счет деньги
заказывает подписку (сторадж, vSC). во время заказа подписки указывает нужное количество выч. мощностей
подписка активируется и начинает щелкать время (минимальный квант пока — 1 сутки). округление идет до минимального кванта
списание денег с лицевого счета происходит каждый день пока активны подписки на выч. мощности

Правильно ли я понял вопрос?
Такой подход на Ваш взгляд удобный?

Look

Виртуальный суперкомпьютер по требованию

HPCHub Oct 3 2016 at 14:33

Да. Планируем.
В будущем будет Tesla K80.
Cейчас в частном порядке можем дать 1-2 Tesla K5000.

Look

Виртуальный суперкомпьютер по требованию

HPCHub Sep 30 2016 at 12:58

Нет, NFS мы не используем, т.к. сторажд на счетном кластере на NFS работает медленно и может привести к непредсказуемым проблемам. Мы отдаем Ceph rbd кластеру как shared диск. Почему был выбран такой вариант конфигурации мы расскажем в будущей статье.

Look

Виртуальный суперкомпьютер по требованию

HPCHub Sep 30 2016 at 12:53

Чтобы приложение параллельно считалось на нескольких узлах, его надо распараллелить (переписать приложение). Но можно на кластере одновременно запустить несколько независимых задач на разных узлах “в параллель”, хотя для этого Infiniband не особо нужен. Таким образом можно посчитать, скажем, восемь задач за одну неделю, а не за восемь.

Look

Виртуальный суперкомпьютер по требованию

HPCHub Sep 30 2016 at 12:35

про джаву — надо параллелить, но можно на кластере одновременно пускать несколько задач на разных узлах “в параллель”, хотя для этого Infiniband не особо нужен.

Look

Виртуальный суперкомпьютер по требованию

HPCHub Sep 30 2016 at 12:14

спотовый тариф — это если у нас есть свободные мощности, то клиент их получает по бросовой цене, но с условием, что мы можем их забрать в любой момент без предупреждения и гарантий сохранения счета и настроенного окружения.

но в нашем случае мы конечно же скажем заранее, что планируем забрать.

Look

Виртуальный суперкомпьютер по требованию

HPCHub Sep 30 2016 at 11:48

При определённом объеме и длительности цена будет такой.

Если же речь идет, чтобы взять только на 1 сутки, то цена будет выше примерно в два раза.

Либо это будет спотовый тариф как на амазоне.

Но т.к. у нас сейчас открытая бета, мы довольно гибко откликаемся на запросы.

Look