Klu4nik9 апр 2011 в 13:10

На облаке компании Amazon собрали суперкластер

1 мин

1.2K

Облачные вычисления *

+61

Комментарии 56

Klu4nik 9 апр 2011 в 13:11

Лично меня удивило то что такие длительные вычисления обошлись так дешево.
Мне всегда казалось что создание подобных кластеров вещь намного более дорогостоящая.

crea7or 9 апр 2011 в 13:21

получается примерно $1 в час с машины(8 ядер). Вполне ок. Месяц работы уже $720 стоит — время окупаемости у них получается совсем небольшое.

IlyaMS 9 апр 2011 в 15:35

Да, при условии что все машины будут постоянно загружены 24/7, что требует наличия достаточного количества подобных заказов.
+ будут выделяться дни на обслуживание и ремонт машин, которое надо вычесть.

gribozavr 9 апр 2011 в 13:19

Genentech benefited from the high number of cores because its calculations were «embarrassingly parallel,» with no communication between nodes, so performance stats «scaled linearly with the number of cores,» Corn said.

Узлы не взаимодействовали, так что эту систему можно сравнить с настоящим кластером только с большой натяжкой. Стоимость быстрого интерконнекта может составлять до 50% стоимости кластера и это совсем не Ethernet.

Klu4nik 9 апр 2011 в 13:26

Вспомнил замечания одного из преподавателей что некоторые задачи связанные с расчетом подобных связей хорошо распараллеливаются.

gribozavr 9 апр 2011 в 13:44

Я не знаю что именно они там из молекулярной динамики считали, но факт остаётся фактом: взаимодействия между узлами не было. Задача может хорошо распараллеливаться, но требовать взаимодействия между узлами. Так вот, если бы оно потребовалось, я сомневаюсь, что general purpose сетевая инфраструктура Amazon смогла бы обеспечить latency, необходимое для HPC. Именно поэтому я и говорю, что сравнение с настоящим кластером некорректно.

Если им не нужно взаимодействие, они могли бы выполнить свои расчёты на открытом проекте BOINC, но только проблема в том, что входные данные задачи являются коммерческой тайной.

Talismanium 9 апр 2011 в 14:00

между параллельными и распределенными вычислениями пропасть!

они построили суперкластер, а не суперкомпьютер.

Klu4nik 9 апр 2011 в 14:02

спасибо прислушался

gribozavr 9 апр 2011 в 14:04

Объясните свою точку зрения подробнее.

dgudkov 9 апр 2011 в 14:28

Имеется в виду что в супер-комьютерах используется архитектура shared-everything — т.е. все процессоры могут иметь read/write доступ к любой области памяти (оперативной и дисковой). То что было построено здесь — это по сути горизонтальный кластер построенный по архитектуре shared-nothing — т.е. у каждого из нодов своя оперативная и дисковая память. Такие кластеры могут использоваться только в тех случаях когда задача может быть разбита на несколько паралельных независимых подзадач. Называть это супер-компьютером действительно некорректно. Действительно просто большой кластер.

Сложность построения суперкомпьютеров как раз и заключается в организации одновременного сверх-быстрого обмена данными между оперативной памятью и всеми процессорами.

gribozavr 9 апр 2011 в 14:42

Имеется в виду что в супер-комьютерах используется архитектура shared-everything — т.е. все процессоры могут иметь read/write доступ к любой области памяти (оперативной [...]

Не говорите ерунды про вычислительные кластеры. Подавляющее большинство кластеров имеет распределённую память (RAM) и один узел не может писать в память другого узла, а может только передавать сообщения через сеть (например, при помощи MPI).

Хотелось бы от вас услышать, в чём по-вашему заключается разница между кластером и суперкомпьютером.

max7 9 апр 2011 в 15:31

Сейчас капитан очевидность приведёт вам цитаты из википедии:

В настоящее время суперкомпьютерами принято называть компьютеры с огромной вычислительной мощностью («числодробилки» или «числогрызы»). Такие машины используются для работы с приложениями, требующими наиболее интенсивных вычислений (например, прогнозирование погодно-климатических условий, моделирование ядерных испытаний и т. п.), что в том числе отличает их от серверов и мэйнфреймов (англ. mainframe) — компьютеров с высокой общей производительностью, призванных решать типовые задачи (например, обслуживание больших баз данных или одновременная работа с множеством пользователей).

Иногда суперкомпьютеры используются для работы с одним-единственным приложением, использующим всю память и все процессоры системы; в других случаях они обеспечивают выполнение большого числа разнообразных приложений.

Взаимодействие через разделяемую память (например, в Java или C#). Данный вид параллельного программирования обычно требует какой-то формы захвата управления (мутексы, семафоры, мониторы) для координации потоков между собой.

Взаимодействие c помощью передачи сообщений (например, в Erlang или occam). Обмен сообщениями может происходить асинхронно, либо c использованием метода «рандеву», при котором отправитель блокирован до тех пор, пока его сообщение не будет доставлено. Асинхронная передача сообщений может быть надёжной либо ненадёжной.

gribozavr 9 апр 2011 в 15:34

Я это и так знаю, а вы не умеете читать то, на что отвечаете. В чём разница-то между кластером и суперкомпьютером?

Talismanium 9 апр 2011 в 16:20

суперкомпьютер для журналистов — то, что попало в hpp://top500.org

для специалистов — это понятие требует кучи уточнений.

На мой взгляд, BlueGene — суперкомп в большей степени, чем суперкластеры вроде Ломоносова. Но в меньшей, чем реконфигурируемые FPGA-кластеры.

gribozavr 9 апр 2011 в 16:30

Третий раз посторяю: определение суперкластера в студию (желательно со ссылкой на научную статью). Вы выдумали термин, а теперь всем голову морочите. Между прочим, по запросу «супркластер» этот топик на первом месте.

Talismanium 10 апр 2011 в 10:16

вот теперь, Ваш «супркластер» действительно на первом месте яндекса :) yandex.ru/yandsearch?text=%D1%81%D1%83%D0%BF%D1%80%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80&lr=213

про суперкластер: не могу понять, толи вы троллите, толи у Вас аллергия на приставку «супер»

а что по Вашему, дает отдельная сеть для барьерной синхронизации и т.д.? разве нужна она амазону? а в суперкомпьютеры ставят. или по Вашему мнению она там ради увеличения стоимости стоит?

gribozavr 10 апр 2011 в 11:47

А вы не тем ищете, в google правильное написание было на первом месте ещё вчера:
www.google.nl/search?q=%D1%81%D1%83%D0%BF%D0%B5%D1%80%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:en-US:official&client=firefox-a

Про суперкластер: я считаю, что вы придумали этот термин. Давайте ссылки на научные статьи с определениями: суперкластер, кластер, суперкомпьютер и объясните, наконец, в чём же, по-вашему, разница.

Отдельная сеть на основе, например, Infiniband, даёт маленький latency обмена сообщениями, чего не достичь при помощи Ethernet (я уже не говорю про bandwidth). Пример: часто в задаче требуется обмениваться сообщениями по принципу все-со-всеми после *каждой* вычислительной итерации, и на такой задаче этот «кластер» из топика даст не то что ускорение, а замедление вычислений по сравнению с последовательным вариантом.

Talismanium 10 апр 2011 в 17:22

если Томас Стирлинг на этот вопрос отшучивается, а моя точка зрения вас не удовлетворяет, чего вы хотите?

да блин! и астраномические суперкластеры тоже я придумал! и суперклей! платите мне за вывески «супермаркетов» и все будет супер!

gribozavr 10 апр 2011 в 17:29

А где ваша точка зрения? Где три определения (с объяснением различий), пусть даже вашего авторства? Невозможно вести сколько-нибудь серьёзный и конструктивный разговор если собеседник выдумывает термины (которым не даёт определения!) и считает это нормальным.

Talismanium 10 апр 2011 в 17:58

«На мой взгляд, BlueGene — суперкомп в большей степени, чем суперкластеры вроде Ломоносова. Но в меньшей, чем реконфигурируемые FPGA-кластеры.»

разве этого неравенства не хватает?
подсказка: посмотрите на топологии этих машин.

gribozavr 10 апр 2011 в 18:09

Извините, но у меня нет времени с вами играть в дедуктивный метод.

Talismanium 10 апр 2011 в 19:58

эх, а ведь одна из самых активных тем на всех суперкомпьютерных конференциях :) запишитесь, не пожалеете :)

gribozavr 10 апр 2011 в 20:06

Видимо вы на неправильные конференции ходите.

Talismanium 10 апр 2011 в 21:17

правильных не посоветуете?

keleg 11 апр 2011 в 02:56

Что-то та ПАВТ-2011 я не помню этой темы… не попал на какую-то презентацию?
Хотя вопрос, скорее, академический — все решают задачи, и суперкомпьютер это нечто, умеющее решать одну большую задачу и созданное для этого.

Talismanium 11 апр 2011 в 04:17

а в нелинейке почти холивар на этом же павте подняли… или мы на разных были?

keleg 11 апр 2011 в 08:30

Видимо, да, попали на разные ветки. Там ведь все распараллеливалось, название конференции обязывает.

Talismanium 9 апр 2011 в 16:21

а окна MPI-2.0?
идеалогия FEB? (Full/Empty Bit)

или кроме С/С++ вы ничего не признаете?

gribozavr 9 апр 2011 в 16:42

RMA всё равно реализуется как посылка сообщения по сети. Я отвечал на:

т.е. все процессоры могут иметь read/write доступ к любой области памяти

При чём тут моё отношение к C (о котором я не говорил даже) — не понятно.

Talismanium 9 апр 2011 в 17:16

высшие hdl языки. такие как COLAMO

да и не только hdl

dgudkov 10 апр 2011 в 09:14

>Подавляющее большинство кластеров имеет распределённую память (RAM) и один узел не может писать в память другого узла, а может только передавать сообщения через сеть (например, при помощи MPI).

При чем тут вычислительные кластеры к архитектуре shared-everything? Почитайте внимательнее еще раз что написано. Если по-прежнему непонятно — увы, ничем не смогу помочь.

kitaisc 9 апр 2011 в 13:30

Не пишется, сколько бы потратила компания, если бы производила вычисления на своих, реальных машинах.

crea7or 9 апр 2011 в 13:38

1250 восьмиядерных серверов конечно дороже. Но если такие расчёты вести постоянно, то конечно своё или даже арендованные сервера целиком будет дешевле.
Допустим можно было взять в аренду на месяц три hi-end сервера — было бы в районе 500 евро потрачено, но считалось бы месяц.

НЛО прилетело и опубликовало эту надпись здесь

bstnd 9 апр 2011 в 14:05

не пора ли пересмотреть время взлома паролей методом перебора?

Bright 9 апр 2011 в 16:44

Все равно выходит довольно дорого.

pietrovich 9 апр 2011 в 17:33

Не скажите. От пароля зависит, точнее от того к чему он.

russum 9 апр 2011 в 18:22

Для подбора WPA пасса недавно интересовался, вот что получается:

$0.08 с/h — ~275 k/s (Standard On-Demand Instances Small)
$0.34 с/h — ~700 k/s (Standard On-Demand Instances Large)
$0.68 с/h — ~1650 k/s (Standard On-Demand Instances Extra Large)
$0.02 с/h — ~20-400 k/s (Micro On-Demand Instances Micro)
$0.17 с/h — ~1100 k/s (High-CPU On-Demand Instances Medium)
$0.68 с/h — ~5200 k/s (High-CPU On-Demand Instances Extra Large)
$1.60 с/h — ~7200 k/s (Cluster Compute Instances Quadruple Extra Large)

с/h — cost per hour (стоимость инстанса в час), k/s — keys per second (кол-во пассов в секунду).

Если увеличивать количество инстансов, скорость подбора будет увеличиваться пропорционально но стоимость будет такая же.

Мне нужно было подобрать пасс к хешу 10 значного числа (я знал его зараннее), получилось бы около $300.

russum 10 апр 2011 в 07:43

Для информации, на i7 (вроде 920) было 3000 k/s.

iSlava 9 апр 2011 в 14:07

66/1.5 = 44 GPU Geforce 580, по две в каждую машину, всего 22 компа. цена такого кластера будет ~ $50k — в 6 раз больше чем амазону отдали, зато навсегда.

gribozavr 9 апр 2011 в 14:09

А также тысячи человеко-часов программирования и тестирования для переноса CPU кода на GPU — сколько это k$?

keleg 10 апр 2011 в 12:37

Смотря что нужно считать. Вся молекулярная динамика уже на GPU.
www.nvidia.ru/page/amber_on_tesla.html

gribozavr 10 апр 2011 в 12:56

Когда закончите переписывать GROMACS на GPU — скажете.

keleg 10 апр 2011 в 13:09

Уже.
www.nvidia.ru/page/gromacs_on_tesla.html
(Перейдите уж по ссылке, там много чего есть)
Если интересна не только молекулярная динамика, то
www.nvidia.com/object/tesla_bio_workbench.html

Правда это тесла а не Geforce 580. На джифорсах я бы считать динамику не стал — когда вычисления занимают сутки, большая вероятность сбоя, видюхи на другие режимы и другое число ошибок рассчитаны.

AFC 9 апр 2011 в 14:40

Не все так замечательно как об этом пишет NVIDIA. Во первых, только с одинарной точностью. Во вторых, это «теоретические» GFLOPS'ы которые считаются по хитрой формуле и явно далеки от реальных.

Talismanium 9 апр 2011 в 16:24

а ключи компилятора на переход в двойную точность запретили набирать?

AFC 9 апр 2011 в 17:09

А давно с помощью ключей компиляции мы научились менять архитектуру? Шейдерные процессоры спроэктированны для работы с числами одинарной точности и это заложено в их реализаци. С помощью ключей мы может дать понять компилятору, что нам нужна двойная точность, но выполняться это будет с помощью большего кол-ва операций и GFLOP's резко превратятся в MFLOP'sы.

Talismanium 9 апр 2011 в 17:20

у вас интернет под рукой, а вы чушь порите, не погуглив…

у видюх меряют две производительности: в двойной и одинарной точности. на gtx200 модулей двойной было в 8 раз меньше, начиная с Fermi поровну, что почти сравняло производительности в дабле и флоате.