На облаке компании Amazon собрали суперкластер

    image
    В этот раз отличилась компания Cycle Computing.
    Специально для вычисления одного из заданий фармацевтической компании Genentech было создан вычислительный кластер из 10 тыс. ядер на сервисе Amazon Elastic Compute Cloud.
    На каждом из узлов кластера была установлена система CentOS. Для управления всей этой махиной использовалось программное обеспечение CycleCloud software, а также ПО Condor и Chef (open source)

    В процессе подсчета белковых связей на даном кластере компания Genentech понесла очень небольшие затраты.
    За восемь часов работы данного кластера она выплатила всего 8500 долларов (включены все выплаты Amazon и Cycle Computing).
    Немного технических характеристик полученного кластера:
    Быстродействие: ~66TFlops
    Оперативная память: 8,75 Тб
    Дисковое пространство: 2 Пт

    Кластер состоял из 1250 физических машин, в каждой использовалось 8 ядер.
    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 56

      +7
      Лично меня удивило то что такие длительные вычисления обошлись так дешево.
      Мне всегда казалось что создание подобных кластеров вещь намного более дорогостоящая.
        0
        получается примерно $1 в час с машины(8 ядер). Вполне ок. Месяц работы уже $720 стоит — время окупаемости у них получается совсем небольшое.
          0
          Да, при условии что все машины будут постоянно загружены 24/7, что требует наличия достаточного количества подобных заказов.
          + будут выделяться дни на обслуживание и ремонт машин, которое надо вычесть.
        +7
        Genentech benefited from the high number of cores because its calculations were «embarrassingly parallel,» with no communication between nodes, so performance stats «scaled linearly with the number of cores,» Corn said.

        Узлы не взаимодействовали, так что эту систему можно сравнить с настоящим кластером только с большой натяжкой. Стоимость быстрого интерконнекта может составлять до 50% стоимости кластера и это совсем не Ethernet.
          –1
          Вспомнил замечания одного из преподавателей что некоторые задачи связанные с расчетом подобных связей хорошо распараллеливаются.
            +7
            Я не знаю что именно они там из молекулярной динамики считали, но факт остаётся фактом: взаимодействия между узлами не было. Задача может хорошо распараллеливаться, но требовать взаимодействия между узлами. Так вот, если бы оно потребовалось, я сомневаюсь, что general purpose сетевая инфраструктура Amazon смогла бы обеспечить latency, необходимое для HPC. Именно поэтому я и говорю, что сравнение с настоящим кластером некорректно.

            Если им не нужно взаимодействие, они могли бы выполнить свои расчёты на открытом проекте BOINC, но только проблема в том, что входные данные задачи являются коммерческой тайной.
              +2
              между параллельными и распределенными вычислениями пропасть!

              они построили суперкластер, а не суперкомпьютер.
                0
                спасибо прислушался
                  0
                  Объясните свою точку зрения подробнее.
                    0
                    Имеется в виду что в супер-комьютерах используется архитектура shared-everything — т.е. все процессоры могут иметь read/write доступ к любой области памяти (оперативной и дисковой). То что было построено здесь — это по сути горизонтальный кластер построенный по архитектуре shared-nothing — т.е. у каждого из нодов своя оперативная и дисковая память. Такие кластеры могут использоваться только в тех случаях когда задача может быть разбита на несколько паралельных независимых подзадач. Называть это супер-компьютером действительно некорректно. Действительно просто большой кластер.

                    Сложность построения суперкомпьютеров как раз и заключается в организации одновременного сверх-быстрого обмена данными между оперативной памятью и всеми процессорами.
                      +1
                      Имеется в виду что в супер-комьютерах используется архитектура shared-everything — т.е. все процессоры могут иметь read/write доступ к любой области памяти (оперативной [...]

                      Не говорите ерунды про вычислительные кластеры. Подавляющее большинство кластеров имеет распределённую память (RAM) и один узел не может писать в память другого узла, а может только передавать сообщения через сеть (например, при помощи MPI).

                      Хотелось бы от вас услышать, в чём по-вашему заключается разница между кластером и суперкомпьютером.
                        –3
                        Сейчас капитан очевидность приведёт вам цитаты из википедии:
                        В настоящее время суперкомпьютерами принято называть компьютеры с огромной вычислительной мощностью («числодробилки» или «числогрызы»). Такие машины используются для работы с приложениями, требующими наиболее интенсивных вычислений (например, прогнозирование погодно-климатических условий, моделирование ядерных испытаний и т. п.), что в том числе отличает их от серверов и мэйнфреймов (англ. mainframe) — компьютеров с высокой общей производительностью, призванных решать типовые задачи (например, обслуживание больших баз данных или одновременная работа с множеством пользователей).

                        Иногда суперкомпьютеры используются для работы с одним-единственным приложением, использующим всю память и все процессоры системы; в других случаях они обеспечивают выполнение большого числа разнообразных приложений.

                        Взаимодействие через разделяемую память (например, в Java или C#). Данный вид параллельного программирования обычно требует какой-то формы захвата управления (мутексы, семафоры, мониторы) для координации потоков между собой.

                        Взаимодействие c помощью передачи сообщений (например, в Erlang или occam). Обмен сообщениями может происходить асинхронно, либо c использованием метода «рандеву», при котором отправитель блокирован до тех пор, пока его сообщение не будет доставлено. Асинхронная передача сообщений может быть надёжной либо ненадёжной.

                          0
                          Я это и так знаю, а вы не умеете читать то, на что отвечаете. В чём разница-то между кластером и суперкомпьютером?
                            –3
                            суперкомпьютер для журналистов — то, что попало в hpp://top500.org

                            для специалистов — это понятие требует кучи уточнений.

                            На мой взгляд, BlueGene — суперкомп в большей степени, чем суперкластеры вроде Ломоносова. Но в меньшей, чем реконфигурируемые FPGA-кластеры.
                              0
                              Третий раз посторяю: определение суперкластера в студию (желательно со ссылкой на научную статью). Вы выдумали термин, а теперь всем голову морочите. Между прочим, по запросу «супркластер» этот топик на первом месте.
                                0
                                вот теперь, Ваш «супркластер» действительно на первом месте яндекса :) yandex.ru/yandsearch?text=%D1%81%D1%83%D0%BF%D1%80%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80&lr=213

                                про суперкластер: не могу понять, толи вы троллите, толи у Вас аллергия на приставку «супер»

                                а что по Вашему, дает отдельная сеть для барьерной синхронизации и т.д.? разве нужна она амазону? а в суперкомпьютеры ставят. или по Вашему мнению она там ради увеличения стоимости стоит?
                                  0
                                  А вы не тем ищете, в google правильное написание было на первом месте ещё вчера:
                                  www.google.nl/search?q=%D1%81%D1%83%D0%BF%D0%B5%D1%80%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:en-US:official&client=firefox-a

                                  Про суперкластер: я считаю, что вы придумали этот термин. Давайте ссылки на научные статьи с определениями: суперкластер, кластер, суперкомпьютер и объясните, наконец, в чём же, по-вашему, разница.

                                  Отдельная сеть на основе, например, Infiniband, даёт маленький latency обмена сообщениями, чего не достичь при помощи Ethernet (я уже не говорю про bandwidth). Пример: часто в задаче требуется обмениваться сообщениями по принципу все-со-всеми после *каждой* вычислительной итерации, и на такой задаче этот «кластер» из топика даст не то что ускорение, а замедление вычислений по сравнению с последовательным вариантом.
                                    –1
                                    если Томас Стирлинг на этот вопрос отшучивается, а моя точка зрения вас не удовлетворяет, чего вы хотите?

                                    да блин! и астраномические суперкластеры тоже я придумал! и суперклей! платите мне за вывески «супермаркетов» и все будет супер!
                                      0
                                      А где ваша точка зрения? Где три определения (с объяснением различий), пусть даже вашего авторства? Невозможно вести сколько-нибудь серьёзный и конструктивный разговор если собеседник выдумывает термины (которым не даёт определения!) и считает это нормальным.
                                        0
                                        «На мой взгляд, BlueGene — суперкомп в большей степени, чем суперкластеры вроде Ломоносова. Но в меньшей, чем реконфигурируемые FPGA-кластеры.»

                                        разве этого неравенства не хватает?
                                        подсказка: посмотрите на топологии этих машин.
                                          0
                                          Извините, но у меня нет времени с вами играть в дедуктивный метод.
                                            0
                                            эх, а ведь одна из самых активных тем на всех суперкомпьютерных конференциях :) запишитесь, не пожалеете :)
                                              0
                                              Видимо вы на неправильные конференции ходите.
                                                0
                                                правильных не посоветуете?
                                                  0
                                                  Что-то та ПАВТ-2011 я не помню этой темы… не попал на какую-то презентацию?
                                                  Хотя вопрос, скорее, академический — все решают задачи, и суперкомпьютер это нечто, умеющее решать одну большую задачу и созданное для этого.
                                                    0
                                                    а в нелинейке почти холивар на этом же павте подняли… или мы на разных были?
                                                      0
                                                      Видимо, да, попали на разные ветки. Там ведь все распараллеливалось, название конференции обязывает.
                          0
                          а окна MPI-2.0?
                          идеалогия FEB? (Full/Empty Bit)

                          или кроме С/С++ вы ничего не признаете?
                            0
                            RMA всё равно реализуется как посылка сообщения по сети. Я отвечал на:
                            т.е. все процессоры могут иметь read/write доступ к любой области памяти


                            При чём тут моё отношение к C (о котором я не говорил даже) — не понятно.
                              0
                              высшие hdl языки. такие как COLAMO

                              да и не только hdl
                            0
                            >Подавляющее большинство кластеров имеет распределённую память (RAM) и один узел не может писать в память другого узла, а может только передавать сообщения через сеть (например, при помощи MPI).

                            При чем тут вычислительные кластеры к архитектуре shared-everything? Почитайте внимательнее еще раз что написано. Если по-прежнему непонятно — увы, ничем не смогу помочь.
                +1
                Не пишется, сколько бы потратила компания, если бы производила вычисления на своих, реальных машинах.
                  +2
                  1250 восьмиядерных серверов конечно дороже. Но если такие расчёты вести постоянно, то конечно своё или даже арендованные сервера целиком будет дешевле.
                  Допустим можно было взять в аренду на месяц три hi-end сервера — было бы в районе 500 евро потрачено, но считалось бы месяц.
                  –3
                  судя по колву машин, производительность порядка фейсбука…
                    +11
                    не пора ли пересмотреть время взлома паролей методом перебора?
                      0
                      Все равно выходит довольно дорого.
                        0
                        Не скажите. От пароля зависит, точнее от того к чему он.
                          +2
                          Для подбора WPA пасса недавно интересовался, вот что получается:

                          $0.08 с/h — ~275 k/s (Standard On-Demand Instances Small)
                          $0.34 с/h — ~700 k/s (Standard On-Demand Instances Large)
                          $0.68 с/h — ~1650 k/s (Standard On-Demand Instances Extra Large)
                          $0.02 с/h — ~20-400 k/s (Micro On-Demand Instances Micro)
                          $0.17 с/h — ~1100 k/s (High-CPU On-Demand Instances Medium)
                          $0.68 с/h — ~5200 k/s (High-CPU On-Demand Instances Extra Large)
                          $1.60 с/h — ~7200 k/s (Cluster Compute Instances Quadruple Extra Large)

                          с/h — cost per hour (стоимость инстанса в час), k/s — keys per second (кол-во пассов в секунду).

                          Если увеличивать количество инстансов, скорость подбора будет увеличиваться пропорционально но стоимость будет такая же.

                          Мне нужно было подобрать пасс к хешу 10 значного числа (я знал его зараннее), получилось бы около $300.
                            0
                            Для информации, на i7 (вроде 920) было 3000 k/s.
                      +2
                      66/1.5 = 44 GPU Geforce 580, по две в каждую машину, всего 22 компа. цена такого кластера будет ~ $50k — в 6 раз больше чем амазону отдали, зато навсегда.
                        +12
                        А также тысячи человеко-часов программирования и тестирования для переноса CPU кода на GPU — сколько это k$?

                          0
                          Смотря что нужно считать. Вся молекулярная динамика уже на GPU.
                          www.nvidia.ru/page/amber_on_tesla.html
                            –1
                            Когда закончите переписывать GROMACS на GPU — скажете.
                              0
                              Уже.
                              www.nvidia.ru/page/gromacs_on_tesla.html
                              (Перейдите уж по ссылке, там много чего есть)
                              Если интересна не только молекулярная динамика, то
                              www.nvidia.com/object/tesla_bio_workbench.html

                              Правда это тесла а не Geforce 580. На джифорсах я бы считать динамику не стал — когда вычисления занимают сутки, большая вероятность сбоя, видюхи на другие режимы и другое число ошибок рассчитаны.
                          +2
                          Не все так замечательно как об этом пишет NVIDIA. Во первых, только с одинарной точностью. Во вторых, это «теоретические» GFLOPS'ы которые считаются по хитрой формуле и явно далеки от реальных.
                            –2
                            а ключи компилятора на переход в двойную точность запретили набирать?
                              +1
                              А давно с помощью ключей компиляции мы научились менять архитектуру? Шейдерные процессоры спроэктированны для работы с числами одинарной точности и это заложено в их реализаци. С помощью ключей мы может дать понять компилятору, что нам нужна двойная точность, но выполняться это будет с помощью большего кол-ва операций и GFLOP's резко превратятся в MFLOP'sы.
                                0
                                у вас интернет под рукой, а вы чушь порите, не погуглив…

                                у видюх меряют две производительности: в двойной и одинарной точности. на gtx200 модулей двойной было в 8 раз меньше, начиная с Fermi поровну, что почти сравняло производительности в дабле и флоате.
                                  0
                                  у тесел дабл в 2 раза медленнее (у пользовательских в 8 раз)
                                    0
                                    прежде чем минусовать, посмотрите на название этих ключей. они МЕНЯЮТ архитектуру в ПРЯМОМ смысле!
                          +2
                          Amazon, а не Amazone, не позорьтесь.
                          И добавьте ссылку на оригинальную новость.
                            –7
                            Жесть, хочу.
                              +1
                              что же останавливает? :)
                              если есть задачи для таких мощностей и финансовые ресурсы, то проблем нет никаких.
                                +6
                                Он по ошибке запятую поставил.
                              –5
                              Интересно, хватит ли $10K, чтобы напрячь Амазон настолько, что мощностей станет не хватать для других важных клиентов? А $50K?
                                0
                                А какже Folding@home? Разве они тоже не подсчитывают белковые связи? Да и кластер у них по круче будет и по дешевле.

                                Only users with full accounts can post comments. Log in, please.