То есть в суперкомпьютерах передача данных «транзитом» между несвязанными напрямую нодами почти не происходит?
Ох… Я думал, Вы в курсе. Дело в том, что если этот суперкомпьютер полностью не ваш, вы не угадаете, какая задача попала на какую ноду. Так, например, если две задачи считают соседние области, совершенно не факт, что они попадут на соседние ноды. Даже, скорее всего, не попадут, по теории вероятности. В IBM Blue Gene еще можно как-то управлять включением аппаратных ресурсов для своей задачи в пул, хотя и немаленький, но, например, на Ломоносове точно нельзя. Скорее всего, на той машине, на которой Вы сейчас считаете, программный пакет (точнее, не он сам, а планировщик задач) тоже раскидывает процессы по нодам во всей системе как попало — но лучше спросить у знающих людей. Там же ноды в разных задачах с разным количеством задействованных нод берутся и освобождаются планировщиком, а куда он положит ваши процессы — никому не известно, на первые попавшиеся свободные. Может вполне класть на максимально удаленные, в смысле количества хопов. Посмотрите профиль выполнения, там много интересного.
Но даже если бы можно было сделать так — что очень сложно — как будете разбивать алгоритм, чтобы соседние обсчеты ложились на соседние ноды? Тогда нужно, чтобы ваша большая задача была кратна количеству нод, причем даже это вас не спасет — ноды имеют привычку часто сгорать и быть вынутыми из шкафа, и планировщик отдаст на замену ноду через 6 коммутаторов — и вся ваша программа, идеально сбалансированная по итерациям на разных нодах, будет каждый раз стоять и ждать эти 6 хопов для одного процесса в каждом цикле обмена. А как иначе?
Максимальное число нод в кластере, на сколько я понимаю, ограниченно именно тем, сколько хопов данные вынуждены совершать для того, что бы связать самые дальние ноды.
Теоретически — да. Практически — никогда. Число нод тупо ограничено их стоимостью и стоимостью коммутаторов. Выбить лишнюю пару сотен миллионов долларов из государства совсем не так просто, как кажется. В Штатах, что бы не вопили наши и их политики про технологическое отставание и печатный станок, денег на суперкомпьютеры сейчас банально нет. В том числе — и на те, что в Лос-Аламосе. Ломоносов-2 — две стойки, а их может быть до 64. Поэтому в коммутаторах практически всегда остается очень большой задел на будущее.
Ну тут даже бесконечно быстрый интерконнект не поможет, при чём тут суперкомпьютеры? Мы же говорим об ограничения распространения трафика между нодами, этот трафик параллельный.
Что значит параллельный? Это между нодами на одном коммутаторе он параллельный, но, как я писал выше, это бывает крайне редко. А коммутаторы верхних уровней с неблокирующим fat tree стоят столько, что исчезает всякое желание их покупать, да их и нет почти, всегда присутствует куча неприятных ограничений.
А почему время передачи — последовательная часть? Ноды же связываются между собой независимо. Как передача от ноды A к B затрагивает ноду C?
Если A и B висят на одном коммутаторе первого уровня — то никак. Но так бывает редко. А если как всегда, что описано выше — то затрагивает и С, и кучу других. А те, в свою очередь, затрагивают ноды A и B при своих обменах. Нет неблокирующих коммутаторов более чем второго уровня.
Ну и вообще-то, буфер передачи хранится в памяти, а шина у памяти одна. Эта шина может быть занята в один момент времени чем-то одним — либо обсчетом задачи, либо DMA контроллером, который берет из памяти данные и отсылает их в канал. Поэтому — последовательно еще и в этом смысле.
Нет лучшего интерконнекта, чем шина внутри ноды.
Имеется в виду межпроцессорная шина QPI? Увы, это получается мини-SMP система с кучей присущих ей очевидных недостатков. Из неочевидных — стоимость такой ноды космическая, а надежность — совсем наоборот, из-за чего стоимость склада запчастей становится неприличной.
Если интерконнект отстаёт, какой смысл наращивать число нод? Зачем брать самое дорогое оборудование для стоек?
Понимаете, тут хитро… С одной стороны, вроде бы незачем. С другой — 95% задач используют до 64 процессоров, а там уже совсем другая степень связности, параллельная часть резко увеличивается в процентном соотношении. Но надо ж похвастаться. Зачем Штатам столько авианосцев? Это оттуда же.
Sunway TaihuLight — US$273 million — LINPACK 93 petaflops. До экзафлопса, конечно, далеко, но подешевле секвойи.
Секвойя может честно работать как единый суперкомпьютер. TaihuLight — нет. По крайней мере, раньше не мог, не знаю, как сейчас. И я не уверен, что TaihuLight стоил именно $273M, а не больше. По крайней мере, его предшественник Tianhe-2 с 34ТФлопс стоил $390М, а чудес не бывает. В первую очередь, конечно, приходят в голову мысли о более чем в разы дешевом процессоре, точнее, GPU, но опять же, не верю я что-то в чудеса.
Но остаётся вопрос: кому эти СК нужны? Зачем город городить? Чисто ради PR? Чтобы потом этот суперкомпьютер загружался на 4%, как в видео, которое вы привели?
Не забывайте про небольшие задачи. Суперкомпьютеры сейчас перегружены, хоть и небольшими задачами. Да, есть оверхед за масштаб — дорогие коммутаторы и крайне усложненное управление — но это и есть цена PR.
Да и большие задачки, в общем, считаются — просто их надо готовить тщательнее, писать не только саму задачу, но и алгоритмы для планировщика, делать тестовые прогоны перед запуском всей задачи. У Воеводина все-таки описан случай, когда при запуске написал p=1024 и больше никакой подготовки, а это далеко не всегда так, уж если получил на несколько дней в полное распоряжение железяку стоимостью в пару сотен миллионов долларов, то обычно к такому событию долго готовятся, еще раз оно случится очень не скоро.
Я тоже работал только с гражданскими суперкомпами :) Открою секрет Полишинеля — TaihuLight с трудом прошел тесты и больше целиком ни разу не использовался. Ключевое слово тут — целиком. Надежность — бич современных супер-ЭВМ.
Надо будет выложить куда-нибудь одну из презенташек с докладов в МГУ на Летней Компьютерной Школе. В ней докладчики оптимистично предполагают, что стоящие сейчас задачи по CFD можно будет обсчитать лишь в 70-80-х годах нашего века. Зачастую построить модель в натуральную величину и ее обдуть, считав показания датчиков, получается сейчас сильно дешевле, чем считать на суперкомпьютере — а при грубой сетке считать нет смысла вообще. Другое дело, что там, в общем, задачи, действительно ближе к майнингу, чем к суперкомпьютингу, но банально нужно очень много машинного времени.
Да, с разумной точки зрения построить 10 маленьких машин куда лучше, чем одну большую. Я уж не говорю про управление. Только не забывайте, что когда мы говорим про экзафлопс, «маленькая» — это TaihuLight :)
Решения по выносу контроля четности и прочего вовне ноды опять означают дорогущий интерконнект, причем работающий постоянно и на всю катушку, и с такой пропускной способностью, которой сейчас просто нет — иначе опять тормоза. Не вариант. И потом, проблема надежности не в сбоях памяти — она как раз решаема через ECC, а в том, что нода горит, иногда — в буквальном смысле.
Решением сейчас является небольшой SSD диск внутри ноды, на который пишутся контрольные точки. Но это не решение проблемы надежности, это спасение уже просчитанных нодой данных, чтобы остальные не ждали пересчета, в течение которого сломается еще одна нода из остальных.
Не всё так просто, потому что связность в кластере не «все-со-всеми», а «кольцо» или «тор», следовательно эффективная пропускная способность сети падает при увеличении числа нод из-за роста транзитного трафика, даже если сам интерконнект тот же самый. Следовательно, если уменьшить число нод, сделать их более мощными, то даже без замены интерконнекта производительность кластера увеличится, хоть и не линейно.
Сейчас мы уйдем в такие дебри с топологиями, что из этого не выпутаемся. Давайте все же вернемся к исходной точке, при прочих равных. Вне зависимости от топологии, хоть на пятимерном торе, хоть на fat tree, коммутаторы будут забиты трафиком, и чем выше по иерархии, тем сильнее. И чем быстрее будет интерконнект, тем быстрее эти заторы протолкнутся. С этим спорить не будете? Понятно, что на сценарии «все-со-всеми» интерконнект просто упадет и все, тут без вариантов. Выбранная топология может быть оптимально использована, скорее, конкретным алгоритмом конкретной задачи — но мы-то не про конкретную задачу, а про ТОР500, где все меряется под одну гребенку. Суперкомпьютер — это большое количество сильносвязанных задач, иначе речь идет о майнинг-фермах, датацентрах Амазон или там PRISM. Это другая область, совсем. Есть книжка, написанная инженерами Гугловских датацентров — The Datacenter as a Computer, и там, в главе 1.6.2 NETWORKING FABRIC примерно описана Ваша точка зрения. Но в суперкомпьютере все ни разу не так.
Естественно, увеличение тактовой/числа ядер/кэша влияет на производительность, но к уменьшению количества передаваемых данных не имеет никакого отношения. А это значит, что последовательная часть остается прежней, и по закону Амдала мы получим очень небольшое увеличение общей производительности при кратном росте тактовой, кэша, числа ядер на отдельной ноде. Даже перенос памяти в один корпус с процессором (Knights Landing) этой проблемы практически не решают. Ускоряющий эффект может дать увеличение объема памяти на ноде (чтобы минимизировать latency за счет одной большой передачи вместо нескольких небольших), но опять же, не очень большой. Хочется получить больше — надо уменьшать последовательную часть, т.е. время передачи, применяя более быстрый интерконнект.
Посмотрите страницу 6 вот здесь. Ethernet выше 150-й строчки в TOP500 не поднимается, что косвенно говорит о важности интерконнекта вообще и latency в частности.
Разумеется, скорость интерконнекта должна быть сбалансирована с производительностью процессора — но процессоры и GPU ушли уже давно в такой отрыв, что догнать их интерконнекту — не дело ближайшего будущего.
существуют почти на порядок более дешевые суперкомпьютеры
Нет. Я-то как раз в курсе, поскольку суперкомпы разрабатывал. Очень мало возможностей снизить себестоимость стойки. Стоимость суперкомпьютера — объективна, поскольку используются топовые электронные компоненты, спрос на которые превышает предложение. В этих условиях нет особой нужды продавать дешевле, производители чипов снимают сливки — через пару лет те же компоненты будут стоить вполовину дешевле, но если их купить через пару лет, это означает отставание в вечной гонке. Поэтому берут по любой цене. Остальные компоненты стоят копейки, их стоимость оптимизируют, конечно, но больше чем на 5-10% стоимость суперкомпьютерной стойки снизить нельзя.
Использование китайцами китайских же чипов, возможно, снизит стоимость, но я бы не сказал, чтобы больше чем в пару-тройку раз — топовые чипы означают большой процент брака на пластине, а себестоимость пластины фиксирована и везде более-менее одинакова. $300М за экзафлопсную машину и близко нет. Через десяток лет — возможно, но точно не сейчас.
Извините за излишние эмоции. Наверное, лучше будет объяснить проще и по-другому.
Производительность суперкомпьютера — на решении реальных задач — определяется законом Амдала. При этом альфа в законе Амдала — и есть, большей частью, время на передачу данных по интерконнекту, если считать, что у нас идеально параллельный алгоритм. А теперь представьте, что у нас миллион нод и всем им надо передавать данные друг другу. В худшем случае — в одно и то же время. Не один раз и не два. Подставьте в эту формулу P равным миллиону и полюбуйтесь на требования к задержкам и скорости передачи данных, для какой-нибудь из своих задач, что Вы решаете.
Реально, конечно, в Ваших словах есть доля правды, и немалая. Суперкомпьютер редко работает как суперкомпьютер, обычно он дробится на большое количество мелких кластеров по 64-128 процессоров, которые и отдаются в аренду рабочим группам ученых, промышленности и т.п, а при использовании суперкомпа по назначению этих арендаторов просто отодвигают в сторонку на пару-тройку дней. Но мы-то про суперкомпьютер, про его возможности как суперкомпьютера N1 в мире — а тут начинаются проблемы, описанные выше.
Я в курсе. Я вам привел примеры именно суперкомпьютеров, которые при стоимости Sequoia в 5 раз производительнее
Понимаете, тут дело в надежности. Почитайте про надежность Sunway TaihuLight, тогда станет понятно, почему работающая надежно (ну, относительно надежно — бессбойная работа — целых 2о часов) Sequioa стоит примерно как TaihuLight. И даже если если 125PF Sunway TaihuLight стоит $273М, то экзафлопсная машина ну никак не будет стоить $300M
«Чем производительнее ноды, тем меньше затрат на интерконнект» — да нет же! Растет пиковая производительность, которая ни о чем. Это про майнинг.
Чем производительнее ноды, тем больше информации в единицу времени (друг от друга и от дисковой подсистемы) они могут обрабатывать и тем больше этой информации в единицу времени им надо подкачивать через интерконнект. И ладно бы просто подкачивать — если все задачи выполняются синхронизированно (более-менее), то эту информацию надо подкачивать для всех одновременно, что дает огромную нагрузку на высокоуровневые коммутаторы и, как следствие, их огромную стоимость. Или, если коммутаторы менее дорогие, мы приходим к тому, что производительность системы на реальных задачах никакая. Все равно, что ездить на Феррари по Москве — ну да, может она выжать 400 км/ч, и что с того?
На практике суперкомпьютер не сильно отличается от тысяч серверов объединённых в одну сеть
В корне неверно. Знаете, я чувствую, мне сейчас придется объяснять азы. Посмотрите вначале превосходное видео Воеводина «Суперкомпьютер и КПД паровоза», а потом продолжим спор. Не обижайтесь, пожалуйста. Вы ведь наверняка специалист в чем-то другом, и когда Вам знакомые советуют что-то улучшить в своей работе, будучи не в теме… вспомните свои чувства в этот момент
Еще раз. Суперкопмьютер резко отличается от датацентра, прежде всего интерконнектом, стоимость которого запредельная. Чип Infiniband стоит $500-800. На одну ноду. Про коммутаторы и говорить не стоит, чтобы не огорчаться.
Суперкопьютер не есть миллион РС-шек или графических карт для майнинга, поставленных в одном помещении. Не судите о нем по этим критериям, они в корне неверные.
На пути к запуску суперкомпьютера как у Китая, так и у США стоят несколько глобальных проблем. Такие устройства выделяют огромное количество тепла, что не позволяет компьютеру достичь максимальной производительности и приносит с собой огромные счета за электроэнергию.
Жаль, что эту фразу не поставили в начале. Я бы дальше не читал, сэкономив время.
Лучше бы главу «Проблемы эксафлопсных суперкомпьютеров» вообще убрать, она показывает, что писавший от данной области далек, да и теме заголовка главы соответствует только половина ее текста. Остальное более-менее ничего, если не считать анекдота про стоимость. 20-петафлопсная Sequoia стоит $250M. Экзафлопсная машина, соответственно, будет стоить в 50 раз больше. Реально этот мультипликатор будет еще выше, хотя бы за счет за счет бешеной стоимости коммутаторов интерконнекта такого уровня. Я понимаю, что $300M высосано не из пальца, а взято из источников, которые принято называть серьезными, но надо же и головой думать…
И потом… 1Cloud все-таки… Друзья, вы про надежность и отказы вашего оборудования давно вспоминали? Наверное, не далее как пару часов назад. А теперь умножьте ваш масштаб в 1000 (предполагаю) раз и грубо прикиньте, что будет твориться на экзафлопсной машине. Тем не менее, проблема надежности в статье не упомянута совсем.
Причем, как мне сказали в поддержке AWS (да, именно там!), достаточно одного нового емайла для нового эккаунта. Телефон точно может быть одинаковый, а насчет одной новой карты на два эккаунта лично не пробовал, но новая карта Киви делается за пару минут
Спасибо, попробовал — получилось. Только с виртуальной картой Яндекс.Деньги меня послали, за что я, в общем, не обиделся — на сайте Яндекса честно сказано, что платежи только внутри страны, хочешь зарубежные — пройди аутентификацию. Я не захотел, а просто сделал себе виртуальную Киви и все прошло как по маслу.
А вообще, конечно, анекдот. Карту Сбербанка, аутентифицированную по самые помидоры, AWS не берет, а полностью анонимную Киви — пожалуйста. Куда катится мир…
Прошу прощения, перечитал сейчас внимательно. Да, Вы правы. Просто структура изложения затруднила понимание, судя по тому, что человек таки задал вопрос, а я таки на него ответил :)
Насчет очевидно — ну, не знаю. Человек использует S3 несколько лет, потом решил попробовать EC2 бесплатно. Почему нет? Понятно, есть кредиты, но все же…
Кстати, где Вы на AWS увидели 30 гигов диска на t2.micro? Не смог найти на AWS. Вроде все говорят, но как бы почитать в первоисточнике? Мне, в общем, автоматом данных 8GB хватает, но интересно все же.
Статья немного странно написана. t2.micro от AWS бесплатен первые 12 месяцев. Лучше читать оригинал: aws.amazon.com/ru/free
Есть один ньюанс: эти 12 месяцев начинаются после регистрации на AWS, если эти ресурсы начать использовать через год после регистрации, бесплатными они уже не будут
Сразу же — лично у меня на их эккаунте претензий нет ни малейших за три года. Даже дают советы, как пользовать их сервисы бесплатно, причем такие, что сам бы не додумался. Если есть разногласия по списанию денег, обычно принимают мою точку зрения. В общем, синица в небе, улитка на листе.
Но я посоветовал взять AWS сыну-студенту, благо t2.micro бесплатный на год. И началось…
Карточку он заказал в Сбере специально под это дело. Ну, Сбер есть Сбер, billing address на карточке на обновленный они поменять не удосужились, хоть паспорт им сын и приносил. И понеслось…
Созданный эккаунт заблокировали и потребовали предоставить дополнительную информацию. Ладно, отписались им, зачем завели эккаунт и т.п. Заодно сходили в Сбер выяснить WTF и обнаружили старый адрес. Ок, написали в поддержку новый адрес, но увы… Они потребовали платежку с адресом плательщика. Ок, через одно место так через одно место — кинули в Сбере на сотовый 150р, отсканили чек со штампом банка, адресом прописки и адресом, на который была зарегистрирована карта. Казалось бы — в чем еще может быть проблема? Вы недооценили AWS — они требуют прислать им этот скан всенепременно по факсу. Ага. В 2017 куча факсов везде стоят и их хозяева с радостью дадут мне позвонить от них в Штаты. Переписка с поддержкой длилась две недели, за это время сыну сделали в Бауманке новую карту. Первое, что он проверил — billing address, все правильно.
Решили дать бобику сдохнуть самому, сын зарегистрился заново с новой картой и новым емейлом. То же самое — не могут снять этот 1$, поэтому снова заблокировали эккаунт и попросили предоставить альтернативный способ оплаты. Вот на этом этапе сейчас и находимся.
Мне уже просто хочется добить эту задачу. Эта карта не вызывала вопросов ни у Paypal, ни у Digital Ocean, ни у Алиэкспресса, но у AWS, видимо, особый путь…
Там очень резко меняются параметры — да, это low-end со всеми вытекающими. Пользовал и пользую несколько провайдеров VPS серверов оттуда.
123Systems.net. Вначале все было хорошо, затем кончились VPS эккаунты по 9$ в год, потом по 14$, сейчас есть только по 50. C 22 до 23 МСК не знаю, что у них там, но ssh соединение рвется раз в минуту.
FtpIt. 2,5 евро в месяц. Несоответствие заявленных параметров предоставляемым. 15 минут на установку mc — это все же через край, при 1Gb RAM. Впрочем, я параметры их процессора не смотрел, возможно, все законно. Выяснять и спорить не стал, просто отказался.
Virtono — пока полет нормальный, 2$/мес, а с промокодом так вообще 1.6. Более-менее устраивает пока.
Давным-давно уже нет в принтерах специализированных микросхем. Стандартные микроконтроллеры, стандартные драйверы для шаговых двигателей.
Ну, микроконтроллеры, м.б. не совсем стандартные, если покупаешь миллион штук, можно и потребовать извращений, как в автоэлектронике, но легко можно попросить производителя оштамповать еще миллион таких же чипов, на это с радостным визгом согласятся.
Вы ж поймите — даже спецчипы не делаются под конкретную модель принтера/автомобиля, они делаются под весь модельный ряд со сроком жизни 5 лет и еще примерно столько же — срок поддержки. А дальше остаются только энтузиасты и маргиналы, которые производителям глубоко неинтересны. Ну вот не могу я сейчас найти бензобак, взамен проржавевшего, на мой скутер Yamaha Jog Z 95 года выпуска. Думаете, Ямаха от этого страдает? Да ничуть.
Если с точки зрения техники — в микроконтроллер в TSSOP8 (или даже в перевернутом и распаянном сверху малоножечном BGA) можно очень много чего интересно-гнусного напихать. Вопрос в том, как это будет поддержано программно. Если есть рутовый доступ к операционке, то вообще железо не нужно, программные закладки рулят. А если нет, то встает вопрос последней мили, потому что операционка и ее драйвера не ожидают, что на шине будет кто-то еще, и при попытках доступа аппаратной закладки к, скажем, Bluetooth или Wifi чипу система будет крэшиться. А если после ремонта телефон будет постоянно перезагружаться, то вставившему закладку грозят неприятности, даже без знания клиента о root cause.
Можно, конечно, подцепиться по i2c с неиспользуемым в данной модели телефона адреса, но по нему никаких серьезных потоков информации не идет, только управление, так что тоже особо смысла нет. Да и вопрос еще, как поведет себя операционка в случае двух мастеров на i2c шине…
Поэтому я бы не дергался особо по поводу аппаратных закладок. Теоретически — угроза однозначно есть, но практически — чисто программные закладки и трояны могут делать ту же работу незаметнее и надежнее.
Я бы интерпретировал это так: «у нас получилось, но только через одно место, и официально признаваться в этом нельзя, потому что обязательно поимеют».
По-правильному — однозначно никак. Во всяком случае, полгода назад было нельзя. Только совпадение логина с паролем.
То, что они этот пароль спокойно на совершенно другой, левый телефон присылают (теще поставил на ее айфон) — право же, мелочь
Ладно, с другой стороны — работает, и ладно. Это же еще мелочь, самый ад и трэш — это запись ребенка в школе в кружки через Мосуслуги. Надо авторизоваться на сайте, записаться, а потом прийти в свою (!) школу с бумажным заявлением и двумя ксерокопиями паспорта. Такое впечатление, что речь идет об устройстве на оборонный завод, где делают ракеты, а не в платный кружок по рисованию в своей школе.
К чести школы, ксерокопии паспорта они не берут — у них они и так есть, понятное дело, и не в одном экземпляре.
Ну у него хотя бы, в отличие от приложения Госуслуг, база записи к врачам не глючит. В Госуслугах должны звезды счастливо встать, чтобы в поликлинику записаться можно было через инет
Но даже если бы можно было сделать так — что очень сложно — как будете разбивать алгоритм, чтобы соседние обсчеты ложились на соседние ноды? Тогда нужно, чтобы ваша большая задача была кратна количеству нод, причем даже это вас не спасет — ноды имеют привычку часто сгорать и быть вынутыми из шкафа, и планировщик отдаст на замену ноду через 6 коммутаторов — и вся ваша программа, идеально сбалансированная по итерациям на разных нодах, будет каждый раз стоять и ждать эти 6 хопов для одного процесса в каждом цикле обмена. А как иначе?
Теоретически — да. Практически — никогда. Число нод тупо ограничено их стоимостью и стоимостью коммутаторов. Выбить лишнюю пару сотен миллионов долларов из государства совсем не так просто, как кажется. В Штатах, что бы не вопили наши и их политики про технологическое отставание и печатный станок, денег на суперкомпьютеры сейчас банально нет. В том числе — и на те, что в Лос-Аламосе. Ломоносов-2 — две стойки, а их может быть до 64. Поэтому в коммутаторах практически всегда остается очень большой задел на будущее.
Что значит параллельный? Это между нодами на одном коммутаторе он параллельный, но, как я писал выше, это бывает крайне редко. А коммутаторы верхних уровней с неблокирующим fat tree стоят столько, что исчезает всякое желание их покупать, да их и нет почти, всегда присутствует куча неприятных ограничений.
Если A и B висят на одном коммутаторе первого уровня — то никак. Но так бывает редко. А если как всегда, что описано выше — то затрагивает и С, и кучу других. А те, в свою очередь, затрагивают ноды A и B при своих обменах. Нет неблокирующих коммутаторов более чем второго уровня.
Ну и вообще-то, буфер передачи хранится в памяти, а шина у памяти одна. Эта шина может быть занята в один момент времени чем-то одним — либо обсчетом задачи, либо DMA контроллером, который берет из памяти данные и отсылает их в канал. Поэтому — последовательно еще и в этом смысле.
Имеется в виду межпроцессорная шина QPI? Увы, это получается мини-SMP система с кучей присущих ей очевидных недостатков. Из неочевидных — стоимость такой ноды космическая, а надежность — совсем наоборот, из-за чего стоимость склада запчастей становится неприличной.
Понимаете, тут хитро… С одной стороны, вроде бы незачем. С другой — 95% задач используют до 64 процессоров, а там уже совсем другая степень связности, параллельная часть резко увеличивается в процентном соотношении. Но надо ж похвастаться. Зачем Штатам столько авианосцев? Это оттуда же.
Секвойя может честно работать как единый суперкомпьютер. TaihuLight — нет. По крайней мере, раньше не мог, не знаю, как сейчас. И я не уверен, что TaihuLight стоил именно $273M, а не больше. По крайней мере, его предшественник Tianhe-2 с 34ТФлопс стоил $390М, а чудес не бывает. В первую очередь, конечно, приходят в голову мысли о более чем в разы дешевом процессоре, точнее, GPU, но опять же, не верю я что-то в чудеса.
Не забывайте про небольшие задачи. Суперкомпьютеры сейчас перегружены, хоть и небольшими задачами. Да, есть оверхед за масштаб — дорогие коммутаторы и крайне усложненное управление — но это и есть цена PR.
Да и большие задачки, в общем, считаются — просто их надо готовить тщательнее, писать не только саму задачу, но и алгоритмы для планировщика, делать тестовые прогоны перед запуском всей задачи. У Воеводина все-таки описан случай, когда при запуске написал p=1024 и больше никакой подготовки, а это далеко не всегда так, уж если получил на несколько дней в полное распоряжение железяку стоимостью в пару сотен миллионов долларов, то обычно к такому событию долго готовятся, еще раз оно случится очень не скоро.
Надо будет выложить куда-нибудь одну из презенташек с докладов в МГУ на Летней Компьютерной Школе. В ней докладчики оптимистично предполагают, что стоящие сейчас задачи по CFD можно будет обсчитать лишь в 70-80-х годах нашего века. Зачастую построить модель в натуральную величину и ее обдуть, считав показания датчиков, получается сейчас сильно дешевле, чем считать на суперкомпьютере — а при грубой сетке считать нет смысла вообще. Другое дело, что там, в общем, задачи, действительно ближе к майнингу, чем к суперкомпьютингу, но банально нужно очень много машинного времени.
Да, с разумной точки зрения построить 10 маленьких машин куда лучше, чем одну большую. Я уж не говорю про управление. Только не забывайте, что когда мы говорим про экзафлопс, «маленькая» — это TaihuLight :)
Решения по выносу контроля четности и прочего вовне ноды опять означают дорогущий интерконнект, причем работающий постоянно и на всю катушку, и с такой пропускной способностью, которой сейчас просто нет — иначе опять тормоза. Не вариант. И потом, проблема надежности не в сбоях памяти — она как раз решаема через ECC, а в том, что нода горит, иногда — в буквальном смысле.
Решением сейчас является небольшой SSD диск внутри ноды, на который пишутся контрольные точки. Но это не решение проблемы надежности, это спасение уже просчитанных нодой данных, чтобы остальные не ждали пересчета, в течение которого сломается еще одна нода из остальных.
Сейчас мы уйдем в такие дебри с топологиями, что из этого не выпутаемся. Давайте все же вернемся к исходной точке, при прочих равных. Вне зависимости от топологии, хоть на пятимерном торе, хоть на fat tree, коммутаторы будут забиты трафиком, и чем выше по иерархии, тем сильнее. И чем быстрее будет интерконнект, тем быстрее эти заторы протолкнутся. С этим спорить не будете? Понятно, что на сценарии «все-со-всеми» интерконнект просто упадет и все, тут без вариантов. Выбранная топология может быть оптимально использована, скорее, конкретным алгоритмом конкретной задачи — но мы-то не про конкретную задачу, а про ТОР500, где все меряется под одну гребенку. Суперкомпьютер — это большое количество сильносвязанных задач, иначе речь идет о майнинг-фермах, датацентрах Амазон или там PRISM. Это другая область, совсем. Есть книжка, написанная инженерами Гугловских датацентров — The Datacenter as a Computer, и там, в главе 1.6.2 NETWORKING FABRIC примерно описана Ваша точка зрения. Но в суперкомпьютере все ни разу не так.
Естественно, увеличение тактовой/числа ядер/кэша влияет на производительность, но к уменьшению количества передаваемых данных не имеет никакого отношения. А это значит, что последовательная часть остается прежней, и по закону Амдала мы получим очень небольшое увеличение общей производительности при кратном росте тактовой, кэша, числа ядер на отдельной ноде. Даже перенос памяти в один корпус с процессором (Knights Landing) этой проблемы практически не решают. Ускоряющий эффект может дать увеличение объема памяти на ноде (чтобы минимизировать latency за счет одной большой передачи вместо нескольких небольших), но опять же, не очень большой. Хочется получить больше — надо уменьшать последовательную часть, т.е. время передачи, применяя более быстрый интерконнект.
Посмотрите страницу 6 вот здесь. Ethernet выше 150-й строчки в TOP500 не поднимается, что косвенно говорит о важности интерконнекта вообще и latency в частности.
Разумеется, скорость интерконнекта должна быть сбалансирована с производительностью процессора — но процессоры и GPU ушли уже давно в такой отрыв, что догнать их интерконнекту — не дело ближайшего будущего.
Нет. Я-то как раз в курсе, поскольку суперкомпы разрабатывал. Очень мало возможностей снизить себестоимость стойки. Стоимость суперкомпьютера — объективна, поскольку используются топовые электронные компоненты, спрос на которые превышает предложение. В этих условиях нет особой нужды продавать дешевле, производители чипов снимают сливки — через пару лет те же компоненты будут стоить вполовину дешевле, но если их купить через пару лет, это означает отставание в вечной гонке. Поэтому берут по любой цене. Остальные компоненты стоят копейки, их стоимость оптимизируют, конечно, но больше чем на 5-10% стоимость суперкомпьютерной стойки снизить нельзя.
Использование китайцами китайских же чипов, возможно, снизит стоимость, но я бы не сказал, чтобы больше чем в пару-тройку раз — топовые чипы означают большой процент брака на пластине, а себестоимость пластины фиксирована и везде более-менее одинакова. $300М за экзафлопсную машину и близко нет. Через десяток лет — возможно, но точно не сейчас.
Производительность суперкомпьютера — на решении реальных задач — определяется законом Амдала. При этом альфа в законе Амдала — и есть, большей частью, время на передачу данных по интерконнекту, если считать, что у нас идеально параллельный алгоритм. А теперь представьте, что у нас миллион нод и всем им надо передавать данные друг другу. В худшем случае — в одно и то же время. Не один раз и не два. Подставьте в эту формулу P равным миллиону и полюбуйтесь на требования к задержкам и скорости передачи данных, для какой-нибудь из своих задач, что Вы решаете.
Реально, конечно, в Ваших словах есть доля правды, и немалая. Суперкомпьютер редко работает как суперкомпьютер, обычно он дробится на большое количество мелких кластеров по 64-128 процессоров, которые и отдаются в аренду рабочим группам ученых, промышленности и т.п, а при использовании суперкомпа по назначению этих арендаторов просто отодвигают в сторонку на пару-тройку дней. Но мы-то про суперкомпьютер, про его возможности как суперкомпьютера N1 в мире — а тут начинаются проблемы, описанные выше.
Понимаете, тут дело в надежности. Почитайте про надежность Sunway TaihuLight, тогда станет понятно, почему работающая надежно (ну, относительно надежно — бессбойная работа — целых 2о часов) Sequioa стоит примерно как TaihuLight. И даже если если 125PF Sunway TaihuLight стоит $273М, то экзафлопсная машина ну никак не будет стоить $300M
«Чем производительнее ноды, тем меньше затрат на интерконнект» — да нет же! Растет пиковая производительность, которая ни о чем. Это про майнинг.
Чем производительнее ноды, тем больше информации в единицу времени (друг от друга и от дисковой подсистемы) они могут обрабатывать и тем больше этой информации в единицу времени им надо подкачивать через интерконнект. И ладно бы просто подкачивать — если все задачи выполняются синхронизированно (более-менее), то эту информацию надо подкачивать для всех одновременно, что дает огромную нагрузку на высокоуровневые коммутаторы и, как следствие, их огромную стоимость. Или, если коммутаторы менее дорогие, мы приходим к тому, что производительность системы на реальных задачах никакая. Все равно, что ездить на Феррари по Москве — ну да, может она выжать 400 км/ч, и что с того?
В корне неверно. Знаете, я чувствую, мне сейчас придется объяснять азы. Посмотрите вначале превосходное видео Воеводина «Суперкомпьютер и КПД паровоза», а потом продолжим спор. Не обижайтесь, пожалуйста. Вы ведь наверняка специалист в чем-то другом, и когда Вам знакомые советуют что-то улучшить в своей работе, будучи не в теме… вспомните свои чувства в этот момент
Еще раз. Суперкопмьютер резко отличается от датацентра, прежде всего интерконнектом, стоимость которого запредельная. Чип Infiniband стоит $500-800. На одну ноду. Про коммутаторы и говорить не стоит, чтобы не огорчаться.
Суперкопьютер не есть миллион РС-шек или графических карт для майнинга, поставленных в одном помещении. Не судите о нем по этим критериям, они в корне неверные.
Жаль, что эту фразу не поставили в начале. Я бы дальше не читал, сэкономив время.
Лучше бы главу «Проблемы эксафлопсных суперкомпьютеров» вообще убрать, она показывает, что писавший от данной области далек, да и теме заголовка главы соответствует только половина ее текста. Остальное более-менее ничего, если не считать анекдота про стоимость. 20-петафлопсная Sequoia стоит $250M. Экзафлопсная машина, соответственно, будет стоить в 50 раз больше. Реально этот мультипликатор будет еще выше, хотя бы за счет за счет бешеной стоимости коммутаторов интерконнекта такого уровня. Я понимаю, что $300M высосано не из пальца, а взято из источников, которые принято называть серьезными, но надо же и головой думать…
И потом… 1Cloud все-таки… Друзья, вы про надежность и отказы вашего оборудования давно вспоминали? Наверное, не далее как пару часов назад. А теперь умножьте ваш масштаб в 1000 (предполагаю) раз и грубо прикиньте, что будет твориться на экзафлопсной машине. Тем не менее, проблема надежности в статье не упомянута совсем.
А вообще, конечно, анекдот. Карту Сбербанка, аутентифицированную по самые помидоры, AWS не берет, а полностью анонимную Киви — пожалуйста. Куда катится мир…
Насчет очевидно — ну, не знаю. Человек использует S3 несколько лет, потом решил попробовать EC2 бесплатно. Почему нет? Понятно, есть кредиты, но все же…
Кстати, где Вы на AWS увидели 30 гигов диска на t2.micro? Не смог найти на AWS. Вроде все говорят, но как бы почитать в первоисточнике? Мне, в общем, автоматом данных 8GB хватает, но интересно все же.
aws.amazon.com/ru/free
Есть один ньюанс: эти 12 месяцев начинаются после регистрации на AWS, если эти ресурсы начать использовать через год после регистрации, бесплатными они уже не будут
Сразу же — лично у меня на их эккаунте претензий нет ни малейших за три года. Даже дают советы, как пользовать их сервисы бесплатно, причем такие, что сам бы не додумался. Если есть разногласия по списанию денег, обычно принимают мою точку зрения. В общем, синица в небе, улитка на листе.
Но я посоветовал взять AWS сыну-студенту, благо t2.micro бесплатный на год. И началось…
Карточку он заказал в Сбере специально под это дело. Ну, Сбер есть Сбер, billing address на карточке на обновленный они поменять не удосужились, хоть паспорт им сын и приносил. И понеслось…
Созданный эккаунт заблокировали и потребовали предоставить дополнительную информацию. Ладно, отписались им, зачем завели эккаунт и т.п. Заодно сходили в Сбер выяснить WTF и обнаружили старый адрес. Ок, написали в поддержку новый адрес, но увы… Они потребовали платежку с адресом плательщика. Ок, через одно место так через одно место — кинули в Сбере на сотовый 150р, отсканили чек со штампом банка, адресом прописки и адресом, на который была зарегистрирована карта. Казалось бы — в чем еще может быть проблема? Вы недооценили AWS — они требуют прислать им этот скан всенепременно по факсу. Ага. В 2017 куча факсов везде стоят и их хозяева с радостью дадут мне позвонить от них в Штаты. Переписка с поддержкой длилась две недели, за это время сыну сделали в Бауманке новую карту. Первое, что он проверил — billing address, все правильно.
Решили дать бобику сдохнуть самому, сын зарегистрился заново с новой картой и новым емейлом. То же самое — не могут снять этот 1$, поэтому снова заблокировали эккаунт и попросили предоставить альтернативный способ оплаты. Вот на этом этапе сейчас и находимся.
Мне уже просто хочется добить эту задачу. Эта карта не вызывала вопросов ни у Paypal, ни у Digital Ocean, ни у Алиэкспресса, но у AWS, видимо, особый путь…
123Systems.net. Вначале все было хорошо, затем кончились VPS эккаунты по 9$ в год, потом по 14$, сейчас есть только по 50. C 22 до 23 МСК не знаю, что у них там, но ssh соединение рвется раз в минуту.
FtpIt. 2,5 евро в месяц. Несоответствие заявленных параметров предоставляемым. 15 минут на установку mc — это все же через край, при 1Gb RAM. Впрочем, я параметры их процессора не смотрел, возможно, все законно. Выяснять и спорить не стал, просто отказался.
Virtono — пока полет нормальный, 2$/мес, а с промокодом так вообще 1.6. Более-менее устраивает пока.
Ну, микроконтроллеры, м.б. не совсем стандартные, если покупаешь миллион штук, можно и потребовать извращений, как в автоэлектронике, но легко можно попросить производителя оштамповать еще миллион таких же чипов, на это с радостным визгом согласятся.
Вы ж поймите — даже спецчипы не делаются под конкретную модель принтера/автомобиля, они делаются под весь модельный ряд со сроком жизни 5 лет и еще примерно столько же — срок поддержки. А дальше остаются только энтузиасты и маргиналы, которые производителям глубоко неинтересны. Ну вот не могу я сейчас найти бензобак, взамен проржавевшего, на мой скутер Yamaha Jog Z 95 года выпуска. Думаете, Ямаха от этого страдает? Да ничуть.
Можно, конечно, подцепиться по i2c с неиспользуемым в данной модели телефона адреса, но по нему никаких серьезных потоков информации не идет, только управление, так что тоже особо смысла нет. Да и вопрос еще, как поведет себя операционка в случае двух мастеров на i2c шине…
Поэтому я бы не дергался особо по поводу аппаратных закладок. Теоретически — угроза однозначно есть, но практически — чисто программные закладки и трояны могут делать ту же работу незаметнее и надежнее.
По-правильному — однозначно никак. Во всяком случае, полгода назад было нельзя. Только совпадение логина с паролем.
То, что они этот пароль спокойно на совершенно другой, левый телефон присылают (теще поставил на ее айфон) — право же, мелочь
Ладно, с другой стороны — работает, и ладно. Это же еще мелочь, самый ад и трэш — это запись ребенка в школе в кружки через Мосуслуги. Надо авторизоваться на сайте, записаться, а потом прийти в свою (!) школу с бумажным заявлением и двумя ксерокопиями паспорта. Такое впечатление, что речь идет об устройстве на оборонный завод, где делают ракеты, а не в платный кружок по рисованию в своей школе.
К чести школы, ксерокопии паспорта они не берут — у них они и так есть, понятное дело, и не в одном экземпляре.