Суперпольза в экзафлопс, или Cуперкомпьютеры в XXI веке / Habr

Сеймур Крэй с блоками своего детища, суперкомпьютера CRAY

Если бы Сеймур Крей, создатель легендарного суперкомпьютера Cray, дожил до наших дней и увидел, какой мощности достигают современные машины, то наверняка сказал, что без эльфов здесь не обошлось.

Первый успешный суперкомпьютер CDC 6600, выпущенный в 1964 году, был способен выполнять 3 миллиона операций с плавающей запятой в секунду (FLOPS). Самый же быстрый в мире современный суперкомпьютер Fugaku разгоняется до 4 экзафлопс.

На днях, 22 марта 2022 года, NVIDIA анонсировала NVIDIA Eos — суперкомпьютер с искусственным интеллектом, который заработает в конце этого года. Ожидается, что он обеспечит вычислительную производительность ИИ на уровне 18,4 экзафлопс, что будет в 4 раза быстрее, чем у Fugaku. И, таким образом, NVIDIA Eos отберёт у Fugaku чемпионское звание.

Но для чего вся эта гонка вычислительных вооружений? И кому всё это нужно? Разработка и обслуживание суперкомпьютеров — весьма затратное занятие как с финансовой, так и с энергетической точки зрения.

Но их использование — жизненно важный вопрос. Суперкомпьютеры Fugaku и Cambridge-1, например, участвуют в разработке вакцины от COVID-19. В Индии суперкомпьютеры предсказывают приближение муссонов, что очень важно для страны, экономика которой на 70% зависит от сельского хозяйства.

В этой подборке рассмотрим интересные применения суперкомпьютеров в XXI веке и подивимся их мощи.

Как и в 60-х годах, современные суперкомпьютеры выполняют вычислительный анализ в метеорологии, исследовании генома, оборонных проектах, моделировании автомобильных испытаний, визуализации нефтяных, газовых месторождений и т. д. Они используются в государственных ведомствах, корпорациях, банках, университетах и лабораториях. На современных суперкомпьютерах с ИИ обучаются большие нейросетевые модели, для чего машины работают на пиковой мощности днями или даже неделями.

Помните «Энциклопедию профессора Фортрана?» Суперкомпьютер CRAY попал и туда

Вакцины

Создание эффективной вакцины — занятие долгое: средний срок разработки составляет около десяти лет. Вакцину нужно не только создать, но протестировать и получить какие-то долгосрочные результаты. До недавнего времени самой «быстрой» была вакцина против лихорадки Эбола — работа над ней шла пять лет. Разработкой вакцины от COVID-19 занимался весь мир, и первые результаты появились меньше чем через год после начала пандемии. Исследовательские проекты требовали множества высокопроизводительных вычислений, поэтому в 2020 году технологические гиганты и правительственные учреждения США создали Консорциум высокопроизводительных вычислений COVID-19 (HPC), который давал учёным доступ к самым мощным суперкомпьютерам мира.

Белок Spike (S), взаимодействующий с человеческим клеточным рецептором ACE-2 (серым цветом). Изображение смоделировано командой Университета Сорбонны с помощью суперкомпьютера Jean Zay

Были задействованы суперкомпьютеры Summit, Fugaku и Cambridge-1. С помощью Summit исследователи смогли смоделировать 8000 соединений за считанные дни, идентифицировав 77 небольших молекул, которые потенциально могли ингибировать связывающие свойства COVID-19.

Текущие проекты японского Fugaku, входящего в консорциум, сейчас связаны с COVID-19 — это и прогнозирование конформационной динамики белков вируса SARS-Cov-2, и выполнение расчётов молекулярных орбиталей фрагментов (FMO) для белков COVID-19, и многое другое.

Также Fugaku помог выяснить, что одноразовые медицинские маски для лица более эффективно блокируют распространение COVID-19 воздушно-капельным путём, чем маски из хлопка или полиэстера. А также показал, что влажность может оказывать большое влияние на распространение вирусных частиц, указывая на повышенный риск заражения коронавирусом в сухих помещениях в зимние месяцы.

Автопромышленность

Суперкомпьютеры учат водить. Но не людей, а беспилотники.

В 2021 году Tesla анонсировала свой новый суперкомпьютер Dojo (Додзё), который будет использоваться для обучения нейронных сетей, обеспечивающих работу автопилота Tesla и будущего ИИ для самостоятельного вождения. Задействованные здесь ИИ-чипы называют самыми передовыми в мире, а новаторскую архитектуру Dojo полностью разработали в Tesla. Илон Маск утверждает, что Dojo достигнет мощности в экзафлопс, то есть один квинтиллион (10^18) флопс. Технические характеристики можно почитать в официальной документации.

В основе автопилота лежит компьютерное зрение, и чтобы всё работало правильно, нужно обучить массивную нейронную сеть и провести множество экспериментов. У Tesla есть огромный объём видеоданных с более чем миллиона автомобилей, и эти данные используются для обучения её нейронных сетей.

В 2018 году автопилот Tesla занимал в рейтинге активных систем помощи водителю второе место, уступая GM Super Cruise. Вложения в Dojo призваны эту ситуацию переломить.

Tesla: обучение вождению

И наверняка со временем эта технология выйдет за рамки использования в автомобилях Tesla и найдёт своё применение в различных секторах — государственных и частных.

Ритейл

Медицинские приложения, автопилот, сложнейшие математические расчёты — это всё то, где находят применение суперкомпьютерам. А ещё они отлично показывают себя в розничной торговле, где сложных расчётов и нетривиальных задач не меньше.

Крупнейший в мире ритейлер Walmart в 2018 году создал собственную ИИ-лабораторию розничной торговли (IRL) для улучшения обслуживания и управления товарными запасами. О том, что ИИ можно применять в реальной розничной среде, было не так много исследований, и этот пробел собирается восполнить IRL.

В магазине, где имелось 30 тысяч товаров, установили множество камер и датчиков — в проходах, на полках, складах. Для обработки огромного массива информации с камер в магазине разместили большой кластер компьютеров общего назначения. Так в супермаркете появился полностью функционирующий «суперкомпьютер» на 100 узлов.

Внимание! Магазин оборудован суперкомпьютером

Как всё это работает? Данные с камер и датчиков анализируются в реальном времени, и при необходимости система присылает во внутренние приложения уведомления об отсутствии товара — так сотрудники магазина понимают, когда нужно пополнить запасы. Например, в мясном отделе есть средство отслеживания запасов, которое может идентифицировать каждый вид мяса, лежащий на полке. Если покупатель выбирает товар, ИИ знает, чего сейчас не хватает, и передаёт сообщение сотруднику, который может пополнить запасы. Благодаря своевременному пополнению запасов, магазин не теряет прибыль и поддерживает каталог на сайте в актуальном состоянии.

ИИ в магазинах использует Amazon, но его футуристические магазины Amazon Go работают по другому принципу. Walmart же решили объединить свой опыт в ритейле и современные технологии.

А есть ли подобный киберпанк в России? Да, но пока только в пилотном режиме и только в Москве. «Пятерочка налёту» — первый в России магазин без кассиров. Про техническую реализацию этого решения уже писали на Хабре.

Метавселенные

Метавселенная — одно из самых популярных слов прошлого года. Конечно же, здесь не обошлось без суперкомпьютеров, которые активно используются для её разработки. По словам Марка Цукерберга, метавселенная — это «трёхмерный интернет, где люди не просто потребляют информацию, а находятся внутри неё».

Для отрисовки и функционирования метавселенных нужны колоссальные мощности. Поэтому компании-разработчики используют вычислительную мощность чипов NVIDIA. Графические процессоры NVIDIA уже давно используются для запуска высокопроизводительной графики на ПК, а чипы стали золотым стандартом для выполнения задач ИИ в центрах обработки данных.

Так мог бы выглядеть Cray-1 в метавселенной

Суперкомпьютер с ИИ Research SuperCluster (RSCВ) компании Meta (признана в РФ экстремистской организацией) разработан для задач компьютерного зрения, NLP и распознавания речи. Всё это в будущем станет основной для создания метавселенных.

В его основе лежат 6080 графических процессоров, упакованных в 760 модулей Nvidia A100. Эта система в 20 раз быстрее решает задачи компьютерного зрения и в три раза быстрее обучается распознавать голоса, чем предыдущая компьютерная система, использующая 22 000 графических процессоров NVIDIA V100.

Суперкомпьютер RSC будет запущен в середине 2022 года для создания новых и более совершенных моделей ИИ, для работы с сотнями разных языков, разработки новых инструментов дополненной реальности и т. д.

Земля и космос

Из метавселенных перенесёмся в космические. Космические исследования — одна из самых ресурсоёмких отраслей, и выдающиеся способности суперкомпьютеров позволяют делать здесь удивительные открытия.

В 2021 году с помощью DiRac — интегрированного суперкомпьютерного комплекса — учёные из Даремского Университета смогли воссоздать всю эволюцию космоса — от Большого взрыва до наших дней. Команда применила передовые статистические методы для моделирования нашего участка Вселенной, содержащего современные структуры, близкие к нашей галактике, Млечному Пути и соседней галактике Андромеды.

Слева — распределение тёмной материи в области с центром в Млечном Пути, окрашенное по прогнозируемой плотности и дисперсии скоростей частиц. Посередине и справа — увеличение выделенной области

В 2021 году экзафлопсный суперкомпьютер Frontera стоимостью в 600 млн долларов США позволил учёным из Рочестерского технологического института во главе с Карлосом Лусто выполнить первое моделирование слияния чёрных дыр с большим соотношением масс.

Полученные результаты позволят правильно спроектировать наземные детекторы гравитационных волн третьего поколения и лазерную интерферометрическую космическую антенну (LISA), запуск которой намечен на середину 2030-х годов. Также это исследование приоткроет фундаментальные загадки о чёрных дырах, например, как некоторые из них вырастают в миллионы раз больше массы Солнца.

В прошлом году NVIDIA объявила, что планирует создать самый мощный в мире суперкомпьютер с ИИ, предназначенный для прогнозирования изменения климата. Система под названием Earth-2, или Е-2, создаст цифрового двойника Земли в Omniverse.

Изменение климата — серьёзная проблема, и, несмотря на то что в эти исследования вкладываются средства, отдачи от них не так много. Суперкомпьютеры с искусственным интеллектом, а также огромное количество наблюдаемых и прогнозируемых данных, на которых можно учиться, позволят смоделировать климат со сверхвысоким разрешением и продвинуться в решении климатических проблем.

Суперкомпьютеры в России

А как обстоят дела с суперкомпьютерами в России?

Если в 2020 году Россия по доступной реальной вычислительной мощности отставала от США на 12,5 лет и от Китая на 9,5 лет, то в 2021 году российские суперкомпьютеры уже появились в мировом рейтинге TOP500. Кроме того, в СНГ есть свой рейтинг Тop 50 и собственная конференцияпо суперкомпьютерным технологиям.

На конец 2021 года в России работало 7 суперкомпьютеров, три из которых принадлежат Яндексу. Машины Яндекса точнее и быстрее переводят тексты и видео, показывают релевантную рекламу, подбирают ответы в выдаче, а также поддерживают диалог с человеком в голосовом помощнике «Алиса». Про них Яндекс писал в этом посте.

Первое место по супервычислениям в России можно поделить между тремя машинами от Яндекса — «Червоненкис», «Галушкин» и «Ляпунов». В каждом из них по восемь графических ускорителей (GPU) Nvidia A100. В компьютерах «Червоненкис» и «Галушкин» за вычисления отвечают 64-ядерные процессоры AMD EPYC 7702 (по два на сервер) с 1024 ГБ RAM, а в «Ляпунове» — AMD Epyc 7662 с 512 ГБ RAM. Самый мощный из троицы — «Червоненкис», он имеет пиковую производительность 21,53 петафлопса. У «Галушкина» 16,02 петафлопса, а мощность «Ляпунова» составляет 12,81 петафлопса.

Второе место по мощности в России можно отдать суперкомпьютерам «Кристофари» и «Кристофари Нео» от Сбера. В основе более совершенного «Кристофари Нео» — сервера Nvidia DGX A100, каждый из которых несёт восемь графических ускорителей (GPU) Nvidia A100 с 80 ГБ памяти, и всего их задействовано более 700 штук. «Кристофари Нео» ориентирован на задачи ИИ и машинного обучения. За вычисления, не касающиеся задач ИИ, отвечают по два на сервер 64-ядерных процессора AMD Epyc 7742 (Rome). Объём системной памяти составляет 2 ТБ. Производительность Linpack (Rmax) — 11 950 терафлоп/с. Первый «Кристофари» построен на основе Intel Xeon Platinum 8168 с 1536 ГБ RAM и графических ускорителей NVIDIA Tesla V100.

Третий в рейтинге — суперкомпьютер для научного применения МГУ «Ломоносов-2». Он участвует в исследовательских проектах в области медицины, инженерных расчётов, а также астрофизики, материаловедения, энергетики и многих других областей. С его помощью удалось получить уникальные результаты в исследовании механизмов генерации шума в турбулентной среде, в создании новых компьютерных методов проектирования лекарственных препаратов и т. д.

Четвертый по мощности суперкомпьютер в России, MTS GROM, используется для развития цифровой экосистемы. Он также будет полезен образовательным учреждениям, крупным научным и медицинским центрам в исследованиях, связанных с моделированием сложных процессов.

Всё это выглядит многообещающе, но в связи с последними событиями напрашивается вопрос — а что станет с этим дивным новым миром суперкомпьютеров в России, учитывая, что комплектующие к ним поставляют в основном компании NVIDIA, Intel и AMD, которые уже заявили о прекращении продаж в России?

В данной ситуации России придётся пойти по пути импортозамещения или присмотреться в сторону Китая, который, как и Россия, стремится к независимости от Запада.

МТС, например, в феврале этого года заключила партнёрское соглашение с южнокорейской KT Corp о создании новых центров обработки данных в России.

Ещё в прошлом году Сбер, опасаясь американских санкций, начал искать альтернативу NVIDIA и собирался купить российского или иностранного разработчика чипов. В феврале этого года Сбер проводил учения, где моделировалось отключение IT-инфраструктуры банка от поддержки Microsoft, NVIDIA, VMware, SAP и других компаний. Сейчас Сбер рассматривает возможность сотрудничества с российским поставщиком процессорных ядер НТЦ «Модуль».

Андрей Сухов, профессор, заведующий лабораторией САПР НИУ ВШЭ, предлагает создавать кластеры следующего поколения с использованием старых технологий кластеризации и переходить на открытое ПО для управления ими.

По его словам, «сделать новый суперкомпьютер в России в ближайшие годы будет невозможно. Тем не менее закрыть все текущие потребности в вычислениях и обработке данных с помощью предложенного подхода вполне возможно. Особенно если применить аппаратное ускорение к задачам в зависимости от их типа».

Итоги

Благодаря суперкомпьютерам, мы можем моделировать сложные процессы, происходящие во Вселенной, делать сложнейшие расчёты, на которые у обычных компьютеров ушли бы столетия, разрабатывать лекарства и делать множество других полезных для человечества вещей. Эти машины позволяют нам решать самые сложные и ресурсоёмкие задачи, они умнеют от года к году и становятся не просто супермощными калькуляторами, как это было в 60-е годы, а обзаводятся интеллектом.

Сравнительные характеристики и метрики современных суперкомпьютеров можно отслеживать на сайте проекта Top500 — актуальный список публикуется там дважды в год (в июне и ноябре).

Российские же научные суперкомпьютеры, работающие на базе Linux, продолжают функционировать в штатном режиме, без поддержки компаний, которые поставляли оборудование и ПО. Остановить эти машины могут только принудительные команды управления или хакерские атаки. Но по словам Андрея Сухова, такие действия в отношении научных проектов, в том числе суперкомпьютеров, пока неизвестны.

Мы продолжаем делать Telegram-бота Get Me It для анонимного и быстрого налаживания контакта между вами и работой мечты. Настраивайте фильтры в боте и получайте самые релевантные предложения под ваши запросы.

Следуйте за белым кроликом, кликнув на картинку ниже?