О компании Cerebras на Хабре писали несколько раз, чаще всего с упоминанием того, что она создала самый большой в мире процессор. И сейчас та же ситуация — она повторила свой рекорд, разработав гигант с 900 тыс. вычислительных ядер. Конечно, это чип не для обычных пользователей, а для работы в отрасли искусственного интеллекта. Что это за процессор и на что он способен?

Немного превосходных степеней

Производитель заявляет о новейшем, мощнейшем и крупнейшем чипе, который называется Wafer Scale Engine 3 (WSE-3). О ядрах уже сказано, теперь стоит упомянуть ещё и то, что чип содержит 4 трлн транзисторов. Его производительность в вычислениях, которые связаны с ИИ, — 125 петафлопс (PFLOPS). Процессор представляет собой цельную кремниевую пластину общей площадью в 46 225 мм² — это примерно в 60 раз больше, чем у Nvidia H100.

Как всегда в случае с Cerebras, это не концепция и даже не прототип чипа, а уже готовый процессор, выполненный по технологии 5-нм. Выпустила его компания TSMC — крупнейший контрактный производитель современных чипов, который вот уже пять лет (или даже больше) сотрудничает с Cerebras.

Компания, кстати, появилась в 2016 году и до сих пор не просто держится на плаву, а активно развивается. За время существования ей удалось выпустить три крупнейших для своего времени чипа для ИИ. Кроме того, на базе этих процессоров она производит и суперкомпьютеры, причём компактные — 15U.

Для чего предназначен процессор?

Он позволяет относительно быстро обучать крупнейшие в мире ИИ-модели, так что вполне возможно, что чип заинтересует корпорации вроде Google, Apple и другие. Во всяком случае, подобные процессоры не производит на данный момент больше никто — те решения, которые существуют, менее мощные.

Так, например, WSE-3 может похвастаться пропускной способностью памяти в 21 ПБ в секунду. Это примерно в 7 000 больше, чем у H100 от Nvidia. Что касается такой характеристики, как Fabric 214, то показатель у нового чипа примерно в 3 тыс. раз больше, чем у H100. Встроенной памяти у новинки целых 44 Гб.

Процессор способен работать с внешней памятью очень большой ёмкости — 1,5 Тб, 12 Тб и 1,2 ПБ. Это практически идеальная возможность для обучения ИИ-моделей, поскольку их не приходится разделять. По словам представителей компании, один чип может обучить ИИ-модель сразу по 24 трлн параметров.

Стоит отметить, что производительность систем от Cerebras зависит от коэффициента «разреженности» операций. По мнению экспертов, новая система компании будет несколько менее производительной в ходе выполнения операций FP16, чем пара серверов Nvidia DGX H100, при одинаковом энергопотреблении и площади установки. Результат — примерно 15 Пфлопс против 15,8 Пфлопс у Nvidia.

Что касается нового суперкомпьютера, базирующегося на возможностях чипа, то его можно масштабировать в кластерах до 2 048 систем, что позволяет работать с моделями по 70 млрд параметров, настраивая их за день. Это отличная возможность для тех компаний, которые занимаются развитием искусственного интеллекта. Система позволяет использовать такие фреймворки, как PyTorch и TensorFlow.

Сейчас известны не все характеристики нового суперкомпьютера, но предыдущая модель, CS-2, потребляла 17 кВт энергии. CS-1 требовалось 19 кВт.

Что насчёт суперкомпьютера?

Сейчас Cerebras уже вовсю занимается внедрением этих систем в своём суперкластере Condor Galaxy AI. Он предназначен для работы с очень масштабными задачами с применением искусственного интеллекта. Кластер будет включать сразу девять суперкомпьютеров из разных регионов.

В этом году кластер планируется дополнить системой CG-3 в Далласе, штат Техас. В ходе её создания разработчики интегрируют несколько CS-3 с общей ИИ-производительностью 8 экзафлопс. В итоге общий результат суперкластера составит примерно 64 экзафлопс.

Но и это ещё не всё — дело в том, что производитель гигантских процессоров уже работает с Qualcomm. Партнёры собираются разрабатывать оптимизированные модели для ИИ-ускорителей Qualcomm с Arm-архитектурой.

В частности, запланирована оптимизация моделей для Cloud AI100 Ultra, в которых будут использоваться преимущества таких методов, как разреженность, спекулятивное декодирование, MX6 и поиск сетевой архитектуры.

«Как мы уже показали, разреженность при правильной реализации способна значительно повысить производительность ускорителей. Спекулятивное декодирование предназначено для повышения эффективности модели при развёртывании за счёт применения небольшой и облегчённой модели для генерации первоначального ответа, а затем использования более крупной модели для проверки точности этого ответа», — отметил гендиректор Cerebras Эндрю Фельдман (Andrew Feldman).

Конечно, чип от Cerebras не может быть недорогим. Скорее всего, его стоимость намного превысит цену ускорителей Nvidia H100 — они продаются примерно по $30 тысяч.

В ближайшем будущем компания раскроет больше информации о чипе, суперкомпьютере, включая стоимость того и другого