Встречаем WSE-2: 7-нм процессор с 850 тысячами ядер и энергопотреблением в 15 кВт


    Компания Cerebras два года назад представила свой первый процессор, размер которого был равен размеру кремниевой пластины. Площадь его составила 46 225 мм², размеры — 220х220 мм, количество транзисторов — 1,2 трлн. Первый чип получил название WSE (Wafer Scale Engine) и производился по нормам 16-нм техпроцесса.

    Что касается нового чипа, то он выполнен уже по нормам 7-нм техпроцесса. Площадь осталась той же, а вот транзисторов в два раза больше — теперь 2,6 трлн. Количество ядер тоже увеличилось более чем в два раза: 850 тысяч вместо 400 тысяч, как у предыдущей модели. Процессор предназначен для дата-центров, задач по обработке вычислений в области машинного обучения и искусственного интеллекта (AI).

    Подробности создания и характеристики WSE-2


    У чипа 40 ГБ встроенной памяти SRAM — на 22 ГБ больше, чем у предыдущей модели. Пропускная способность составляет 20 Пб/с. При этом энергопотребление чипа осталось на прежнем уровне — 15 кВт.


    Отметим, что этот процессор — не концепт, а вполне себе рабочая система. Его создатели добиваются очень высокой производительности благодаря сшиванию штампов на кремниевой пластине посредством коммуникационной сети. Общая пропускная способность в итоге повышается до 220 Пб/с. Частота ядер — от 2,5-3 ГГц.
    Cerebras Wafer Scale Engine 2 Cerebras Wafer Scale Engine Nvidia A100
    Process Node TSMC 7nm TSMC 16nm TSMC 7nm N7
    AI Cores 850,000 400,000 6,912 + 432
    Die Size 46,255 mm2 46,255 mm2 826 mm2
    Transistors 2.6 Trillion 1.2 Trillion 54 Billion
    On-Chip SRAM Memory 40 GB 18 GB 40 MB
    Memory Bandwidth 20 PB/s 9 PB/s 1,555 GB/s
    Fabric Bandwidth 220 Pb/s 100 Pb/s 600 GB/s
    Power Consumption (System/Chip) 20kW / 15kW 20kW / 15kW 250W (PCIe) / 400W (SXM)

    Чип сам по себе бесполезен, но компания специально для него разработала систему 15U, которая заточена исключительно под характеристики WSE-2. Система второго поколения почти ничем не отличается от системы первого. Блоки первого поколения ранее были отправлены заказчикам. Один из них установлен в Аргоннской национальной лаборатории министерства энергетики США. Она использует первую систему для научных целей — например, изучения черных дыр, а также для работы с медицинскими проблемами вроде анализа причин раковых заболеваний. Другим заказчиком стала Ливерморская национальная лаборатория.


    В продажу чип и система для него поступят в третьем квартале 2021 года. Цена пока неизвестна.

    Компания заявила, что компилятор легко масштабируется, так что проблем с использованием уже существующей экосистемы приложений нет. WSE-2 понимает стандартный код PyTorch и TensorFlow, который легко модифицируется с помощью специализированных программных инструментов и API-интерфейсов.

    В чем уникальность такого процессора?


    Именно в размере. Дело в том, что работать с одним большим чипом, площадь которого равна площади кремниевой пластины, очень сложно. Обычно микросхемы создают на круглых кремниевых пластинах диаметром 30,5 см. Из каждой можно изготовить 100 чипов.

    Но далеко не все изготовленные чипы можно использовать, процент брака довольно велик. Проблема в процессе травления цепей в кремнии. Он настолько сложен, что не всегда проходит без ошибок и некоторые цепи в итоге просто не работают. Благодаря тому, что современные процессоры небольшие, процент ошибок невелик. Чем выше площадь чипа, тем больше вероятность получения дефектов, которые не позволят нормально использовать чип.

    Большие процессоры пытались производить и ранее. Например, в 1980 году экс-сотрудник IBM Джин Амдал основал компанию Trilogy. Она получила целых $230 млн инвестиций, но в итоге так и не смогла выпустить готовый продукт, так что в 1985 году ее закрыли.

    А вот у Cerebras, похоже, все получилось. Каким образом ей удалось достичь успеха, пока неясно, но, раз готовый продукт уже используется клиентами, значит, все хорошо. По словам представителей компании, WSE способен обучать системы AI в 100−1000 раз быстрее, чем существующее оборудование. Этого удалось достичь благодаря фильтрации нулевых данных ядрами SLAC (Sparse Linear Algebra Cores). Они оптимизированы для вычислений в векторном пространстве. Кроме того, разработчикам удалось создать технологию «утилизации разреженности» (sparsity harvesting) для повышения производительности вычислений при разреженных рабочих нагрузках (содержащих нули), таких как глубокое обучение.

    Selectel
    IT-инфраструктура для бизнеса

    Комментарии 66

      +6

      На минутку подумал, что такое дело можно будет у вас в облаке арендовать, даже загордился за российского провайдера :)


      Железка однако весьма достойная, и когда о ней появилась первая информация, вызвала даже волну отрицания, что такое невозможно изготовить, а если возможно, то невозможно собрать в систему и охладить, а если и возможно, то всё равно никто не купит. Однако, клиентов хватает, судя по всему. Вот откуда дефицит чипов, если на каждый церебрас по целой пластине тратить :)

        0
        если на каждый церебрас по целой пластине тратить

        Еще интересно сколько там пластин в мусор уходит, чтобы получить одну годную.

          +23

          Думаю нисколько, насколько я понимаю, там с запасом натыкано и ядер и интерконнектов и все дефектные просто отключаются и обходятся вокруг. Иначе вообще ни одного нереально было бы выпустить.

            0

            Эдакий МультиКлет, получается.

              0
              Интересно, возможна ли малварь (ну или не малварь), которая оживляет заблоченные на заводе ядра и биткоины на них майнит (пусть иногда с ошибками). Оверклокинг будет не по количеству мегагерц выше нормы, а по количеству ядер :).
              +1
              ще интересно сколько там пластин в мусор уходит, чтобы получить одну годную.
              Они заявляют про процент выхода годных 100%, с учетом наличия в первом поколении 1.5% запасных ядер, а во втором — «намного меньше, чем в первом».
                0
                У амд с пластины около 30% брака при их чиплетах на 7 нм по статьям выходило. Если продумали систему, как отрубать бракованные ядра по одному-группами меньше чиплетов амд, то общий ущерб пластине будет сильно меньше. Видимо с хорошим запасом делают.
                  0
                  30% брака это на старте линии или на уже отлаженной? А то эти цифры значительно различаются.
                    0
                    Статья была в общем, анализ какой-то. И там было: мол у АМД вот типа 30% брака на zen2, а у интела чуть ли не 75% для 28 ядерных. С другой стороны у амд чиплеты весьма активно сортируются и полубрак в младшие процы уходит по всем параметра (и по частотам ядер, и по потреблению, и по отключению ненужных ядер) — и не понятно поэтому насколько цифра изменится, если задача сделать те же апушки для приставок (где монолитные кристаллы в несколько раз больше габаритами и с большей точностью параметров нужны), там может и больше быть.

                    Но, если у обсуждаемых можно весьма гибко плохие места отключать от общей системы, то чем чёрт не шутит, могут и все пластины в итоге быть рабочими, просто на самом деле там может ядер процентов на 10 больше, например, да и параметры по частотам выбраны не максимально возможные на отсортированных ядрах, а какие-то не самые высокие.
              0
              На нём crysis хоть пойдёт?
                0

                нет, только брутал дум кое-как

              +2

              При напряжении питания ядра, допустим, 1 Вольт, пиковый ток составит 15 кА.


              Подвести такое по печатной плате очень сложно, сделать такую плату которая обеспечит подведение такой мощности с минимальным падением напряжения еще сложнее.
              Вероятно для каждого из 12*7==84 SoC (каждый из которых может потреблять до 15kW/84==178W) на обратной стороне платы стоит компактный индивидуальный источник питания. Звучит уже вполне жизнеспособно.


              После такого, вылезает второй вопрос: как они все это паяют? Понятно, что с паяльной пастой на печатной плате, с печью (smt reflow oven), но на таких масштабах любая неровность платы будет приводить к браку, любые температурные неоднородности в процессе нагрева будут вызывать такие неровности.


              Допустим, спаяли. Даже запустили. В пиковом режиме эта штука выделяет до 15 киловатт. Как это охлаждать? :D


              В общем вопросов после статьи больше чем ответов :)

                +1

                Там ко всей плате подводится питание, ага. А с другой стороны равномерно тепловые трубки и дальше вода. Но всё равно это нужно включать в особом режиме, чтобы равномерно прогревалось и потом нагрузку тоже балансировать туда-сюда по ядрам. У них была крутая презентация на hotchips в прошлом году про эти системы. Хотя совсем детальных деталей никто не расскажет — ведь это то, что отличает их от конкурентов и почему их малореально сходу повторить.

                  0
                  тепловые трубки не унесут столько мощности с такой площади, инфа 100%. по трубкам надо сразу воду качать
                    0
                    У 3M есть специальная жидкость для погружного охлаждения. Она просто кипит на поверхности кристалла.
                      0
                      При кипении теплоотвод ухудшается из-за образующихся пузырьков пара. Проточная вода в данном случае наверно эффективнее.
                        0
                        Проточная вода проводит электричество в отличии от этой жидкости. И её как минимум местами используют, хоть она очень дорогая и активно испаряется. Возможно на глубине за счёт давления пузырьки крошечные и не влияют. Зато работает естественная конвекция, плюс пожаробезопасность.
                          0
                          Так тут 15 кВт на 0,05 м. Ну и вода контакта непосредственного не имеет с кристаллом, снимает тепло с цельной медной пластины — фотка ниже.
                          Можно дейтерийной водой непосредственно охлаждать, у неё проводимость гораздо ниже, а цену такого контура владельцы Cerebras себе наверняка позволить могут.
                            0
                            А если протечка? Минус дорогущий сервер и те что под ним. К тому же на самой материнке нужно часть горячих элементов охлаждать(те же конвертеры питания или мосты).
                            А так бахнул комп в сухую воду или масло. И защита и охлаждение.
                  +2

                  В прошлой статье есть пара интересных картинок.

                    0

                    Хм, а в чём тогда новизна этой? :))

                      +3

                      Там рассказали, а тут выпустили :)

                        +1

                        Я имею в виду — в чём новизна статьи, которую мы обсуждаем :) По прошлой ссылке всё тоже самое описано. Селектел окончательно заленился и пошёл рерайтить собственные материалы по второму кругу?

                          +2

                          Ну там я так понял был анонс что мол вот будем такое делать, а тут уже готовый продукт.

                            +1
                            В продажу чип и система для него поступят в третьем квартале 2021 года

                            Не особо отличается от анонса :)


                            Ну, а с точки зрения простых пользователей (а не атомных лабораторий), так и вообще никогда — и цена 5-10лямов и не продаст никто (такой суперкомпьютер в коробке, щас).

                              +1
                              Может, когда-то подобное будет в AWS с прайсом в $5000 в час…
                              Тогда представляю стартаперов, которые будут рассуждать «что-то пока наша модель, которая должна сделать прорыв в ИИ не фитится, но ничего, чуток инвестиций поднимем, часов 100 возьмем машинного времени, и тогда стартап точно взлетит»
                    +3
                    ". Как это охлаждать? :D"
                    СЖО Cerebras

                    СЖО Cerebras
                      0
                      про питание и охлад, тут более менее на слайдах понятно: 3dnews.ru/992698
                      –7
                      Интересно, почему столь скучным заказчикам достается такая мощь. Неужели обладание подобным чипом не может дать буст Гуглу в улучшении поиска, Тесле в улучшении автопилота, или, Фейсбуку в оптимизации рекламы?
                        +12
                        А что, проведение симуляции атомных взрывов уже записали в скушности?
                          +2
                          Это как раз очень даже весёлые заказчики.
                            +1

                            У вас иммунитет от рака?

                              –1
                              Она использует первую систему для научных целей — например, изучения черных дыр, а также для работы с медицинскими проблемами вроде анализа причин раковых заболеваний.
                              лишь бы не вышло как тут — а что это у вас тут жёлтенькое?
                              На второй вопрос ответ вероятно будет содержаться в первом предложений из соседней статьй. Человек — это то, что он потребляет. Осталось только выделить конкретный маркер.
                              0
                              в Тесле особенно 15кВт лишние, ага
                                0
                                видимо, речь идет про обучение, а не про бортовую систему.
                              0

                              Вот он — триумф вертикального масштабирования! In-memory база данных поверх такого процессора способна будет обрабатывать десятки, сотни миллионов или возможно даже миллиард serializable транзакций в секунду и способна заменить сотни/тысячи серверов (и тот огромный оверхед при реализации распределенных транзакций в случае горизонтального масштабирования) определенно точно найдет своего покупателя.
                              Интересно как в этом процессоре работает механизм cache-coherence который обеспечивает CAS ("compare-and-swap") и другие атомарные обновления памяти? Cache-coherence это другими словами реализация атомарного бродкаста и поскольку это и так самая сложная часть при проектировании современных процессоров то здесь при 850 тысяч ядрер и возможном отказе этих ядер по отдельности проектировщики должны были выйти на уровень распределенных систем (интересно они реализовали paxos в железе?)

                                +1

                                Никак. Это же не процессор общего назначения.

                                  0
                                  Чую для баз данных скоро тоже будут делать специализированные процессоры. Ещё более оптимизированные. Следующий шаг — реализация элементов языков запросов силами процессора, индексация таблиц силами встроенной памяти (типа «умная память» с дополнительной обработкой информации).
                                    0
                                    думаю с транзакциями там было бы все очень очень плохо, ибо очень большие проблемы горизонтальной синхронизации данных и т.п. для ридонли возможно разве что
                                  +1
                                  Привели бы единицы измерения в столбцах к одной размерности. А то к Nvidia A100 пропускная шины в гигабайтах/сек, а к Cerebras в петабитах/сек.
                                  К битам или байтам.
                                    0
                                    Зачем? Ведь в попугаях (битах вместо байт), удав получается значительно длиннее! (с) маркетологи.
                                    0
                                    Интересно почему он не круглой формы раз размером с кремниевую пластину, зачем же лишнее отрезать?
                                      0
                                      Технология видимо не позволяет изготовлять круглые процессоры, т.к. адаптирована с маленьких. А значит там остаётся пустое место, которое никак не задействуется. Его откалывают и отправляют на повторный круг.
                                        0
                                        Его откалывают и выбрасывают. Кстати если они их сразу не уничтожают, то скоро на ali появятся миниатюрные Cerebras из кусочков :-)
                                        +1
                                        Делали бы уже шар, с сокетом в виде двух полушарий и в сокете же подведение воды…
                                          0
                                          Потому что все литографические шаблоны (через которые «проецируется» схема чипа на пластину) и литографическая оптика работает с прямоугольными областями, разработанными для производства классических чипов. Никто под один даже сверхсложный чип свое собственное производственное оборудование разрабатывать и строить свои собственные отдельные заводы не будет, используют(адаптируют) то, что уже имеется.

                                          Вот из таких областей (их на фото четко видно 12х7 «плиток») чип и составлен. Края куда уже не вписывается еще один подобный прямоугольных обрезаны.
                                            0
                                            Края куда уже не вписывается еще один подобный прямоугольных обрезаны.
                                            В целом вы правы, но все чуть-чуть сложнее.
                                            image
                                              0
                                              Это усложнит технологию отделения кристаллов. Квадрат вписанный в круг легко отделить автоматически(и потом поделить на дольки), а вот огрызки придётся вручную доламывать.
                                          –2
                                          Интересно, сколько мегахешей даст на эфире или битке? :)
                                            –3
                                            Интереснее, сколько хешей на Вт приходится. А то может цифра будет впечатляющей, но платить за 15 кВт…
                                              +6
                                              Все.
                                              0

                                              Цена известна?

                                                0
                                                Порядка 5 миллионов долларов за системный блок.
                                                +1
                                                Интересно, 1С ERP потянет?
                                                Поговаривают, что там минимальные требования от 250мм х 250мм
                                                  –2
                                                  Ждём тестов в майнинге
                                                    +1

                                                    Так мы его почти год назад встречали уже. И на Хабре писали:
                                                    https://habr.com/ru/company/selectel/blog/516516/
                                                    Тут конечно информации чуть больше. Но ажиотаж все равно непонятен.
                                                    А еще на многих ресурсах восхищенно обсуждают кол-во ядер. Забывая, что это не те ядра, что мы привыкли видеть в цп, а ближе к тем, что в видеокартах. Которые, кстати, тоже исчисляются тысячами давно.

                                                      0
                                                      В 90х был проект транспютеров с языком параллельного программирования Оccam. Может опять станет востребованным. Тогда он работал на десятках связанных процессоров
                                                        0

                                                        Кмк, даже не учитывая языков вроде erlang, любой современный язык сможет утилизировать все эти 100500 ядер. Все зависит от архитектуры приложения и системы.

                                                        +1
                                                        Одно не понятно: зачем на одной платине? В чём преимущество? Почему нельзя разрезать и установить отельные кристаллы как делала IBM для своей System/390 ES9000 Enterprise Server mainframe computer ещё в 90-х?
                                                          0

                                                          850к ядер? Даже если по 16 ядер на кристалл, это будет 53к кристаллов. На одной пластине проще сразу все сделать.

                                                            +1
                                                            Эм… так там же не те ядра. Даже в статье сравнивают с нвидиевским ядром. У которого по 7к ядер на кристалле.
                                                            +2
                                                            Все ради увеличения пропускной способности памяти. Это просто следующий шаг по сравнению с упомянутым вами девайсом от IBM. На него раньше не решались, потому что предыдущие попытки неизменно ломались об низкий процент выхода годных.
                                                              0
                                                              Не смешите. Пропускная способность памяти с одного края кристалла до другого будет не лучшей. Судя по квадратикам на пластине там N ядер + память разбиты на ячейки. И именно эти ячейки делают вычисления. Не думаю, что данные там сильно бегают от ячейки к ячейке. Если пластину разрезать и смонтировать эти ячейки так как у того же IBM — ухудшится всё не сильно. Но зато конструктив упростится, меньше проблем с неравномерным нагревом кристалла, с хрупкостью и тому подобным. Это больше похоже на "А потому что могём! А потому что круто!". Да можете. Да круто. Вот только преимуществ толком не даёт.
                                                                +1
                                                                Не думаю, что данные там сильно бегают от ячейки к ячейке.
                                                                Заявленная пропускная способность коммутационного массива — 220 петабит в секунду.

                                                                Если пластину разрезать и смонтировать эти ячейки так как у того же IBM — ухудшится всё не сильно.
                                                                Ухудшится принципиально. Емкость линии между двумя чипами — несколько пикофарад, индуктивность — несколько наногенри. Когда мы говорим о сотнях тысяч или миллионах линий, этого вполне достаточно, чтобы серьезно влиять и на быстродействие, и на энергопотребление.
                                                            0
                                                            Интересное железо

                                                            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                            Самое читаемое