Как стать автором
Обновить

Cerebras Systems представила компьютер с самым большим в мире процессором 22×22 сантиметра

Время на прочтение5 мин
Количество просмотров33K
Всего голосов 36: ↑36 и ↓0+36
Комментарии144

Комментарии 144

Темы подвода питания к процу, реальной скорости и охлаждения не раскрыты, жаль.
Вот это да, кстати.
С одной стороны снимать 17 кВт тепла с такой пластины наверное можно (с того же интела снимается в 200 раз меньше (TDP 95 Вт) с площади еще намного меньше). Но как? 9 хороших утюгов в размере двух.
С другой стороны — ну пусть 3.3 В питание (это не точно) => 5 kA => 1700 mm^2 меди (это если одним куском)… И земли столько же. Яссе шина…
А так как не одним куском, то будет стоять эта пластина на венике из проводов питания, как столик.
И радиатор в сауну вывести.
17 кВт — это подводимая мощность.
рассеиваемая явно меньше. киловатт 5 поди, а то и меньше. небольшой такой калорифер.

Подводимая электрическая 17кВт, рассеиваемая тепловая 5, куда остальные 12 киловатт деваются???

Это как в анекдоте

— Кем у тебя папа работает?
— Трансформатором!
— Это как?
— Получает 220, домой приносит 110, на остальные гудит.

В зарплату изобретателям ЕГЭ деваются.

Но автор коммента как раз таки закончил школу до введения ЕГЭ...

Согласен, не очень производит процессор «полезную работу».
Если не считать идеи, что остальное процессор испускает не в тепло, а в диапазоне своих гигагерц частоты (ядра свое ЭМИ, кэш — свое, граф. ядро — ещё на другой частоте).
всё это очень удачно поглощается радиатором с одной стороны и платой с контактами с другой (а за платой еще и прижимающая пластина как правило)
Ну медный радиатор конечно поглотит излучение (или может отразит какое-то).
НЛО прилетело и опубликовало эту надпись здесь
Ну хорошо. Часть мощности идет на деградацию кристалла.
«Деградация кристалла» это один из видов энергии, или что? Почти все, что получает процессор, он тратит на нагрев. Это просто довольно эффективный нагревательный элемент с побочным эффектов в виде изменения путей протекания тока в нем, что вы трактуете как вычисления.

Какая часть из 17 кВт, по вашему, идёт на деградацию кристалла? Строительный перфоратор мощностью 1кВт бодро так бетон дробит. 17кВт — это как небольшой трактор, разрушения должны быть соответствующими (если аккуратно их не рассеивать).

НЛО прилетело и опубликовало эту надпись здесь
ЭМИ? Навскидку по мощности нефиговая такая микроволновка. 12 киловат электромагнитными волнами убили бы всю живую электронику в радиусе полуметра или даже более. Стандартная домашняя микроволновка имеет мощности 700-1.2 Кватт и магнитрон от неё без защитного кожуха палит электронику уже в 20-30 см.

Креосан подтвердил про магнетрон!

Расходуются на полезную работу, не?
Разумется, нет. Работа в понятии физики и в бытовом понятии очень сильно отличается.

Представьте, что вы засунули этот процессор в спутник, стенки которого экранируют любые излучения от процессора, и вывели его в космос. Куда может деться электрическая энергия? Очевидно не в кинетическую или потенциальную энергию, так как они не изменяются. Очевидно не в результаты вычислений, так как это лишь нули и единицы в постоянной памяти и энергия у них всегда (приблизительно) одинаковая.
По закону сохранения энергии, все энергия уйдет в тепловую энергию спутника и потом частично «уйдет» за счет инфракрасного излучения стенок спутника.

То есть вывод — любой процессор с точки зрения физики это просто нагревательный элемент, превращающий электроэнергию в тепло или излучение. А результаты вычислений это лишь побочный эффект, которые не является «работой» c точки зрения физики.
Очевидно не в результаты вычислений, так как это лишь нули и единицы в постоянной памяти и энергия у них всегда (приблизительно) одинаковая.

Ага. На регенерацию емкостей в оперативной памяти — энергия не тратится?
На переключение затворов на транзисторах — не тратится?
На инжекцию в плавающие затворы (флэш-ячейки) — не тратится?

По закону сохранения — энергия, рассеянная выделением тепла — меньше, чем подведенная электрическая. Потому что часть ушла на полезную работу.
В статье написано, что вафля потребляет 17 кВт, очевидно, что рассеиваемое тепло меньше 17 кВт. Вопрос только в КПД схемы.
энергия не тратится

Главный закон сохранения энергии — «суммарная энергия замкнутой системы всегда постоянна».

Следовательна на «регенерацию емкостей, инжекцию в плавающие затворы, переключение затворов на транзисторах» может тратиться не больше, чем она может накапливаться во внутреннем состоянии системы (например, при переходе электровой атомов в более энергетически эмкие орбиты, химические реакции с поглощением тепла и т.п.).

То есть это не «трата энергии», а аккумулирование и емкость даже если представить, что процессор самый лучший аккамулятор, очень ограничена и очень быстро энергию он должен будет отдать обратно.

Поэтому рассматривая работу такого спутника годами — 100% энергии будет превращено в тепловую энергию.

Вопрос только в КПД схемы.

100% на превращение электроэнергии в тепло или излучение. Всегда 100%. Небольшое временное аккамулирование энергии за счет изменения внутреннего состояния не имеет значение, так как она в любом случае будет отдана обратно.

переключение затворов на транзисторах

Ну вот представьте, что этот затвор вообще один в космосе, вы переключили затвор в одно положение, потратили энергию, потом в вернули обратно, но энергию не получили обратно, потом снова переключили затвор и так до бесконечности. Получается у вас энергия утекает в бездонную трубу и никогда не возвращается обратно, что полностью нарушает закон сохранения энергии.

Ну или иначе, при стремлении к бесконечности, затвор должен будет хранить всю энергию Вселенной где-то внутри себя.
Главный закон сохранения энергии — «суммарная энергия замкнутой системы всегда постоянна».

При чем тут замкнутая система? Она открытая. Единственный путь утечки — это потери на выделение тепла, да.

И эти потери всегда меньше, чем подводимая электрическая мощность.
Спутник в космосе, единственный вид утечки тепло, вы сначала переключили завтор в одно положение, потом обратно. В какой вид энергии превратилась, потраченная на его переключения энергия?
Ни в какой. Подали напряжение на затвор — часть заряда стоит на затворе в виде электрического поля, увеличился ток через канал транзистора.
Сняли напряжение с затвора — заряд стек. Частично рассеялся в виде тепла. Ровно туда же в тепло — потери, вызванные сопротивлением цепи. И этого тепла меньше, чем подвели энергии.
Частично рассеялся в виде тепла. Ровно туда же в тепло — потери, вызванные сопротивлением цепи. И этого тепла меньше, чем подвели энергии.

Отлично, теперь назовите энергию, в которую ушла остальная часть. Виды энергий тут, полезной работы там нет.
В электрическую, епт.
Отношение выделившейся тепловой к подведенной электрической есть коэффициент тепловых потерь.
В электрическую, епт.

Если мы подвели к процессору 20Квт, на сдачу получили 3Квт, то значит мы потратили только 17Квт и все эти Квт'ы ушли в тепло.

Еще рассмотрим изолированную систему — спутник, летящий в космосе с стенками, изолирующими любые электромагнитные излучения, внутри лежит аккмулятор на определенное кол-во энергии и процессор, выполняющий любые вычисления.

Я утверждаю, что 100% энергии, запасенной в аккумуляторе, уйдет или в тепло/тепловое излучение или в увеличение внутренного состояния системы (по факту, сохранится в другом виде аккумулятора). Никаких трат «на полезную работу процессора» там не будет и быть не может по закону сохранения энергии.

Если не согласны, покажите энергию, в которую ушло все не потраченное на тепловую энергию.
100% энергии, запасенной в аккумуляторе, уйдет или в тепло/тепловое излучение или в увеличение внутренного состояния системы

Вопрос — какими темпами. Ответ — зависит от энергоэффективности компьютера. А так — рано или поздно конечно уйдет в тепло.
Никаких трат «на полезную работу процессора» там не будет и быть не может

Еще раз: траты на коммутацию цепей — не полезная работа?
НЛО прилетело и опубликовало эту надпись здесь
Едва ли на них хотя бы сто ватт потратится.
Ох, как вы заблуждаетесь. Зарядка паразитных RLC-цепей на таких проектных нормах превалирует над зарядкой собственно затворов транзисторов.
НЛО прилетело и опубликовало эту надпись здесь
Они сначала заряжаются, а потом разряжаются, и так миллиард-другой раз в секунду.
НЛО прилетело и опубликовало эту надпись здесь
Ну потратиться туда может все 17 киловатт. Но эти же 17 киловатт выйдут в виде тепла. Потом что заряженный конденсатор при перезарядке всю запасенную энергию отдаст обратно, и соответственно в сумме за долгий период времени (хотя бы за миллисекунду) безвозвратно на коммутацию цепей не будет потрачено _ничего_. Совершенно буквально ничего — даже микроватт туда не пойдет. Все поданные 17 киловатт выйдут в виде тепла. Ну ладно, десяток ватт выйдет в виде электромагнитного излучения в гигагерцовой области спектра (в радиоволны) и сколько-то нановатт пойдут на деградацию кристалла.
Потом что заряженный конденсатор при перезарядке всю запасенную энергию отдаст обратно, и соответственно в сумме за долгий период времени (хотя бы за миллисекунду) безвозвратно на коммутацию цепей не будет потрачено _ничего_.

Ещё как будет потрачено! Дело в том, то коммутируете вы цепи в любом случае ключами, чаще всего — полевыми транзисторами с ненулевым сопротивлением открытого канала. Плюс, и это очень важно, при переключении транзистора сопротивление канала изменяется не мгновенно, и в момент переключения тепла может начаться выделяться даже больше. Особенно это заметно, когда переключаться транзистору приходится по 4e9 раз в секунду.
Ну я и говорю — в тепло будет преобразовано. Еще чуть-чуть (совсем мало, по сравнению с изначальными 17 кВт) в ЭМ-излучение гигагерцового диапазона. Но именно на переключение — ничего. Я опровергал мысли кого-то тут, кто утверждал, что в тепло там пойдет киловатт пять, а остальные 12 — на полезную работу (на переключения), но почему-то не в тепло.
Для чистого полупроводника подача напряжения с повышением его проводимости соответствовало бы повышению концентрации носителей. Это требовало бы каких-то затрат энергии. Но, нужно предположить ещё 2 фактора:
1. В легированном п/п может быть не так, носители уже есть.
2. Эта «потраченная энергия» потом возвращается при скажем переходе p-n-перехода в «закрытое» состояние при подаче обратного напряжения.
Вопрос — какими темпами. Ответ — зависит от энергоэффективности компьютера

Ответ известен — процессор потребляет 17Квт электроэнергии каждую секунду. То есть полностью потребляет, сдачу обратно в сеть он не дает.

КПД нам не важно, поменяет он триллион или десять триллионов ячеек за эти Квт'ы.Важно, что если у нас в аккумуляторе есть 17Квт * час энергии, то он полностью разрядится ровно через час.

И все эти 17Квт * час энергии, как вы заметили, уйдут в тепло, так как им больше некуда деваться.

Дальше возвращаемся на Землю, если у нас процессор потребляет 17Квт энергии каждую секунду, то какую полезную работу он бы не делал и с каким кпд эта работа не делалась, то на отводить нужно тоже около 17Квт тепловой энергии (так вся энергия потраченная на полезную работу все равно потом выйдет в виде тепловой, ну и небольшое кол-во в виде излучения) иначе рано или поздно процессор переегреется и сгорит.

То есть для процессора, который работает годами и постоянно каждую секунду потребялет 17 Квт, нужно так же постоянно каждую секунду отводить около 17 Квт тепловой энергии, по другому никак.
Ответ известен — процессор потребляет 17Квт электроэнергии каждую секунду.

17 кДж электроэнергии каждую секунду. Киловатт — это уже килоджоуль в секунду.
НЛО прилетело и опубликовало эту надпись здесь
Закон сохранения тоже?
НЛО прилетело и опубликовало эту надпись здесь
То, что пошло на зарядку — уйдет обратно в цепь и стечет по паразитным цепям.
Вопрос в энергоэффективности схемы.
Ушедшее обратно в цепь — остается на конденсаторах в цепи питания. И используется для питания схемы на следующем такте (но большая часть — все-таки в процессе переключений уходит в тепло и не доходит даже до металлизации планов питания).
Обратно в розетку не утечет — нет там такой возможности.
НЛО прилетело и опубликовало эту надпись здесь
Какую механическую работу совершает процессор?

<sarcasm>
Расширяется и сжимается под переменной вычислительной нагрузкой.
</sarcasm>
Электрострикцей обладают все диэлектрики.

Так что оксид кремния (который уже давно оксид гафния или ещё что-то) вполне может немного изменять форму от того напряжения в полтора вольта. Конечно на конкретном кусочке диэлектрика там куда меньше по идее напряжение.
17квт — потребление не процессора, но компьютера в целом. Вряд ли там «обычной» памяти меньше гигабайт эдак 700, ну и остальная обвязка тоже греется.
В нем нет обычной памяти — она не предусмотрена, как и шины и контроллера памяти как и многих других привычных для классических архитектур вещей.
Кроме собственно процессора, цепей питания к нему и системы охлаждения в нем особо ничего и нет. Вся дополнительная память (как оперативная, так и диски) в отдельном сервере/серверах, общение с которым(и) идет через многоканальную скоростную сеть. Отдельных сетевых контроллеров тоже нет, они тоже интегрированы в сам «процессор». В кавычках т.к. это SoC — вычислительные ядра равномерно перемешаны с локальной сверхбыстрой SRAM памятью (причем работающей именно как основная рабочая память, а не кэш для внешней памяти), с интегрированными внутренними сетевыми свичами и 12ю сетевыми контроллерами для общения с «внешним миром».
ага, понятно, спасиб
Не успел дописать в предыдущий пост. Шина памяти формально есть, но не у процессора, а в каждом из 400 000 ядер своя собственная. Т.е. 400 тысяч независимо работающих шин памяти, каждая на очень коротких расстояниях, за счет чего можно добиться очень высоких скоростей и минимальных задержек.

Судя по всему они почти 1в1 повторили общую архитектуру/подход реализованную еще в самом первом серийно производившимся нейроморфном чипе SpiNNaker — apt.cs.manchester.ac.uk/projects/SpiNNaker/SpiNNchip
Где было 64 КБ SRAM TCM (tightly-coupled memory) памяти под данные и 32 КБ под код в каждом ядре, а общение между всеми ядрами шло уже не по классическим шинам, а через интегрированную в сам чип асинхронную, но сверхбыструю p2p сеть с минимальными задержками за счет аппаратных (так же интегрированных в чип) свичей/роутеров.

Только тут память в 2 раза порезали, до 32+16 КБ = 48 КБ на ядро (в сумме получается как раз заявленные ~18 ГБ на 400к ядер).
Но зато совершили гигантский скачок в количественном плане за счет использования современного технологического процесса (со 130 нм в SpiNNaker до 16 нм в WSE) и многократного наращивания площади чипа до полной пластины (с 102 мм² до 46 225 мм²)

В результате теперь в одном мега-чипе умещается аналог почти половины суперкомпьютера, который только недавно наконец-то собрали из тех самых SpiNNaker (подробнее про это — habr.com/ru/news/t/429200 )

таки да — переупаковали так сказать ;)
действительно, зачем каждый чип паковать в отдельный корпус когда оказалось возможно вот так на одну пластину.
Теперь он реально в физическом пространстве выстраивает "нейронные связи" обходя неработающие участки или таким образом реализуя функции алгоритма или сохраняя именно в этих связях данные.
Что-то из этого количества просто должно уже перерости в какое-то новое качество — пора уже :)

Главное — чтобы каждый чип имел металлическую крышку, способную рассеивать тепло куда надо, а не на крышки соседних чипов.
Про питание и охлаждение еще в прошлый раз в комментариях под предыдущей новостью об этом мегачипе выяснили. Начиная примерно вот с этого комментария: habr.com/ru/news/t/464271/#comment_20526237

И дальше по ветке

justhabrauser
Спасибо!
Видимо, сработала одна из вариаций законов Мерфи: как только отписался от обновлений ветки в трекере, там началось самое интересное.
PS посмотрел на презентацию и комменты — всё равно не хватает фото водоблока с сотнями подводов охлаждающей жидкости, хтоническое должно быть зрелище.
НЛО прилетело и опубликовало эту надпись здесь
Было заявлено как фича, что температура блоков кристаллов мониторится и к более горячим блокам идёт больше воды, а к прохладным — меньше, ибо тепловое расширение может сломать кристалл.
Котёл нагрет более равномерно.
НЛО прилетело и опубликовало эту надпись здесь
И мониторингом с обвязкой каждого клапана?
1 сдохший соленоид может убить здоровенный процессор.
У медной пластины очень неплохая теплоемкость. Так что только один соленоид ничего не поменяет. Вот если несколько сдохнут с одного края — тогда да.
Что-то мне подсказывает, что это слишком интересные темы, чтобы их раскрывать. Иже — коммерческая тайна. Поскольку какому-нибудь гуглу тоже это может быть интересно.
Благозвучней не " система распределяет 400 000 ядер и 18 гигабайт памяти SRAM на чипе по слоям нейронной сети", а "… системой слои нейронной сети распределяются на 400 000 ядер и 18 гигабайт памяти SRAM на чипе".
На самом деле интересная реализация. Сколько нанометров? 7 или пока больше?
Сделать большую пластину с огромным количеством ядер. И пусть даже честь из них не работает. Но архитектура решения позволит это обойти.
И если я правильно понял компоновка транзисторов в 2D.
На пластине я вижу 84 отдельных чипа.
А если использовать технологию сквозных металлических соединений как в чипах памяти
И делать пирог из этих чипов. И столбики таких чипов располагать на интерпрозере как делает АМД. Использовать интерпрозер вместо обеднения в рамках 1 пластины.
Правда главный вопрос что делать с охлаждением…
Интересно как на данный момент обстоят дела с охлаждением чипов посредством микро каналов в кремни?
А можно ли с помощью такого чипа смоделировать мозг животного крысы например?
А можно ли с помощью такого чипа смоделировать мозг животного крысы например?

Такими темпами и инвестициями, я так чувствую, скоро сильный ИИ войдет в нашу жизнь также как вошел слабый.
А если использовать технологию сквозных металлических соединений как в чипах памяти
Они огромные, ими много соединений не сделать. И, как вы сами заметили, непонятно как такого трехмерного монстра охлаждать. Дела с микроканалами в кремнии обстоят никак, потому что они забиваются содержащимися в охлаждающей жидкости примесями.
Больше, про это в прошлой статье было:
Технологический партнёр TSMC производит эти чипы по техпроцессу 16 нм.

Разработка этого чипа еще 3-4 года назад началась — под имевшиеся тогда технологические нормы.

Это не отдельные чипы, а «отпечатки» фотолитографического шаблона, размер которого существенно ограничен имеющимся производственным оборудованием. Такой большой чип невозможно экспонировать при литографиии весь целиком за один раз, поэтому это делается такими вот сегментами по частям.
А можно ли с помощью такого чипа смоделировать мозг животного крысы например?

Rattus norvegicu, вся нервная система — 200к нейронов. Кора больших полушарий — 31млн.

Blue Brain Project — проект по компьютерному моделированию головного мозга человека. Начался в июле 2005 года. Над проектом совместно работают компания IBM и Швейцарский Федеральный Технический Институт Лозанны (École Polytechnique Fédérale de Lausanne — EPFL). Проект планируется закончить к 2023 году.

Проект использует суперкомпьютер Blue Gene. В конце 2006 года удалось смоделировать одну колонку новой коры молодой крысы. При этом использовался один компьютер Blue Gene и было задействовано 8192 процессора для моделирования 10000 нейронов. То есть практически один процессор моделировал один нейрон. Для соединения нейронов было смоделировано порядка 3⋅107 синапсов.

Загрузка сознания
ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%B3%D1%80%D1%83%D0%B7%D0%BA%D0%B0_%D1%81%D0%BE%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D1%8F

В 2013 году для симуляции 1 секунды работы 1% человеческого мозга потребовалось 40 минут на кластере из 82 944 процессоров 10-петафлопсного K computer. Учёные попытались повторить работу 1,73 млрд нервных клеток и 10,4 трлн соединяющих их синапсов, на каждый из которых ушло 24 байта.

На хабре, вроде, описывался эксперимент где 15к ядер использовали для симуляции, но найти статью не смог.

прелюбопытно будет повторить на "актуальном железе" ;)

Если что, «1% нейронов» — это, по разным оценкам, либо меньше (по числу нейронов) собаки, либо что-то около того. Тем более — любого из приматов.
А так, «актуальное железо» — это 148.6 ПФлопс. Но кто же даст целых 40 минут его времени?
Почему нет? Под эти цели сейчас большие деньги выделяют и даже отдельные собственные суперкопьютеры работающие только для этих целей строят.
Арендовать несколько часов рабочего времени один из топовых вполне возможно если такая необходимость будет и даст какие-то новые возможности по сравнению с длительной работой более слабых суперкопьютеров.

Например когда весь неокортекс мозга человека будут пробовать симулировать, модель которого на слабые суперкомпьютеры не вписывается не по скорости работы, а даже по объему памяти.
Да не особенно. Это ведь не полноценная симуляция, а просто модель взаимодействия. Интересен порядок цифр, конечно и как далеко мы от создания искусственного мозга.

Ячейки для SSD раньше тоже в одной плоскости формировали, а теперь 3D не предел и это ширпотреб вообще ;)
Недавно в новостях проскакивала инфа, что физики таки нащупали материал не нагревающийся при прохождении через него тока… может сгодится тут, но в любом случае вся надежда на подобные открытия в пресловутых нано-технологиях и фундаментальных вещах.

физики таки нащупали материал не нагревающийся при прохождении через него тока
Вы сверхпроводники имеете в виду? Их вроде довольно давноу нащупали. А в целом любой материал, имеющий положительное сопротивление, согласно закону Джоуля-Ленца, греется при прохождении через него тока.
А вот интересно сверхпроводящий процессор хотя бы теоретически возможно создать?
Не только шины питания и другие проводники, а полностью включая какие-нибудь ключи, заменяющие транзисторы.

Скажем какой-нибудь СП с очень низким крит. полем. В обычном состоянии линия-сверхпроводник (ключ открыт), при приложении поля к какому-то ее участку сверхпроводимость разрушается, появляется сопротивление, протекающий ток на порядки падает (ключ закрыт).

Как понимаю в текущих микропроцессорах основное ограничение быстродействия это скорость перезарядки паразитных емкостей, а основной расход энергии и источник нагрева — потери на активном и реактивном сопротивлении линий?

В СП же активные потери стремятся к нулю, индуктивность вроде бы тоже на порядки снижается, а рабочие напряжения могут быть крайне низкими.

Теоретически можно, практически делали:
https://en.wikipedia.org/wiki/Superconducting_computing
Вместо транзисторов — сверхпроводниковые джозенфсоновские контакты, между которыми летают единичные магнитные кванты(размером 2.07 mV⋅ps; 2x10^-19 Дж, 0.4 пс) — https://slideplayer.com/slide/7530665/ https://en.wikipedia.org/wiki/Rapid_single_flux_quantum
http://science-visits.mccme.ru/doc/vernik_2.pdf
Делают АЦП на 30 GS/s в форм-факторе "тумбочка на колесиках" или целая стойка.
Проблема — для запуска одного из популярных подвидов этой логики прямо в сверхпроводниковом ниобий-AlOx кристалле приходится организовывать тысячи резисторов. Не самая удачная идея для криогенных чипов (4K, бюджет охлаждения единицы Вт за 50 тыс.usd, криохолодильник потребит из розетки в 5000-500 раз больше мощности чем отводит). (Еще упоминалась проблема что шины ввода-вывода из криогенного ящика в комнатную среду имеют тенденцию перегревать сверхпроводники.)
Также есть большие проблемы с синхронизацией — логические единицы — это пролетающие мимо логического элемента одиночные кванты. Глубина схем для ряда изготовленных СП-чипов в длительности одного такта чрезвычайно мала — порядка 5 последовательных лог.элементов (см. также FO4 & Logical effort); и создавались сверх-длинные конвейеры. В частности популярны были битово-последовательные сумматоры (N битов операндов прокручивались через "червячные" алу за N тактов, зато на частотах порядка 10 ГГц) https://arxiv.org/ftp/arxiv/papers/1902/1902.09500.pdf


To date, the reported superconductor ALU designs were implemented using RSFQ logic following bit-serial, bit-slice, and parallel architectures. The bit-serial designs have the lowest complexity; however, their latencies increase linearly with the operand lengths, hardly making them competitive for implementation in 32-/64-bit processors [17], [18]. Bit-serial ALUs were used in 8-bit RSFQ microprocessors [19]-[24], in which an 8 times faster internal clock is still feasible. As an example, an 80 GHz bitserial ALU was reported in [25].… Parallel architecture implemented in RSFQ enables a very high throughput, however the latency still can be large due to deep execution pipelines… fit the entire 8 bit ALU with 14 instructions into a relatively small 1.6 x 0.5 mm2 area… ALU circuit comprises 6840 Josephson junctions… MIT-LL SFQ5ee fabrication process with eight Nb wiring layers and HKIL

MIT-LL SFQ5ee = 200 mm Si wafer, 700 nm JJ diameter, 8 Nb metal layers, critical line width 350 nm, 2015.


(второе упоминание rsfq на этом сайте за десятилетие, ранее было https://habr.com/ru/post/52037/#comment_13009837; 5 лет с предыдущей новости https://habr.com/ru/post/364151/ Сryоgеniс Соmputing Cоmрlехity IАRРА; https://beyondcmos.ornl.gov/2016/documents/Session%203_talk1-Holmes.pdf https://beyondcmos.ornl.gov/2016/documents/Session%203_talk2-Gouker.pdf)

Как будем контролировать случайный перегрев? Бац, пропала СП и весь ток в цепи выделился на этом элементе.
Пример работы магнитов на БАКе.
Чтобы этого избежать, дипольные магниты спроектированы таким образом, что, как только начинается локальное выделение тепла, сразу по всему магниту включаются «нагреватели», которые быстро переводят весь магнит целиком в нормальное состояние. В этом случае вся запасенная в магните энергия (7 мегаджоулей) выделяется не локально в магните, а сбрасывается на специальном демпфирующем резисторе и не приводит к каким-либо разрушениям. Этот процесс называется «гашением тока» (по-английски — «quench»); все магниты, установленные в LHC, проверялись на безопасное гашения тока. Авария, случившаяся на LHC 19 сентября 2008 года, при которой около 100 магнитов безопасно перешли в нормальное состояния с гашением тока, невольно послужила хорошей проверкой этой системы.
Никак, пусть выделяется, переход из СП в обычное состояние и обратно это вообще штатный режим работы подобных схем, а не авария.

На БАК или скажем при проектировании термоядерных реакторов квенчи в СП это опасная штука, потому что объем запасаемой энергии очень велик. Т.к. велика индуктивность СП-катушек и очень велики протекающие в них токи. Т.к. их специально такими делают: ведь там главная цель использования СП это создать как можно более сильное магнитное поле, а создаваемый катушкой магнитный поток равен произведению силы протекающего тока на ее индуктивность. Соответственно и то и другое доводят до возможного максимума. А в качестве побочного эффекта получают выброс большого количества энергии при срыве СП.

В СП логике же наоборот индуктивность и токи и магнитные поля нужно делать как можно меньше, вплоть до работы с единичными элементарными квантами магнитного поля, т.к. сами поля и токи нам не нужны — это лишь средства переноса и обработки информации.

Собственно выше ссылок кучу уже накидали. Оказывается подобные схемы не просто возможны, а в небольшом масштабе уже успешно создавались еще несколько десятков лет назад и достижением рабочих частот вплоть до 700 ГГц на простых элементах.

Кому тяжело кучу текста на аглийском вчитываться, оказывается и в рунете немало написано, только все как-то мимо меня все проходило, поэтому и «изобрел велосипед» в прошлом сообщении:
Быстрая одноквантовая логика

Сверхпроводящая логика

Взлеты и падения быстрой одноквантовой логики

Даже у нас какие-то разработки по теме идут: www.nkj.ru/news/25845

Почему оно еще до сих пор «не влетело» (и вероятно так и не взлетит, кроме каких-то очень узких областей применения) тоже примерно понятно из прочитанного.
В сложных схемах(чипах, а не отдельных элементах) на СП можно достичь частот только в 5-10 раз выше чем на кремнии, но при этом достижимая плотность размещения элементов наоборот намного ниже. В результате явное преимущество у таких схем может быть только в задачах требующих строго последовательной обработки, без возможности какого-либо параллелизма. А на большинстве задач проще использовать большее количество элементов и увеличить разрядность/количество исполнительных блоков/потоков/ядер и т.д.

А очень высокая энергетическая эффективность работы таких схем, во многом сводится на нет необходимостью тратить много энергии на поддержание их криогенных температур. Т.е. сам чип энергии потребляет очень мало по сравнению с кремниевыми, но вот система охлаждения к нему…

Интересно насколько в этом плане могут помочь высокотемпературные СП. Все-таки на жидком азоте система охлаждения потребляет энергии «всего» раз в 10 больше, чем количество тепла, которое нужно отводить от охлаждаемых объектов, против сотен-тысячу раз при охлаждении жидким гелием.
НЛО прилетело и опубликовало эту надпись здесь
Водичкой, скорее всего. Но 17 кВт в таком объёме — это нехилая печка такая…
да в принципе то и жидкий азот штука дешевая.
НЛО прилетело и опубликовало эту надпись здесь
тогда уж масло
Жидкий натрий тоже ок
Его рабочая температура выше, чем рабочая температура кремниевых процессоров.
Ну тогда нужны калий, рубидий и цезий.
Они слишком активны.
Конечно.
С натрием тоже ничего хорошего не выйдет. То есть можно было бы сделать где-то систему на плавлении натрия, но есть 2 минуса:
— температура плавления 97.81 означает, что даже при нанесении его на крышку процессора в момент плавления температура кристалла скорее всего достигнет критических 100 градусов;
— плотность чуть меньше плотности воды — 1 куб. см. металла будет иметь слишком низкую теплоемкость.
Нужна жидкая фаза: конвекция намного эффективнее теплопереноса. Тут скорее подойдёт эвтектика Na-K.
Да ничего на самом деле не нужно, обсуждали уже тут в соседней ветке комментариев. Жидкие металлы в качестве теплоносителя используют из-за их ядерных свойств(в ядерных реакторах) и ради высокой температуры кипения (= возможности работать на очень высоких температурах без создания высокого избыточного давления, не достигая точки кипения при н.у.).

А для непосредственно теплового переноса при умеренных температурах простая вода это идеальный теплоноситель — и массовая и объемная теплоемкость у нее в несколько раз выше чем у жидких металлов. Соответственно необходимый поток и производительность циркуляционных насосов в несколько раз ниже для съема и переноса того же количества тепла.
Также интересно, как это планируется питаться. У таких печек питалово 5х0.4кВ минимум 10мм² толщиной каждый провод, т.е. 50мм². Тут сделали PSU-на-чипе?

Помнится про АМД с открытым чипом было видео, как они пыхают без радиатора. Может и тут опубликуют...

Если пыхнет, Cerebras сможет задорого показывать соответствующий видеоролик тонким ценителям, или выставить на торги самую дорогую в истории яичницу.

Всех интересует как подводить/отводить 17кВт. В целом, человечество умеет охлаждать фигулины до нескольких гигаватт (привет, реакторы).


А вот 1.2Тбит/с сетевого трафика с одной машины — это реально страшно.

Жидким натрием охлаждать процессор всё же не получится.
Почти все реакторы, за исключением нескольких штук экспериментальных моделей охлаждаются самой обычной водичкой, а не жидкими металлами. Ну или «тяжелой» водичкой, но там она используется не для улучшения охлаждения, а для улучшения протекания непосредственно ядерных реакций.
Для замедления «быстрых» нейтронов, да.
Самая обычная вода замедляет нейтроны не хуже (даже вроде получше). У «тяжелой» другое ядерное преимущество — по сравнению с обычной она почти не поглощает проходящих через нее нейтронов, а только замедляет их. Как следствие их больше остается для запуска ядерных реакций в топливе.
В результате можно либо снизить критическую массу и размеры реактора либо использовать менее обогащенное и за счет этого более дешевое ядерное топливо, которое к тому же более полно используется/вырабатывается в процессе работы.
Вплоть до того, что можно построить реактор, который будет способен работать на топливе вообще без дополнительного обогащения — прямо на природном уране.

Формально и на обычной воде это теоретически возможно, но на практике размеры и другие параметры подобного реактора оказываются неприемлемыми. А вот на тяжелой это не только возможно, но и такие модели существуют на практике (например CANDU ).
Тогда я предположу, что обычный протон при столкновении с нейтроном дает дейтерий, а для рождения радиоактивного трития по реакции D + n энергии уже не хватает.
И да, замедлять нейтроны очень хорошо протонами, т.к. при очень близких массах почти вся энергия нейтрона может быть передана протону. Аналогично и с полиэтиленом — при формуле фактически "-(CH2)n-" на 14 единиц массы есть 2 полезных для таких целей протона.
У почти всех реакторов площадь теплообмена чуть выше 22*22 см.
А работы по тепловым трубкам на жидком натрии (для космических реакторов, где важна компактность и вес) ведутся как минимум лет тридцать. Эффективность таких ТТ значительно превышает таковую для водяных ТТ, да и диапазон рабочих температур заметно шире. Но для данного случая натрий не вариант.
Натрий + воздух = взрыв, к тому же, жидкий натрий — агрессивная штука.
В космосе это оправдано снижением веса, а на земле — вряд ли.
Верно. Но натрий+вода значительно веселее. И, тем не менее, схема активно используется, т.к. Теплопроводность СО относительно таковой для воды значительно выше.
Ну так и выделяющаяся тепловая мощность где-то в 200 000 раз выше однако.

А натриевые ТТ — по эффективность водяных ТТ может и превышает, а вот банальной трубочке аналогичного диаметра по которой вода прокачивается насосиком все-равно уступает.

Там натриевые ТТ тоже не для суперэффективности съема тепла, а ради высокой надежности, большого срока службы без каких либо ТО в процессе, ну и диапазона раб. температур.
Вы же о проточной воде? Которую сливают после прохождения испарителя. Но её ведь не везде можно слить (скажем, первый контур на АЭС, или космос), придётся охлаждать и отправлять по кругу, т.е. городить второй контур.
Кроме того, вода имеет неприятную особенность закипать, резко увеличивая объём и повышая давление, налицо низкий температурный диапазон. ТТ на парах воды, по крайней мере, не порвутся при перегреве, но теплопроводность также потеряют.
ТТ на расплаве натрия спокойно продолжат качать энергию, увеличивая температуру конденсатора, а значит, и его излучение. Равновесное состояние будет достигнуто, хотя и при более высокой температуре.
Ну и компактность. И вес. Но если что, то всё.
А вот 1.2Тбит/с сетевого трафика с одной машины — это реально страшно.

Почему сразу сетевого трафика?
Если у меня графическая карта имеет пропускную способность 400GB/s это не значит что мне нужен такой же выход в сеть.
Потому что для обучения сетей нужно «кормить» их предварительно классифицированными вручную данными — из-за обьема которых обычно довольно проблематично загрузить даже более-менее топовые GPU на «всю катушку». По той же причине для достижения приличной производительности распознавания, на edge-устройствах процессор ввода видео напрямую связан с GPU/DLA — их слабенькая шина между CPU и GPU просто не справляется с такими обьемами.
Потому что 1.2 Тбит/с это именно внешний сетевой интерфейс для загрузки/выгрузки данных. А внутренняя ПС (аналогичная по смыслу вашим 400GB/s) при обработке этих данных тут до 100 Пбит/с, т.к. вся рабочая память тут интегрирована непосредственно в сам чип в виде SRAM.

У них же сказано — 12 100Гбит линков. Интернет не обязательно, но даже в режиме interconnect между локальными машинами всё равно пугает.

А что не так? Решения по 200 и 400 гбит сетевого трафика были представлены ещё в 2016. Бондинг трёх каналов возможен даже сейчас.
Cisco Nexus 9300-GX — 16 портов по 400гбит. Nexus 3432D-S — 32 порта. Стоимость у них, конечно, страшная. Но вполне терпимая, когда возникают потребности в таких компьютерах и полной утилизации их возможностей.

Вот стоит такая Cisco на 16 портов по 400Гбит и обслуживает локалочку из 5 компьютеров. Прям как хаб под столом.

Если эта локалочка из компьютеров этой статьи, то все вместе они еще обогревают пару соседних офисных зданий.

Хорошо написанное приложение способно загрузить 400 000 ядер примерно на 200-500мс после нажатия пробела в IDE. Даже если на это потребуется 17кВт.

Для 15юнитовой железки — почему нет?
В оракловых стойках вообще штатно стоит 3 свича (40Gb ib / 100GbE) — и ничего, удобно: сгорел один свич — трафик автоматом пошёл через другой.
Гудит, греет, лепота…
Всех интересует как подводить/отводить 17кВт. В целом, человечество умеет охлаждать фигулины до нескольких гигаватт (привет, реакторы).

Охладить можно всё что угодно, но тут ведь ещё вопрос размера фигулины, и при этом как-то питание надо подводить и.т.д.
Старый совецкий анекдот о том, что у нас сделали самую передовую микросхему с 16 ножками и 2 ручками для удобства переноски заиграл новыми красками

Однако Cerebras не представила реальные результаты тестов, чтобы проверить заявления о высокой производительности

потому, что им пока не важен массовый рынок, и нет смысла его заинтересовывать. Ливермор взял? Ну, ладно.
Идея в том, чтобы сохранить все данные на гигантском чипе — и тем самым ускорить вычисления.
однако
18 гигабайт памяти SRAM на чипе
Не клеится. Это такой же порядок объема, как на домашних десктопах — веса GPT-2 1.5B всего лишь раз 6 целиком влезут, однако на тренировку даже одной копии памяти не хватит(3).
Почему не хватит? В интегрированной SRAM нужно хранить только веса обучаемой модели, все данные для тренировки тянутся с внешнего хранилища по мере надобности. В данном случае всего около 1.5 ГБ SRAM хватит для эффективной тренировки, т.к. вроде в GPT-2 используются 8 битные веса.

А в статье по ссылке как раз описывается метод, за счет которого можно эффективно тренировать сети, в которых даже один полный набор параметров модели не умещается в локальной памяти единичного устройства за счет сегментирования данных — для примера они там тестируют тренировку моделей от 40 до 100 миллиардов параметров на кластере из V100 в которых по 32 ГБ памяти максимум.
Так в статье как раз и написано почему. Для обучения нужно хранить не только веса модели, для всех промежуточных вычислений надо в несколько раз больше памяти. Сам тоже такое наблюдал, когда пробовал дообучать модель 345М — процесс не 1500Мб на ГПУ кушал (там 32-битные веса), а все 6Гб и просил ещё. На 1080 с 11Гб заработало.
А параграф на который сами же ссылалась (3) дочитать до конца? Там написано, что все кроме непосредственно самих весов по большому счету не обязательно для хранения и все это можно вычислять «на лету», теряя при этом меньше половины скорости вычислений, но в несколько раз сокращая объем используемой памяти.

Сейчас в стандартных фреймворках для обучения их хранят, просто потому что большинство используемых и тренируемых сеток на практике имеют размеры порядка 1-100 млн. параметров и памяти у железа даже «домашнего» класса в единицы ГБ более чем достаточно, поэтому ее «излишки» можно потратить для хранения вспомогательных и промежуточных параметров, позволяющих ускорять вычисления. По сути разновидность кэширования — вместо повторного вычисления чего-либо сохраняем полученный результат и в следующий раз извлекаем его из памяти вместо повторного расчета.

Для гигантских по кол-ву параметров моделей используют несколько другие подходы и фрейморки (и статья как раз предлагает способ как их можно дальше улучшать), в частности сравнивают уже существующий и использующийся для таких целей со своим вариантом на моделях от 8 до 100 миллиардов параметров прогоняемых на кластере GPU c 32 ГБ памяти:
Табличка с полученными результатами
image
В мире авторов пдфки возможно промежуточные результаты уже не хранятся. В реальном мире — хранятся. Новый комбайн работает в реальном мире, с реальными фреймворками. Почему создатели процессора закладывались на какие-то будущие оптимизации, дав ему так мало памяти для такого количества ядер?
Реальные фрейморки не хранящие промежуточные данные уже тоже существуют и их используют, когда надо работать с очень большими моделями для которых критичен именно объем памяти и размер модели, а не скорость ее обучения. С одним из таких (Megatron) авторы работы из ПДФки свое решение и сравнивают как раз как. Он тоже например способен крутить модели нейронок на 20 млдр. параметров на картах с 32 ГБ памяти — меньше 2 байт на параметр.

А памяти тут «мало», потому что это сверхбыстрая память типа SRAM, которая очень дорого обходится в плане расхода транзисторов — по 6 или 8 транзисторов на каждый бит емкости. На 18 ГБ это как минимум 870 миллиардов (18*8*6) транзисторов. При том что общий «бюджет» чипа ~1200 миллиардов транзисторов.

Т.е. в нем и так большая часть транзисторого бюджета и площади чипа отдана как раз под память — она занимает намного больше чем вычислительные ядра, внутреняя сверхскоростная сеть и все прочие интегрированные системы вместе взятые.

А обычной памяти (для хранения всего остального, кроме самого критичного по скорости доступа) если нужно не проблема накидать в виде внешнего банка обычной (DRAM) памяти — хоть террабайт подключай.
Зато быстрая и рядом.
Не клеится. Это такой же порядок объема, как на домашних десктопах — веса GPT-2 1.5B всего лишь раз 6 целиком влезут, однако на тренировку даже одной копии памяти не хватит(3).

Я так понимаю, тут речь про «процессорную» память (кэш). У i9-9900X, например, она 20мб.
Эка невидаль — мы в универе на лабах проц метр на полтора собирали (на стенде, проводами в дырочки). А если серьезно — очень впечатляет такой размер пластины в одном изделии.
Скайнет и Матрица всё ближе.
Как я понимаю, это просто большая плата с множеством независимых частей? Иначе, как они обошли квантовые ограничения на такие расстояния?
Простите, что обошли?

Обычные процессоры испокон веков делаются на одном кристалле. А потом пластина режется на десятки / сотни кусков — отдельных процессоров. Суть в том, что на пластине могут появляться отдельные дефекты. По аналогии — как битые пиксели на мониторах. И они появляются там довольно часто. Если разрезать пластину с такими дефектами на куски — лишь некоторые процессоры будут непригодные, остальные будут полностью рабочими. Но чем больше площадь процессора — тем больше вероятность, что на нем окажется дефект. А это в свою очередь влияет на цену рабочих экземпляров. Грубо говоря, если на пластине есть 10 дефектов, и она режется на 1000 процессоров, мы получим не более 1% брака. А если она режется на 50 процессоров — получим до 20% брака. Если резать ее на 10 частей, у нас есть шанс не получить ни единого рабочего процессора. И так далее. Если я правильно понял суть вашего комментария.

Но по факту, ИМХО, это не более чем понты. Это будет жутко дорого и не практично. А выгода в чем? Сэкономить место?
А выгода в чем? Сэкономить место?
Емкость одной линии передачи данных на кристалле — десятки фемтофарад. Типовой диаметр такой линии — десятки нанометров.
Емкость соединения двух закорпусированных микросхем на плате — десяток пикофарад. Типовой диаметр такой линии — сотни микрон.
Какие линии вы предпочтете, если вам их нужно десять тысяч? Или миллион?

сли разрезать пластину с такими дефектами на куски — лишь некоторые процессоры будут непригодные, остальные будут полностью рабочими.
Вообще там скорее всего все процессоры будут нерабочими, если внутри каждого из них не заложены механизмы починки косяков. Совсем в помойку отправляется только то, где багов слишком много, чтобы их пофиксить.
Какие линии вы предпочтете, если вам их нужно десять тысяч? Или миллион?
На сегодняшний день от этого будет практическая польза? Я просто не в курсе.
Для того, чтобы зарядить емкость 100 фФ до напряжения 1В, нужно 100 фКл заряда. Для того, чтобы зарядить 10 пФ до напряжения 1В, нужно 10 пКл заряда.
Если вам нужно зарядить линию за фиксированное время, то во втором случае вам потребуется в сто тысяч раз больше мощности. Если, конечно, это вообще получится, потому что есть еще сопротивление и индуктивность линии.
Поэтому ответ про практическую пользу очень простой: соединения на кристалле вместо соединений на плате намного быстрее и расходуют на несколько порядков меньше энергии.
Какие квантовые ограничения вы имеете в виду?
В мозге человека 85 млрд. нейронов.
CS-1 — чип из 400 000 ядер и 1.2 триллиона транзисторов.
А сколько там получается нейронов на 1 ядро?
Чтобы прикинуть, сколько CS-1 в кластере сэмулируют мозг человека.

Можно ограничить сверху. Если взять 1 ядро = 1 нейрон, то получим кластер из 212500 CS-1. Но это конечно очень грубая оценка.
Смотря какие параметры этих ядер, они их не назвали. Судя по количеству и размерам это что-то очень простое, на уровне «ядер» (самых мелких вычислительных блоков, иногда еще называемых шейдерами) GPU.

Но в одной из прошлый подобных попыток созданий нейроморфных чипов с очень похожим подходом (только в гораздо меньших масштабах — en.wikipedia.org/wiki/SpiNNaker), где тоже довольно слабенькие ядра (одна из простых версий ARM к тому же работающая на частоте всего 200 МГц) с интегрированной SRAM памятью в каждом и общением со всеми соседними ядрами по MESH-сети через встроенные же коммутаторы получалось моделировать работу до 1000 нейронов на каждое ядро.

В одном из более свежих попыток — чипах TrueNorth заложено моделирование 256 нейронов на 1 очень простое ядро (там по 4096 ядер в одном чипе, симуляция до 1 миллиона нейронов на чип).
Транспьютеры наносят ответный удар!?
Так как никто специально ломать техпроцесс не станет, то похоже, что эти молодцы сделали процессор который масштабируется путем параллельного переноса. Давно ждал такого хода.
Вопрос не сколько в охлаждении. А вот как они питание в центр пластины подают?
А вот как они питание в центр пластины подают?
Так же, как и во все остальные части — сверху.
Нее, сверху у неё — неонкаводянка.
Тогда снизу
image

Не Cerebras Systems, а Cyberdyne Systems

Зарегистрируйтесь на Хабре, чтобы оставить комментарий