Comments 144
С одной стороны снимать 17 кВт тепла с такой пластины наверное можно (с того же интела снимается в 200 раз меньше (TDP 95 Вт) с площади еще намного меньше). Но как? 9 хороших утюгов в размере двух.
С другой стороны — ну пусть 3.3 В питание (это не точно) => 5 kA => 1700 mm^2 меди (это если одним куском)… И земли столько же. Яссе шина…
А так как не одним куском, то будет стоять эта пластина на венике из проводов питания, как столик.
И радиатор в сауну вывести.
рассеиваемая явно меньше. киловатт 5 поди, а то и меньше. небольшой такой калорифер.
Подводимая электрическая 17кВт, рассеиваемая тепловая 5, куда остальные 12 киловатт деваются???
— Кем у тебя папа работает?
— Трансформатором!
— Это как?
— Получает 220, домой приносит 110, на остальные гудит.
Если не считать идеи, что остальное процессор испускает не в тепло, а в диапазоне своих гигагерц частоты (ядра свое ЭМИ, кэш — свое, граф. ядро — ещё на другой частоте).
Какая часть из 17 кВт, по вашему, идёт на деградацию кристалла? Строительный перфоратор мощностью 1кВт бодро так бетон дробит. 17кВт — это как небольшой трактор, разрушения должны быть соответствующими (если аккуратно их не рассеивать).
Представьте, что вы засунули этот процессор в спутник, стенки которого экранируют любые излучения от процессора, и вывели его в космос. Куда может деться электрическая энергия? Очевидно не в кинетическую или потенциальную энергию, так как они не изменяются. Очевидно не в результаты вычислений, так как это лишь нули и единицы в постоянной памяти и энергия у них всегда (приблизительно) одинаковая.
По закону сохранения энергии, все энергия уйдет в тепловую энергию спутника и потом частично «уйдет» за счет инфракрасного излучения стенок спутника.
То есть вывод — любой процессор с точки зрения физики это просто нагревательный элемент, превращающий электроэнергию в тепло или излучение. А результаты вычислений это лишь побочный эффект, которые не является «работой» c точки зрения физики.
Очевидно не в результаты вычислений, так как это лишь нули и единицы в постоянной памяти и энергия у них всегда (приблизительно) одинаковая.
Ага. На регенерацию емкостей в оперативной памяти — энергия не тратится?
На переключение затворов на транзисторах — не тратится?
На инжекцию в плавающие затворы (флэш-ячейки) — не тратится?
По закону сохранения — энергия, рассеянная выделением тепла — меньше, чем подведенная электрическая. Потому что часть ушла на полезную работу.
В статье написано, что вафля потребляет 17 кВт, очевидно, что рассеиваемое тепло меньше 17 кВт. Вопрос только в КПД схемы.
энергия не тратится
Главный закон сохранения энергии — «суммарная энергия замкнутой системы всегда постоянна».
Следовательна на «регенерацию емкостей, инжекцию в плавающие затворы, переключение затворов на транзисторах» может тратиться не больше, чем она может накапливаться во внутреннем состоянии системы (например, при переходе электровой атомов в более энергетически эмкие орбиты, химические реакции с поглощением тепла и т.п.).
То есть это не «трата энергии», а аккумулирование и емкость даже если представить, что процессор самый лучший аккамулятор, очень ограничена и очень быстро энергию он должен будет отдать обратно.
Поэтому рассматривая работу такого спутника годами — 100% энергии будет превращено в тепловую энергию.
Вопрос только в КПД схемы.
100% на превращение электроэнергии в тепло или излучение. Всегда 100%. Небольшое временное аккамулирование энергии за счет изменения внутреннего состояния не имеет значение, так как она в любом случае будет отдана обратно.
переключение затворов на транзисторах
Ну вот представьте, что этот затвор вообще один в космосе, вы переключили затвор в одно положение, потратили энергию, потом в вернули обратно, но энергию не получили обратно, потом снова переключили затвор и так до бесконечности. Получается у вас энергия утекает в бездонную трубу и никогда не возвращается обратно, что полностью нарушает закон сохранения энергии.
Ну или иначе, при стремлении к бесконечности, затвор должен будет хранить всю энергию Вселенной где-то внутри себя.
Главный закон сохранения энергии — «суммарная энергия замкнутой системы всегда постоянна».
При чем тут замкнутая система? Она открытая. Единственный путь утечки — это потери на выделение тепла, да.
И эти потери всегда меньше, чем подводимая электрическая мощность.
Сняли напряжение с затвора — заряд стек. Частично рассеялся в виде тепла. Ровно туда же в тепло — потери, вызванные сопротивлением цепи. И этого тепла меньше, чем подвели энергии.
Частично рассеялся в виде тепла. Ровно туда же в тепло — потери, вызванные сопротивлением цепи. И этого тепла меньше, чем подвели энергии.
Отлично, теперь назовите энергию, в которую ушла остальная часть. Виды энергий тут, полезной работы там нет.
Отношение выделившейся тепловой к подведенной электрической есть коэффициент тепловых потерь.
В электрическую, епт.
Если мы подвели к процессору 20Квт, на сдачу получили 3Квт, то значит мы потратили только 17Квт и все эти Квт'ы ушли в тепло.
Еще рассмотрим изолированную систему — спутник, летящий в космосе с стенками, изолирующими любые электромагнитные излучения, внутри лежит аккмулятор на определенное кол-во энергии и процессор, выполняющий любые вычисления.
Я утверждаю, что 100% энергии, запасенной в аккумуляторе, уйдет или в тепло/тепловое излучение или в увеличение внутренного состояния системы (по факту, сохранится в другом виде аккумулятора). Никаких трат «на полезную работу процессора» там не будет и быть не может по закону сохранения энергии.
Если не согласны, покажите энергию, в которую ушло все не потраченное на тепловую энергию.
100% энергии, запасенной в аккумуляторе, уйдет или в тепло/тепловое излучение или в увеличение внутренного состояния системы
Вопрос — какими темпами. Ответ — зависит от энергоэффективности компьютера. А так — рано или поздно конечно уйдет в тепло.
Никаких трат «на полезную работу процессора» там не будет и быть не может
Еще раз: траты на коммутацию цепей — не полезная работа?
Едва ли на них хотя бы сто ватт потратится.Ох, как вы заблуждаетесь. Зарядка паразитных RLC-цепей на таких проектных нормах превалирует над зарядкой собственно затворов транзисторов.
Потом что заряженный конденсатор при перезарядке всю запасенную энергию отдаст обратно, и соответственно в сумме за долгий период времени (хотя бы за миллисекунду) безвозвратно на коммутацию цепей не будет потрачено _ничего_.
Ещё как будет потрачено! Дело в том, то коммутируете вы цепи в любом случае ключами, чаще всего — полевыми транзисторами с ненулевым сопротивлением открытого канала. Плюс, и это очень важно, при переключении транзистора сопротивление канала изменяется не мгновенно, и в момент переключения тепла может начаться выделяться даже больше. Особенно это заметно, когда переключаться транзистору приходится по 4e9 раз в секунду.
1. В легированном п/п может быть не так, носители уже есть.
2. Эта «потраченная энергия» потом возвращается при скажем переходе p-n-перехода в «закрытое» состояние при подаче обратного напряжения.
Вопрос — какими темпами. Ответ — зависит от энергоэффективности компьютера
Ответ известен — процессор потребляет 17Квт электроэнергии каждую секунду. То есть полностью потребляет, сдачу обратно в сеть он не дает.
КПД нам не важно, поменяет он триллион или десять триллионов ячеек за эти Квт'ы.Важно, что если у нас в аккумуляторе есть 17Квт * час энергии, то он полностью разрядится ровно через час.
И все эти 17Квт * час энергии, как вы заметили, уйдут в тепло, так как им больше некуда деваться.
Дальше возвращаемся на Землю, если у нас процессор потребляет 17Квт энергии каждую секунду, то какую полезную работу он бы не делал и с каким кпд эта работа не делалась, то на отводить нужно тоже около 17Квт тепловой энергии (так вся энергия потраченная на полезную работу все равно потом выйдет в виде тепловой, ну и небольшое кол-во в виде излучения) иначе рано или поздно процессор переегреется и сгорит.
То есть для процессора, который работает годами и постоянно каждую секунду потребялет 17 Квт, нужно так же постоянно каждую секунду отводить около 17 Квт тепловой энергии, по другому никак.
Вопрос в энергоэффективности схемы.
Какую механическую работу совершает процессор?
<sarcasm>
Расширяется и сжимается под переменной вычислительной нагрузкой.
</sarcasm>
Кроме собственно процессора, цепей питания к нему и системы охлаждения в нем особо ничего и нет. Вся дополнительная память (как оперативная, так и диски) в отдельном сервере/серверах, общение с которым(и) идет через многоканальную скоростную сеть. Отдельных сетевых контроллеров тоже нет, они тоже интегрированы в сам «процессор». В кавычках т.к. это SoC — вычислительные ядра равномерно перемешаны с локальной сверхбыстрой SRAM памятью (причем работающей именно как основная рабочая память, а не кэш для внешней памяти), с интегрированными внутренними сетевыми свичами и 12ю сетевыми контроллерами для общения с «внешним миром».
Судя по всему они почти 1в1 повторили общую архитектуру/подход реализованную еще в самом первом серийно производившимся нейроморфном чипе SpiNNaker — apt.cs.manchester.ac.uk/projects/SpiNNaker/SpiNNchip
Где было 64 КБ SRAM TCM (tightly-coupled memory) памяти под данные и 32 КБ под код в каждом ядре, а общение между всеми ядрами шло уже не по классическим шинам, а через интегрированную в сам чип асинхронную, но сверхбыструю p2p сеть с минимальными задержками за счет аппаратных (так же интегрированных в чип) свичей/роутеров.
Только тут память в 2 раза порезали, до 32+16 КБ = 48 КБ на ядро (в сумме получается как раз заявленные ~18 ГБ на 400к ядер).
Но зато совершили гигантский скачок в количественном плане за счет использования современного технологического процесса (со 130 нм в SpiNNaker до 16 нм в WSE) и многократного наращивания площади чипа до полной пластины (с 102 мм² до 46 225 мм²)
В результате теперь в одном мега-чипе умещается аналог почти половины суперкомпьютера, который только недавно наконец-то собрали из тех самых SpiNNaker (подробнее про это — habr.com/ru/news/t/429200 )
таки да — переупаковали так сказать ;)
действительно, зачем каждый чип паковать в отдельный корпус когда оказалось возможно вот так на одну пластину.
Теперь он реально в физическом пространстве выстраивает "нейронные связи" обходя неработающие участки или таким образом реализуя функции алгоритма или сохраняя именно в этих связях данные.
Что-то из этого количества просто должно уже перерости в какое-то новое качество — пора уже :)
И дальше по ветке
justhabrauser
Видимо, сработала одна из вариаций законов Мерфи: как только отписался от обновлений ветки в трекере, там началось самое интересное.
PS посмотрел на презентацию и комменты — всё равно не хватает фото водоблока с сотнями подводов охлаждающей жидкости, хтоническое должно быть зрелище.
Сделать большую пластину с огромным количеством ядер. И пусть даже честь из них не работает. Но архитектура решения позволит это обойти.
И если я правильно понял компоновка транзисторов в 2D.
На пластине я вижу 84 отдельных чипа.
А если использовать технологию сквозных металлических соединений как в чипах памяти
И делать пирог из этих чипов. И столбики таких чипов располагать на интерпрозере как делает АМД. Использовать интерпрозер вместо обеднения в рамках 1 пластины.
Правда главный вопрос что делать с охлаждением…
Интересно как на данный момент обстоят дела с охлаждением чипов посредством микро каналов в кремни?
А можно ли с помощью такого чипа смоделировать мозг животного крысы например?
А можно ли с помощью такого чипа смоделировать мозг животного крысы например?
Такими темпами и инвестициями, я так чувствую, скоро сильный ИИ войдет в нашу жизнь также как вошел слабый.
А если использовать технологию сквозных металлических соединений как в чипах памятиОни огромные, ими много соединений не сделать. И, как вы сами заметили, непонятно как такого трехмерного монстра охлаждать. Дела с микроканалами в кремнии обстоят никак, потому что они забиваются содержащимися в охлаждающей жидкости примесями.
Технологический партнёр TSMC производит эти чипы по техпроцессу 16 нм.
Разработка этого чипа еще 3-4 года назад началась — под имевшиеся тогда технологические нормы.
Это не отдельные чипы, а «отпечатки» фотолитографического шаблона, размер которого существенно ограничен имеющимся производственным оборудованием. Такой большой чип невозможно экспонировать при литографиии весь целиком за один раз, поэтому это делается такими вот сегментами по частям.
А можно ли с помощью такого чипа смоделировать мозг животного крысы например?
Rattus norvegicu, вся нервная система — 200к нейронов. Кора больших полушарий — 31млн.
Blue Brain Project — проект по компьютерному моделированию головного мозга человека. Начался в июле 2005 года. Над проектом совместно работают компания IBM и Швейцарский Федеральный Технический Институт Лозанны (École Polytechnique Fédérale de Lausanne — EPFL). Проект планируется закончить к 2023 году.
Проект использует суперкомпьютер Blue Gene. В конце 2006 года удалось смоделировать одну колонку новой коры молодой крысы. При этом использовался один компьютер Blue Gene и было задействовано 8192 процессора для моделирования 10000 нейронов. То есть практически один процессор моделировал один нейрон. Для соединения нейронов было смоделировано порядка 3⋅107 синапсов.
Загрузка сознания
ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%B3%D1%80%D1%83%D0%B7%D0%BA%D0%B0_%D1%81%D0%BE%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D1%8F
В 2013 году для симуляции 1 секунды работы 1% человеческого мозга потребовалось 40 минут на кластере из 82 944 процессоров 10-петафлопсного K computer. Учёные попытались повторить работу 1,73 млрд нервных клеток и 10,4 трлн соединяющих их синапсов, на каждый из которых ушло 24 байта.
На хабре, вроде, описывался эксперимент где 15к ядер использовали для симуляции, но найти статью не смог.
прелюбопытно будет повторить на "актуальном железе" ;)
А так, «актуальное железо» — это 148.6 ПФлопс. Но кто же даст целых 40 минут его времени?
Арендовать несколько часов рабочего времени один из топовых вполне возможно если такая необходимость будет и даст какие-то новые возможности по сравнению с длительной работой более слабых суперкопьютеров.
Например когда весь неокортекс мозга человека будут пробовать симулировать, модель которого на слабые суперкомпьютеры не вписывается не по скорости работы, а даже по объему памяти.
Ячейки для SSD раньше тоже в одной плоскости формировали, а теперь 3D не предел и это ширпотреб вообще ;)
Недавно в новостях проскакивала инфа, что физики таки нащупали материал не нагревающийся при прохождении через него тока… может сгодится тут, но в любом случае вся надежда на подобные открытия в пресловутых нано-технологиях и фундаментальных вещах.
физики таки нащупали материал не нагревающийся при прохождении через него токаВы сверхпроводники имеете в виду? Их вроде довольно давноу нащупали. А в целом любой материал, имеющий положительное сопротивление, согласно закону Джоуля-Ленца, греется при прохождении через него тока.
Не только шины питания и другие проводники, а полностью включая какие-нибудь ключи, заменяющие транзисторы.
Скажем какой-нибудь СП с очень низким крит. полем. В обычном состоянии линия-сверхпроводник (ключ открыт), при приложении поля к какому-то ее участку сверхпроводимость разрушается, появляется сопротивление, протекающий ток на порядки падает (ключ закрыт).
Как понимаю в текущих микропроцессорах основное ограничение быстродействия это скорость перезарядки паразитных емкостей, а основной расход энергии и источник нагрева — потери на активном и реактивном сопротивлении линий?
В СП же активные потери стремятся к нулю, индуктивность вроде бы тоже на порядки снижается, а рабочие напряжения могут быть крайне низкими.
Теоретически можно, практически делали:
https://en.wikipedia.org/wiki/Superconducting_computing
Вместо транзисторов — сверхпроводниковые джозенфсоновские контакты, между которыми летают единичные магнитные кванты(размером 2.07 mV⋅ps; 2x10^-19 Дж, 0.4 пс) — https://slideplayer.com/slide/7530665/ https://en.wikipedia.org/wiki/Rapid_single_flux_quantum
http://science-visits.mccme.ru/doc/vernik_2.pdf
Делают АЦП на 30 GS/s в форм-факторе "тумбочка на колесиках" или целая стойка.
Проблема — для запуска одного из популярных подвидов этой логики прямо в сверхпроводниковом ниобий-AlOx кристалле приходится организовывать тысячи резисторов. Не самая удачная идея для криогенных чипов (4K, бюджет охлаждения единицы Вт за 50 тыс.usd, криохолодильник потребит из розетки в 5000-500 раз больше мощности чем отводит). (Еще упоминалась проблема что шины ввода-вывода из криогенного ящика в комнатную среду имеют тенденцию перегревать сверхпроводники.)
Также есть большие проблемы с синхронизацией — логические единицы — это пролетающие мимо логического элемента одиночные кванты. Глубина схем для ряда изготовленных СП-чипов в длительности одного такта чрезвычайно мала — порядка 5 последовательных лог.элементов (см. также FO4 & Logical effort); и создавались сверх-длинные конвейеры. В частности популярны были битово-последовательные сумматоры (N битов операндов прокручивались через "червячные" алу за N тактов, зато на частотах порядка 10 ГГц) https://arxiv.org/ftp/arxiv/papers/1902/1902.09500.pdf
To date, the reported superconductor ALU designs were implemented using RSFQ logic following bit-serial, bit-slice, and parallel architectures. The bit-serial designs have the lowest complexity; however, their latencies increase linearly with the operand lengths, hardly making them competitive for implementation in 32-/64-bit processors [17], [18]. Bit-serial ALUs were used in 8-bit RSFQ microprocessors [19]-[24], in which an 8 times faster internal clock is still feasible. As an example, an 80 GHz bitserial ALU was reported in [25].… Parallel architecture implemented in RSFQ enables a very high throughput, however the latency still can be large due to deep execution pipelines… fit the entire 8 bit ALU with 14 instructions into a relatively small 1.6 x 0.5 mm2 area… ALU circuit comprises 6840 Josephson junctions… MIT-LL SFQ5ee fabrication process with eight Nb wiring layers and HKIL
MIT-LL SFQ5ee = 200 mm Si wafer, 700 nm JJ diameter, 8 Nb metal layers, critical line width 350 nm, 2015.
(второе упоминание rsfq на этом сайте за десятилетие, ранее было https://habr.com/ru/post/52037/#comment_13009837; 5 лет с предыдущей новости https://habr.com/ru/post/364151/ Сryоgеniс Соmputing Cоmрlехity IАRРА; https://beyondcmos.ornl.gov/2016/documents/Session%203_talk1-Holmes.pdf https://beyondcmos.ornl.gov/2016/documents/Session%203_talk2-Gouker.pdf)
На БАК или скажем при проектировании термоядерных реакторов квенчи в СП это опасная штука, потому что объем запасаемой энергии очень велик. Т.к. велика индуктивность СП-катушек и очень велики протекающие в них токи. Т.к. их специально такими делают: ведь там главная цель использования СП это создать как можно более сильное магнитное поле, а создаваемый катушкой магнитный поток равен произведению силы протекающего тока на ее индуктивность. Соответственно и то и другое доводят до возможного максимума. А в качестве побочного эффекта получают выброс большого количества энергии при срыве СП.
В СП логике же наоборот индуктивность и токи и магнитные поля нужно делать как можно меньше, вплоть до работы с единичными элементарными квантами магнитного поля, т.к. сами поля и токи нам не нужны — это лишь средства переноса и обработки информации.
Собственно выше ссылок кучу уже накидали. Оказывается подобные схемы не просто возможны, а в небольшом масштабе уже успешно создавались еще несколько десятков лет назад и достижением рабочих частот вплоть до 700 ГГц на простых элементах.
Кому тяжело кучу текста на аглийском вчитываться, оказывается и в рунете немало написано, только все как-то мимо меня все проходило, поэтому и «изобрел велосипед» в прошлом сообщении:
Быстрая одноквантовая логика
Сверхпроводящая логика
Взлеты и падения быстрой одноквантовой логики
Даже у нас какие-то разработки по теме идут: www.nkj.ru/news/25845
Почему оно еще до сих пор «не влетело» (и вероятно так и не взлетит, кроме каких-то очень узких областей применения) тоже примерно понятно из прочитанного.
В сложных схемах(чипах, а не отдельных элементах) на СП можно достичь частот только в 5-10 раз выше чем на кремнии, но при этом достижимая плотность размещения элементов наоборот намного ниже. В результате явное преимущество у таких схем может быть только в задачах требующих строго последовательной обработки, без возможности какого-либо параллелизма. А на большинстве задач проще использовать большее количество элементов и увеличить разрядность/количество исполнительных блоков/потоков/ядер и т.д.
А очень высокая энергетическая эффективность работы таких схем, во многом сводится на нет необходимостью тратить много энергии на поддержание их криогенных температур. Т.е. сам чип энергии потребляет очень мало по сравнению с кремниевыми, но вот система охлаждения к нему…
Интересно насколько в этом плане могут помочь высокотемпературные СП. Все-таки на жидком азоте система охлаждения потребляет энергии «всего» раз в 10 больше, чем количество тепла, которое нужно отводить от охлаждаемых объектов, против сотен-тысячу раз при охлаждении жидким гелием.
С натрием тоже ничего хорошего не выйдет. То есть можно было бы сделать где-то систему на плавлении натрия, но есть 2 минуса:
— температура плавления 97.81 означает, что даже при нанесении его на крышку процессора в момент плавления температура кристалла скорее всего достигнет критических 100 градусов;
— плотность чуть меньше плотности воды — 1 куб. см. металла будет иметь слишком низкую теплоемкость.
А для непосредственно теплового переноса при умеренных температурах простая вода это идеальный теплоноситель — и массовая и объемная теплоемкость у нее в несколько раз выше чем у жидких металлов. Соответственно необходимый поток и производительность циркуляционных насосов в несколько раз ниже для съема и переноса того же количества тепла.
Помнится про АМД с открытым чипом было видео, как они пыхают без радиатора. Может и тут опубликуют...
Всех интересует как подводить/отводить 17кВт. В целом, человечество умеет охлаждать фигулины до нескольких гигаватт (привет, реакторы).
А вот 1.2Тбит/с сетевого трафика с одной машины — это реально страшно.
В результате можно либо снизить критическую массу и размеры реактора либо использовать менее обогащенное и за счет этого более дешевое ядерное топливо, которое к тому же более полно используется/вырабатывается в процессе работы.
Вплоть до того, что можно построить реактор, который будет способен работать на топливе вообще без дополнительного обогащения — прямо на природном уране.
Формально и на обычной воде это теоретически возможно, но на практике размеры и другие параметры подобного реактора оказываются неприемлемыми. А вот на тяжелой это не только возможно, но и такие модели существуют на практике (например CANDU ).
И да, замедлять нейтроны очень хорошо протонами, т.к. при очень близких массах почти вся энергия нейтрона может быть передана протону. Аналогично и с полиэтиленом — при формуле фактически "-(CH2)n-" на 14 единиц массы есть 2 полезных для таких целей протона.
А работы по тепловым трубкам на жидком натрии (для космических реакторов, где важна компактность и вес) ведутся как минимум лет тридцать. Эффективность таких ТТ значительно превышает таковую для водяных ТТ, да и диапазон рабочих температур заметно шире. Но для данного случая натрий не вариант.
В космосе это оправдано снижением веса, а на земле — вряд ли.
А натриевые ТТ — по эффективность водяных ТТ может и превышает, а вот банальной трубочке аналогичного диаметра по которой вода прокачивается насосиком все-равно уступает.
Там натриевые ТТ тоже не для суперэффективности съема тепла, а ради высокой надежности, большого срока службы без каких либо ТО в процессе, ну и диапазона раб. температур.
Кроме того, вода имеет неприятную особенность закипать, резко увеличивая объём и повышая давление, налицо низкий температурный диапазон. ТТ на парах воды, по крайней мере, не порвутся при перегреве, но теплопроводность также потеряют.
ТТ на расплаве натрия спокойно продолжат качать энергию, увеличивая температуру конденсатора, а значит, и его излучение. Равновесное состояние будет достигнуто, хотя и при более высокой температуре.
Ну и компактность. И вес. Но если что, то всё.
А вот 1.2Тбит/с сетевого трафика с одной машины — это реально страшно.
Почему сразу сетевого трафика?
Если у меня графическая карта имеет пропускную способность 400GB/s это не значит что мне нужен такой же выход в сеть.
У них же сказано — 12 100Гбит линков. Интернет не обязательно, но даже в режиме interconnect между локальными машинами всё равно пугает.
Cisco Nexus 9300-GX — 16 портов по 400гбит. Nexus 3432D-S — 32 порта. Стоимость у них, конечно, страшная. Но вполне терпимая, когда возникают потребности в таких компьютерах и полной утилизации их возможностей.
Вот стоит такая Cisco на 16 портов по 400Гбит и обслуживает локалочку из 5 компьютеров. Прям как хаб под столом.
В оракловых стойках вообще штатно стоит 3 свича (40Gb ib / 100GbE) — и ничего, удобно: сгорел один свич — трафик автоматом пошёл через другой.
Всех интересует как подводить/отводить 17кВт. В целом, человечество умеет охлаждать фигулины до нескольких гигаватт (привет, реакторы).
Охладить можно всё что угодно, но тут ведь ещё вопрос размера фигулины, и при этом как-то питание надо подводить и.т.д.
Однако Cerebras не представила реальные результаты тестов, чтобы проверить заявления о высокой производительности
Идея в том, чтобы сохранить все данные на гигантском чипе — и тем самым ускорить вычисления.однако
18 гигабайт памяти SRAM на чипеНе клеится. Это такой же порядок объема, как на домашних десктопах — веса GPT-2 1.5B всего лишь раз 6 целиком влезут, однако на тренировку даже одной копии памяти не хватит(3).
А в статье по ссылке как раз описывается метод, за счет которого можно эффективно тренировать сети, в которых даже один полный набор параметров модели не умещается в локальной памяти единичного устройства за счет сегментирования данных — для примера они там тестируют тренировку моделей от 40 до 100 миллиардов параметров на кластере из V100 в которых по 32 ГБ памяти максимум.
Сейчас в стандартных фреймворках для обучения их хранят, просто потому что большинство используемых и тренируемых сеток на практике имеют размеры порядка 1-100 млн. параметров и памяти у железа даже «домашнего» класса в единицы ГБ более чем достаточно, поэтому ее «излишки» можно потратить для хранения вспомогательных и промежуточных параметров, позволяющих ускорять вычисления. По сути разновидность кэширования — вместо повторного вычисления чего-либо сохраняем полученный результат и в следующий раз извлекаем его из памяти вместо повторного расчета.
Для гигантских по кол-ву параметров моделей используют несколько другие подходы и фрейморки (и статья как раз предлагает способ как их можно дальше улучшать), в частности сравнивают уже существующий и использующийся для таких целей со своим вариантом на моделях от 8 до 100 миллиардов параметров прогоняемых на кластере GPU c 32 ГБ памяти:
А памяти тут «мало», потому что это сверхбыстрая память типа SRAM, которая очень дорого обходится в плане расхода транзисторов — по 6 или 8 транзисторов на каждый бит емкости. На 18 ГБ это как минимум 870 миллиардов (18*8*6) транзисторов. При том что общий «бюджет» чипа ~1200 миллиардов транзисторов.
Т.е. в нем и так большая часть транзисторого бюджета и площади чипа отдана как раз под память — она занимает намного больше чем вычислительные ядра, внутреняя сверхскоростная сеть и все прочие интегрированные системы вместе взятые.
А обычной памяти (для хранения всего остального, кроме самого критичного по скорости доступа) если нужно не проблема накидать в виде внешнего банка обычной (DRAM) памяти — хоть террабайт подключай.
Не клеится. Это такой же порядок объема, как на домашних десктопах — веса GPT-2 1.5B всего лишь раз 6 целиком влезут, однако на тренировку даже одной копии памяти не хватит(3).
Я так понимаю, тут речь про «процессорную» память (кэш). У i9-9900X, например, она 20мб.
Обычные процессоры испокон веков делаются на одном кристалле. А потом пластина режется на десятки / сотни кусков — отдельных процессоров. Суть в том, что на пластине могут появляться отдельные дефекты. По аналогии — как битые пиксели на мониторах. И они появляются там довольно часто. Если разрезать пластину с такими дефектами на куски — лишь некоторые процессоры будут непригодные, остальные будут полностью рабочими. Но чем больше площадь процессора — тем больше вероятность, что на нем окажется дефект. А это в свою очередь влияет на цену рабочих экземпляров. Грубо говоря, если на пластине есть 10 дефектов, и она режется на 1000 процессоров, мы получим не более 1% брака. А если она режется на 50 процессоров — получим до 20% брака. Если резать ее на 10 частей, у нас есть шанс не получить ни единого рабочего процессора. И так далее. Если я правильно понял суть вашего комментария.
Но по факту, ИМХО, это не более чем понты. Это будет жутко дорого и не практично. А выгода в чем? Сэкономить место?
А выгода в чем? Сэкономить место?Емкость одной линии передачи данных на кристалле — десятки фемтофарад. Типовой диаметр такой линии — десятки нанометров.
Емкость соединения двух закорпусированных микросхем на плате — десяток пикофарад. Типовой диаметр такой линии — сотни микрон.
Какие линии вы предпочтете, если вам их нужно десять тысяч? Или миллион?
сли разрезать пластину с такими дефектами на куски — лишь некоторые процессоры будут непригодные, остальные будут полностью рабочими.Вообще там скорее всего все процессоры будут нерабочими, если внутри каждого из них не заложены механизмы починки косяков. Совсем в помойку отправляется только то, где багов слишком много, чтобы их пофиксить.
Какие линии вы предпочтете, если вам их нужно десять тысяч? Или миллион?На сегодняшний день от этого будет практическая польза? Я просто не в курсе.
Если вам нужно зарядить линию за фиксированное время, то во втором случае вам потребуется в сто тысяч раз больше мощности. Если, конечно, это вообще получится, потому что есть еще сопротивление и индуктивность линии.
Поэтому ответ про практическую пользу очень простой: соединения на кристалле вместо соединений на плате намного быстрее и расходуют на несколько порядков меньше энергии.
CS-1 — чип из 400 000 ядер и 1.2 триллиона транзисторов.
А сколько там получается нейронов на 1 ядро?
Чтобы прикинуть, сколько CS-1 в кластере сэмулируют мозг человека.
Можно ограничить сверху. Если взять 1 ядро = 1 нейрон, то получим кластер из 212500 CS-1. Но это конечно очень грубая оценка.
Но в одной из прошлый подобных попыток созданий нейроморфных чипов с очень похожим подходом (только в гораздо меньших масштабах — en.wikipedia.org/wiki/SpiNNaker), где тоже довольно слабенькие ядра (одна из простых версий ARM к тому же работающая на частоте всего 200 МГц) с интегрированной SRAM памятью в каждом и общением со всеми соседними ядрами по MESH-сети через встроенные же коммутаторы получалось моделировать работу до 1000 нейронов на каждое ядро.
В одном из более свежих попыток — чипах TrueNorth заложено моделирование 256 нейронов на 1 очень простое ядро (там по 4096 ядер в одном чипе, симуляция до 1 миллиона нейронов на чип).
Так как никто специально ломать техпроцесс не станет, то похоже, что эти молодцы сделали процессор который масштабируется путем параллельного переноса. Давно ждал такого хода.
Вопрос не сколько в охлаждении. А вот как они питание в центр пластины подают?
Не Cerebras Systems, а Cyberdyne Systems
Cerebras Systems представила компьютер с самым большим в мире процессором 22×22 сантиметра