Comments 31
Не совсем понятно, как IPO компании Cerebras повысило бы риски утечки технологий в Китай? Та же Nvidia торгуется на бирже, и тем не менее они подчиняются американскому регулятору.
Тем более это не такой и рокет-сайенс. Активно разрабатываются фотонные и квантовые вычисления, и это будет гораздо круче и энергетически эффективнее и решений Cerebras, и NVidia.
Попробую ответить на оба вопроса: первый сложнее, но я его постарался подробно описать в статье.
Про IPO и риски. Дело не в самом факте торгов на бирже, а в структуре бизнеса, ведь у Nvidia диверсифицированный портфель клиентов. У Cerebras 85% выручки и миллиардные инвестиции зависят от одного игрока (Арабский G42). Регулятор (в их случае CFIUS) увидел риск не в публичности, а в том, что ключевой партнер (G42) может стать прокси для передачи технологий в Китай. Блокировка IPO - это способ давления: США требуют очистить цепочку поставок и капитал от связей с Китаем до того, как компания станет публичной. это вопрос контроля над единственным каналом сбыта.
Теперь про фотонику и кванты. Звучит отлично в теории, но весь наш дьявол в таййминге. Квантовые вычисления пока не оптимизированы под матричные операции (основа LLM), а полностью фотонные процессоры все еще мягко говоря далеки от серийного производства масштаба Nvidia или Cerebras. Они решают проблему сегодняшнего дня: дефицит энергии и скорости для обучения моделей уровня GPT-5. Пока фотоника выйдет на коммерческую арену (в чём, я кстати, не сомневаюсь, и не отношу это к фантастике. вопреки очень распространённому мнению) индустрия успеет сжечь еще гигаватты электричества. Wafer Scale это решение здесь и сейчас. Мост в будущее с текущими знаниями, пока мы ждем новой физики.
У такой пластины должен быть медный блин радиатора охлаждения с двумя ручками, а еще смеялись над советскими микросхемами:-)
Смех смехом, а технически так и есть: чип накрыт огромной пластиной с водяным контуром (cold plate). Получилась герметичная система, которая отводит тепло эффективнее, чем тысячи маленьких радиаторов в стандартной серверной стойке :)
Давным-давно придумано жидкостное охлаждение кристаллов, причем чуть ли не внутри бутерброда кристаллов можно жидкость гонять. Было бы желание...
В коммерческих продуктах пока никто массово не применяет. Проблемы скорее всего две: коррозия металлизации от теплоносителя и вопрос крепления подводящих каналов к хрупкому кремнию. В обозреваемом чипе с этим проще - гигантская площадь поверхности, можно одну сторону накрыть огромным водоблоком с ультимативным жидким гелием. Вторая сторона для питания. И сокет с шестизначным числом (по количеству контактов).
Много снять тепла можно и на обычных водоблоках:
Уже сейчас это 140-180кВт на стойку и до 370кВт в следующем году:

NVIDIA еще показала прототип системы c 600кВт на стойку (Kyber Rack NVL576):

Как они обошли явление - Utilization Wall? Попытка заработать на теме ИИ, не более. Похоже на умную соковыжималку Juicero из мира фудтеха.
Juicero была попыткой продать дорогую обертку для дешевого сока. Cerebras же продает решение главной проблемы индустрии -- простоя вычислительных ядер.
Барьер утилизации, о которой вы говорите (Utilization Wall) существует только потому, что в стандартной архитектуре память и процессор разделены. Пока данные едут по проводам, процессор, говоря метафорой, курит. Cerebras разместила память внутри процессора. Данным не нужно никуда ехать, они уже на месте. В итоге КПД (утилизация) у них близка к 100%, пока кластеры на GPU греют воздух в ожидании синхронизации.
Cerebras разместила память внутри процессора. Данным не нужно никуда ехать, они уже на месте.
Зачем тогда есть кэши L3, L2, L1, да еще и регистры? При том, что все они находятся на одном кристалле...
А все просто: время в пути = расстояние / скорость. Больше площадь -- больше расстояние, больше расстояние -- больше время доступа.
Процессор (без GPU) имеет порядка 20 миллиардов транзисторов. А это ~4 Гб SRAM (состоит из ~5 транзисторов) памяти. 128 Гб памяти по площади уже будет, как минимум, в 32 раза больше процессора!
И размещение памяти на том же кристалле, что и процессор, проблему никак решить не может.
Кстати, SoC (System on Chip) уже давно существуют, но вот чудес по скорости не показывают.
А это ~4 Гб SRAM (состоит из ~5 транзисторов) памяти. 128 Гб памяти по площади уже будет, как минимум, в 32 раза больше процессора!
Прошу прощения за ошибку: ~5 транзисторов на 1 бит. т.е. не ~4 Гб, а всего 512 МБ, SRAM. И 128 Гб памяти по площади уже будет, как минимум, в 256 раза больше процессора!
Что-то здесь не сходится. Как уже упоминали здесь, данных на много порядков больше, чем процессоров, поэтому их надо как-то к процессору доставить из всего массива памяти - затолкать в немногочисленные регистры, чтобы обработать. И здесь никуда бутылочное горлышко на доставку не денется, а с учетом размера тарелочки, ещё и дольше должно оказаться.
Есть публичные метрики. По AI Inference Cerebras в разы быстрее всех на планете
На ванильных тестах, под конкретный пример, без учета переплаты за неиспользуемую мощность тарелочки и без возможности масштабирования вне её пределов – да, вполне возможно показать кратный прирост скорости.
Но архитектурно здесь же никакого прорыва нет, просто жестко скомпонованная многоядерная система, не?
А можно пруф? Независимых тестов ОБОРУДОВАНИЯ только, а не Endpoint. В индустриально стандартных и признаваемых MLPerf и InferenceMAX их нет.
Вы, вероятно, сошлетесь на Artificial Analysis, но тут "нюансы":
Те тесты, где есть Cerebras - это тесты Endpoint/провайдера, а не оборудования. Например в топе для GPT-OSS-120B там сейчас AWS Bedrock (хотя на бекенде у него "не самые быстрые на планете" Inferentia и Trainium, а так же NVIDIA GPUs.)
А еще они любят сравнивать с HGX B200 (или на Hopper) на 8 GPU, а не сравнимые rack-scale GB200/300 NVL72. Которые, по заявлениям NVIDIA, дают 1.5M tokens per second для gpt-oss-120B на стойку.
Ну и можно открыть AI Hardware Benchmarking & Performance Analysis у них же, а там... Снова все те же лица, NVIDIA, AMD, Google. А Cerebras нету...
Плюс надо строго выбирать модели, которые они поддерживают и по которым сравниваются. Их там 4 (6) штук - https://inference-docs.cerebras.ai/models/overview
Любопытно, если они такие быстрые, классные и в разы/порядки быстрее NVIDIA, то почему не отправили ни одной заявки в MLPerf? https://mlcommons.org/benchmarks/inference-datacenter/ NVIDIA есть, AMD, Intel, Qualcomm - есть. TPU от Google - есть. А их - нет.
Здесь нет шин, по которым данные должны ехать до процессора – они уже на месте.
Ну как нет... "Weights are stored and recalculated from Backpropagation. The system stores weights in external memory and streams them onto the wafer for forward and backward passes." https://arxiv.org/html/2503.11698v1 Просто потому, что у вас в 40GB ни одна современная модель даже среднего размера (типа LLama 70B FP16, а gpr-oss-120B даже в MXFP4 - ~60GB) туда не влезет. Поэтому размещать надо в RAM и SSD на отдельных узлах (MemoryX nodes) и которые должны "ехать до процессора". И там этих коммуникаций еще больше - https://training-docs.cerebras.ai/rel-2.5.0/concepts/weight-streaming-execution
Ну либо использовать только маленькие модели (но зачем?) + активно сжимать, например, до FP8, как они сделали для той же LLama 70B, чтобы влезть в заветные 40GB - https://www.cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed.
Ну и нагрузку, а KVCache куда пихать? Для того же gpt-oss-120B ~70KB per token нужно. LLama в FP16 - 0.3MB per token. Понятно, что его можно выносить в RAM/SSD внешних узлоы, ибо места в VRAM/SRAM нету, но это точно такое же внешнее взаимодействие.
Ему не нужна координация по рации, все вагоны сцеплены намертво в единую жесткую конструкцию и движутся как монолит.
"The Cerebras WSE is actually many chips on a wafer within the confines of the reticle limit. Instead of cutting the chips apart along the scribe lines between chips, they developed a method for cross die wires. These wires are patterned separately from the actual chips and allow the chips to connect to each other. In effect, the chip can scale beyond the reticle limits." + "Cerebras deals with this by adding 2 additional rows of cores across each reticle sub-chip. The interconnect within these chips is a 2D mesh where each core is connected in the vertical and horizontal directions. They also have additional interconnects for each of the diagonal cores as well. This allows defective cores to be routed around and software to still recognize a 2D mesh." + "Cerebras software stack places and routes these layers while maintain high utilization rates of cores and fabric." https://newsletter.semianalysis.com/p/cerebras-wafer-scale-hardware-crushes
А дальше интереснее - если модель не влезает в одну вафлю "20B models fit on a single CS-3 while 70B models fit on as few as four systems.", то вместо сверх быстрых коммуникаций и "монолита", о которых вы пишите, у нас всплывает обычный Ethernet (пишут всего про 100GbE, но это CS2, может в CS3 подняли https://www.servethehome.com/detail-of-the-giant-cerebras-wafer-scale-cluster-nvidia/), который проигрывает NVLINK в разы по скорости и задержкам.
P.S. Я не говорю, что у них все плохо и т.д. Возможно, под какие-то отдельные use-cases под это хорошо подойдет. Но то, что вы пишите имеет достаточно далекое отношение к действительности.
Да, они делают ставку на другие вещи - на маленькую, но очень быструю SRAM + на очень быстрый, но ограниченный Scale-up (за ним провал).
У NVIDIA же SRAM тоже есть, но сильно меньше (~50-100MB на карту), а основное хранение в быстром HBM большего объема, затем дешевая и большая RAM в Grace (которая кстати быстрее, чем у CS3<->MemoryX, ибо там NVLINK C2C) и т.д. У NVIDIA так же два чипа под крышкой, которые связаны очень быстрым интерконнектом, но основная ставка на Scale-Up NVLINK (который пусть и медленее, но сильно лучше масштабируется), потом Scale-Out SpX или IB.
Со стороны сильно походит на надувательство: владельцы - арабские шейхи и неизвестная компания G24, в портфеле контрактов - правительство Гайаны (!!!), клиника Мейо (что там-то считать на GPU?), немецкая Aleph Alpha (честно, впервые о них слышу), GlaxoSmithKline (ну, хоть эти могут всякие новые модельки лекарств и прививок считать).
G42 - это крупнейший технологический холдинг Саудовской Аравии, а они очень нацелены на развитие сейчас, сам Микрософт недавно в них $1.5 млрд инвестировал. Mayo Clinic - это самая прогрессивная медицина в мире. И даже Гайна - это не просто банановая республика, у них уровень жизни в разы вырос за последние годы. Можно ведь просто сделать рисерч за 3 мин, а потом уже давать оценочные суждения.
Сначала дополнение к отличному комментарию уважаемого @NKulikov: от Cerebras Systems такое ощущение как от CRAY в конце 90-х. Да, мощные многопроцессорные системы для науки и бизнеса, но в конце концов оказалось, что науке и бизнесу дешевле купить много ПК, которые, к тому же, оказались многофункциональными. Так и с Cerebras Systems - выпустили нишевую дорогую числодробилку, а NVIDIA выпускает многофункциональные более дешёвые решения, на которых можно и посчитать и поиграть.
Ну и, как Вы и просили, провёл "рисёрч за 3 мин".
Да, на Гайану обрушилось денежное цунами, но по индексу человеческого развития она на 89 месте, то есть, где-то в серединке вместе со Шри-Ланкой и Доминиканской Республикой. Мне Вам рассказать, где осядут бешеные деньги, или лучше не надо?
G42 - частная компания, то есть, всё не очень прозрачно. К тому же, они сами - недавний стартап, инвестиции Microsoft возможно ещё не отбиты. Ну и так, немного занудства: G42 - это ОАЭ, а не Саудовская Аравия.
Про "Aleph Alpha" Вы как-то умолчали. А это опять стартап с неотбитыми инвестициями.
Про клинику Майо ничего сказать не могу.
Под конец "рисёрча за 3 мин" посмотрел страницу Википедии по Cerebras Systems. Честно говоря, примеров там больше чем у Вас и они релевантнее. Да, суховато, но более полно и объективно.
Вы очень технически подкован! Не берусь спорить. Я всего лишь простой инвестор, разбираюсь до того уровня, чтобы понять, стоит делать на них ставку рублем или нет. И тут моя ставка 2023 года сыграла (когда про Cerebras мало кто слышал), сейчас +450% доходности.
Ну так вы пишите про то, как оно работает и почему (с точки зрения технической реализации) оно такое классное. И это, мягко говоря, не очень правда. Писали бы вы про инвестиции, я бы комментировал это, а не ваше техническое описание.
Но и про акции я могу :)
разбираюсь до того уровня, чтобы понять, стоит делать на них ставку рублем или нет. И тут моя ставка 2023 года сыграла (когда про Cerebras мало кто слышал), сейчас +450% доходности.
Ну так себе она сыграла. Потому что вложились бы вы в 2023 (Январь для примера) в более "известных и про которых все слышали" конкурентов Cerebras, то получили бы - +1,200% на NVIDIA или 620% на Broadcom. ;)
Так что, если говорить про рубли, а не технику, то оказывается выгоднее бы было ставить на NVIDIA/Broadcom. С "обычными" отдельными чипами, быстрой scale-up/out фабрикой, HBM и всем прочим :)
Во-первых, доходность за почти три года с февраля 2023 (yahoo finance) всего 79%, а не 450%. А за последний год, так и вовсе 5%. Очень хотелось бы увидеть ссылку на "+450% доходности".
Во-вторых, компания так и не провела IPO, то есть, возможность купить долю есть только через раунды финансирования той или иной степени закрытости. Вроде, согласно Википедии, в октябре 2025 года они отозвали заявку на проведение IPO.

Каков процент брака подобных больших чипов и итоговая цена в пересчете на производительность? Он внутри модульный и можно отключать отдельные бракованные сегменты?
Мне кажется наверняка будут варианты где отключены разное количество модулей. Иначе целую пластину в утиль.
Там внутри куча отдельных ядер/"чипов". Просто на одной пластине. Поэтому они и могут отключать отдельные бракованные ядра, а не все пластину. "The Cerebras WSE is actually many chips on a wafer within the confines of the reticle limit."

Вот тут детали https://newsletter.semianalysis.com/p/cerebras-wafer-scale-hardware-crushes
Кстати та же логика была и проекта Dojo от Маска, пока они его не свернули. Скоро увидим, как Илон наснет кусать себе локти, как это было с Open AI.
бесконечные деньги от якорного заказчика
Если бы это была правда, IPO было бы не нужно. Что бы делать чипы и продавать, не требуется быть публичной компанией. Ваш интерес как инвестора понятен, но он не в технологическом успехе (у cerebras он средний на общем фоне, конкуренты очень уж хороши), а продаже доли другим инвесторам (впрочем, ничего плохого в этом нет).
Быть ближе к своему правительству не менее важно, чем быть ближе к оперативной памяти.
Именно так человек с фамилией Хуанг и соответствующей наружностью стал самым благонадежным патриотом Асашай и ни в коем случае никогда не передаст критические технологии в Китай.
Один чип вместо тысяч серверов, или глобальный конкурент Nvidia