Как стать автором
Обновить

Cerebras Systems бросает вызов доминированию Nvidia на рынке AI-чипов, опережая графические процессоры в 57 раз

Время на прочтение4 мин
Количество просмотров7K
Всего голосов 4: ↑3 и ↓1+4
Комментарии18

Комментарии 18

DeepSeek в 10 раз больше, на Cerebras это действительно можно сделать, но сейчас не сделали.

Могли и в 1000 раз, просто надо было сравнить о1 и дистилят R1 1,5b. Выше правильно Mike_666 написал, что ежа с ужом сравнивали

Они там ежа с ужом сравнивают:

"In our comparison testing, OpenAI’s o1-mini takes 22 seconds to complete a standard coding prompt. The same prompt takes just 1.5 seconds on Cerebras – a 15x improvement in time to result."

https://ru.wikipedia.org/wiki/Cerebras_Wafer_Scale_Engine

Собственно вот о чем речь в статье. О чипе (процессоре) на 400 тысяч ядер с 18 ГБ встроенной в него же оперативной памяти. Но это старая версия, сейчас у них видимо уже есть лучше варианты.

С учетом что для R1 (без квантования) нужно примерно 2,3 Тб оперативки, будет интересно на пластину посмотреть) Судя по тому, что они запустили 70b это их максимум и там примерно 300-400Гб памяти, хотя нет гарантии, что они в реальности не размазали по нескольким пластинам

Судя по тому, что они запустили 70b это их максимум и там примерно 300-400Гб памяти

Официальный релиз ~150гб в bf16.

С учетом что для R1 (без квантования) нужно примерно 2,3 Тб оперативки

R1 обучалась сразу в fp8, а не fp16/fp32, поэтому ей нужно ~700Гб + память на контекст.

По сути это первая крупная модель обученная сразу в fp8, интересно на сколько рабочими будут модели обученные в новый fp4.

R1 обучалась сразу в fp8, а не fp16/fp32

Здесь написано, что

Tensor type: BF16·F8_E4M3·F32

То есть похоже, что часть параметров однобайтная, часть двухбайтная, а часть четырехбайтная. Но какая доля каждого варианта - непонятно.

Там если нажать на стрелочку рядом, то будет расписано какие веса bf16, а какие в fp8.

BF16/FP32 там немного, они нужны для динамической активации и масштабирования (документация из V3 совпадает с R1).

Веса модели в fp8, немного bf16 это веса нормализации, а в fp32 веса weight_scale_inv, которые нужны для деквантования из fp8 по формуле
(128x128 weight block) * weight_scale_inv.

ОК, спасибо. Кнопочку со стрекой видел, но вчера она показывала только ошибку таймаута.

Если каждый захочет себе в сервер ИИ-лопату, то у мануфактур будет много работы. Вон игровые карты всё никак не могут дефицит побороть (хотя есть теория что дефицит рукотворный).

Вряд ли. Лопаты нужны всегда и везде. Уж если не золото копать, то огород вспахивать.

Правда конкретно эта лопата и впрямь совсем уж узкоспециализированная. Рыночный козырь Хуанга в том, что его решения универсальные. Они буквально везде есть и всем нужны. Инженеры на них гоняют расчеты прочности. Биологи считают молекулярный докинг. Дизайнеры рендерят картинки. Майнеры майнят крипту. Датасаентисты обучают нейросетки. Игроки играют в игры. Такой уровень амортизации спроса на рынке хардвара мало у кого имеется. И если внезапно так получится, что ии-пузырь лопнет (ну мало ли), то у Хуанга есть все шансы это пережить и оседлать следующую волну хайпа. А в случае церебрас шансов пережить этот кризис примерно ноль.

1 серверная стойка Cerebras по мощи превосходит средний суперкомпьютер. На борту 1 чипа впихнули 40 или 80 Гб памяти... Только это память кеша L2... То есть тысячи раз больше чем у любого процессора хоть обычного хоть видеокарты. Церебрас уделывает чипы Nvidia в сухую и превосходит в скорости обучения ИИ не в 2 раза а на порядки! Какая там нейросеть совершенно не важно дело вовсе не в нейросети а в революционной архитектуре процессора.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий