Pull to refresh

Comments 18

Хм, а в чем разница? Что мешает запустить хоть deepseek, хоть llama, они же открытые.

DeepSeek в 10 раз больше, на Cerebras это действительно можно сделать, но сейчас не сделали.

Могли и в 1000 раз, просто надо было сравнить о1 и дистилят R1 1,5b. Выше правильно Mike_666 написал, что ежа с ужом сравнивали

Они там ежа с ужом сравнивают:

"In our comparison testing, OpenAI’s o1-mini takes 22 seconds to complete a standard coding prompt. The same prompt takes just 1.5 seconds on Cerebras – a 15x improvement in time to result."

С учетом что для R1 (без квантования) нужно примерно 2,3 Тб оперативки, будет интересно на пластину посмотреть) Судя по тому, что они запустили 70b это их максимум и там примерно 300-400Гб памяти, хотя нет гарантии, что они в реальности не размазали по нескольким пластинам

Судя по тому, что они запустили 70b это их максимум и там примерно 300-400Гб памяти

Официальный релиз ~150гб в bf16.

С учетом что для R1 (без квантования) нужно примерно 2,3 Тб оперативки

R1 обучалась сразу в fp8, а не fp16/fp32, поэтому ей нужно ~700Гб + память на контекст.

По сути это первая крупная модель обученная сразу в fp8, интересно на сколько рабочими будут модели обученные в новый fp4.

R1 обучалась сразу в fp8, а не fp16/fp32

Здесь написано, что

Tensor type: BF16·F8_E4M3·F32

То есть похоже, что часть параметров однобайтная, часть двухбайтная, а часть четырехбайтная. Но какая доля каждого варианта - непонятно.

Там если нажать на стрелочку рядом, то будет расписано какие веса bf16, а какие в fp8.

BF16/FP32 там немного, они нужны для динамической активации и масштабирования (документация из V3 совпадает с R1).

Веса модели в fp8, немного bf16 это веса нормализации, а в fp32 веса weight_scale_inv, которые нужны для деквантования из fp8 по формуле
(128x128 weight block) * weight_scale_inv.

ОК, спасибо. Кнопочку со стрекой видел, но вчера она показывала только ошибку таймаута.

Если каждый захочет себе в сервер ИИ-лопату, то у мануфактур будет много работы. Вон игровые карты всё никак не могут дефицит побороть (хотя есть теория что дефицит рукотворный).

Вряд ли. Лопаты нужны всегда и везде. Уж если не золото копать, то огород вспахивать.

Правда конкретно эта лопата и впрямь совсем уж узкоспециализированная. Рыночный козырь Хуанга в том, что его решения универсальные. Они буквально везде есть и всем нужны. Инженеры на них гоняют расчеты прочности. Биологи считают молекулярный докинг. Дизайнеры рендерят картинки. Майнеры майнят крипту. Датасаентисты обучают нейросетки. Игроки играют в игры. Такой уровень амортизации спроса на рынке хардвара мало у кого имеется. И если внезапно так получится, что ии-пузырь лопнет (ну мало ли), то у Хуанга есть все шансы это пережить и оседлать следующую волну хайпа. А в случае церебрас шансов пережить этот кризис примерно ноль.

1 серверная стойка Cerebras по мощи превосходит средний суперкомпьютер. На борту 1 чипа впихнули 40 или 80 Гб памяти... Только это память кеша L2... То есть тысячи раз больше чем у любого процессора хоть обычного хоть видеокарты. Церебрас уделывает чипы Nvidia в сухую и превосходит в скорости обучения ИИ не в 2 раза а на порядки! Какая там нейросеть совершенно не важно дело вовсе не в нейросети а в революционной архитектуре процессора.

Sign up to leave a comment.