Comments 18
Так это ж не DeepSeek R1, а файнтюн llama3-70B, нельзя ж так беспардонно кликбейтить!
Это R1 на llama 70b https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B
В 57 раз как-то очень нереалистично звучит.
Могли и в 1000 раз, просто надо было сравнить о1 и дистилят R1 1,5b. Выше правильно Mike_666 написал, что ежа с ужом сравнивали
Они там ежа с ужом сравнивают:
"In our comparison testing, OpenAI’s o1-mini takes 22 seconds to complete a standard coding prompt. The same prompt takes just 1.5 seconds on Cerebras – a 15x improvement in time to result."
Я сходит попробовал на своих задачах — она невероятно быстрая.
https://ru.wikipedia.org/wiki/Cerebras_Wafer_Scale_Engine
Собственно вот о чем речь в статье. О чипе (процессоре) на 400 тысяч ядер с 18 ГБ встроенной в него же оперативной памяти. Но это старая версия, сейчас у них видимо уже есть лучше варианты.
С учетом что для R1 (без квантования) нужно примерно 2,3 Тб оперативки, будет интересно на пластину посмотреть) Судя по тому, что они запустили 70b это их максимум и там примерно 300-400Гб памяти, хотя нет гарантии, что они в реальности не размазали по нескольким пластинам
Судя по тому, что они запустили 70b это их максимум и там примерно 300-400Гб памяти
Официальный релиз ~150гб в bf16.
С учетом что для R1 (без квантования) нужно примерно 2,3 Тб оперативки
R1 обучалась сразу в fp8, а не fp16/fp32, поэтому ей нужно ~700Гб + память на контекст.
По сути это первая крупная модель обученная сразу в fp8, интересно на сколько рабочими будут модели обученные в новый fp4.
Там если нажать на стрелочку рядом, то будет расписано какие веса bf16, а какие в fp8.

BF16/FP32 там немного, они нужны для динамической активации и масштабирования (документация из V3 совпадает с R1).

Веса модели в fp8, немного bf16 это веса нормализации, а в fp32 веса weight_scale_inv, которые нужны для деквантования из fp8 по формуле
(128x128 weight block) * weight_scale_inv
.
Может быть так, что будет перепроизводство лопат на приисках?
Если каждый захочет себе в сервер ИИ-лопату, то у мануфактур будет много работы. Вон игровые карты всё никак не могут дефицит побороть (хотя есть теория что дефицит рукотворный).
Вряд ли. Лопаты нужны всегда и везде. Уж если не золото копать, то огород вспахивать.
Правда конкретно эта лопата и впрямь совсем уж узкоспециализированная. Рыночный козырь Хуанга в том, что его решения универсальные. Они буквально везде есть и всем нужны. Инженеры на них гоняют расчеты прочности. Биологи считают молекулярный докинг. Дизайнеры рендерят картинки. Майнеры майнят крипту. Датасаентисты обучают нейросетки. Игроки играют в игры. Такой уровень амортизации спроса на рынке хардвара мало у кого имеется. И если внезапно так получится, что ии-пузырь лопнет (ну мало ли), то у Хуанга есть все шансы это пережить и оседлать следующую волну хайпа. А в случае церебрас шансов пережить этот кризис примерно ноль.
1 серверная стойка Cerebras по мощи превосходит средний суперкомпьютер. На борту 1 чипа впихнули 40 или 80 Гб памяти... Только это память кеша L2... То есть тысячи раз больше чем у любого процессора хоть обычного хоть видеокарты. Церебрас уделывает чипы Nvidia в сухую и превосходит в скорости обучения ИИ не в 2 раза а на порядки! Какая там нейросеть совершенно не важно дело вовсе не в нейросети а в революционной архитектуре процессора.
Cerebras Systems бросает вызов доминированию Nvidia на рынке AI-чипов, опережая графические процессоры в 57 раз