Как стать автором
Обновить

Комментарии 13

По замерам предыдущие модели выдавали 14 токенов на квантованных моделях DeepseekR1. Это в разы больше чем на самых дорогих серверах от AMD и Intel.
А игровые видеокарты, внезапно, для таких задач стали бессмысленны, так как нужно сотни гигабайт памяти.
Архитектура с огромной общей памятью для CPU и GPU выстрелила для подобных задач.

Цена только кусается.

По деньгам куда выгоднее взять 4 десктопные материнки Framework на 128 Гб памяти с полосой 256 Гб/с и соединить их через Thunderbolt порты или SFP+/Infiniband воткнутый в 4x слот.

да и 8k на 6k не посмотришь и надо добивать стороним монитором

Два нюанса только возникнут, даже если всё остальное сложится. Во-первых сейчас фреймворки заказать можно только на третий квартал, и во-вторых упретесь в пропускную способность тандерболта\infiniband'a (ну или порта в который воткнете, если сумеете карту пятого тандера найти).

Ну и не сказал бы, что разительно дешевле выйдет. 128Гб версии от $2К+ начинаются с затычкой вместо диска без доставок, карт расширения и прочего.

А насколько квантованных?

здесь гоняют самую маленькую DeepSeek-R1-UD-IQ1_S на 131 ГБ. https://github.com/ggml-org/llama.cpp/issues/11474
Но на моем домашнем компьютере из 2018 года - 24 ядерном AMD (192ГБ памяти) более тяжелая DeepSeek-R1-UD-Q2_K_XL (226 ГБ) работает с той же скоростью 1.6 токена что и самая мелкая. DeepSeek не прогоняет модель целиком, а просчитывает только регионы. То есть на Маках цифры могут быть также примерно одинаковые для этих моделей.

Вроде от 6 до 20 токенов в секунду, в завсимости от размера контекста выходит, судя по тому что на реддите видел в комментариях. На q4.

информация быстро устаревает.
Все еще зависит от "температуры - глубины думания" и длины контекста. Если контекст длинный то будут рулить системы с огромной памятью и видеокарта не поможет.
Сейчас еще все показывают цифры с https://github.com/kvcache–ai/ktransformers. Где ускорение в 2-3 раза с коротким контекстом умещающимся в GPU.
На текущий момент согласен - самые жирные сервера на AMD с огромной памятью будут лучше Маков.
(q4 - выбирают потому что q2 работает, внезапно, медленнее, так как эти данные нужно распаковывать. При условии что памяти достаточно)

Ссылка поломалась, но нашел оригинальную. Судя по тому что вижу - скорость работы с M3 ultra сравнимая, примерно одинаково выходит. Но с нюансом что поддержка моделек на M3 ultra все же больше, ибо ollama банальная работает. А что по стоимости выйдет дешевле - я чет не уверен. 11к долларов за M3 ultra с 512 памяти конечно прям реально дофига, но за машину с 4090/5090 + 1tb(или даже 512 тоже) памяти и топовым CPU как бы не больше отдать пришлось.

Можно ссылку на эти сравнения? Я видел только сравнения маленькой модели DeepSeek на топовом маке с бюджетными десктопными ПК. По моим наблюдениям на моём домашнем AMD локальные ИИ работают существенно шустрее чем на маке.

В целом пока модель влезает в VRAM на nvidia/amd gpu модели работают шустрее. Как только в память влезать перестают - падение скорости на порядок, и тут маки начинают выигрывать. Сравниваю свой M1 max 32gb со своим же пк на 4080 super 16gb vram. Пока модель влезает - производительность пк раза в 3-4 выше мака. Как только перестает то уже у мака в 2-3 раза производительность выше, чем с выгруженными на цпу слоями у пк.

1) Будет ли он лучше для инференса чем digits ?

2) а чем 2x4090?

3) а чем 2х5090? (цена вроде сопоставимая)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости