DeepSeek-V4-Flash (284B MoE) — модель с 13B активных параметров, но 284B суммарно. Всё нужно держать в VRAM для маршрутизации. Даже в W4A16 от Intel — 153 GB. Наш сетап — 96 GB. Не влезает ни в каком адекватном квантовании.

Это же MoE модель, а у них фишечка - экспертов (или даже просто up|down тензоры) можно сгрузить в оперативку и не иметь особо просадки производительности если все плотные слои влезли в видеопамять (а у вас они точно влезут).

Не знаю как у vllm и умеет ли оно инференсить экспертов из оперативки, но я лично пробовал тот же дипсик v4 флеш (пришлось собрать форк лламыцпп с его поддержкой) на 3090 24gb + 128gb ram - впритык, но работало. При 96 вирама и 256 оперативки вообще должно летать.

Также пробовал kimi k2 на 2хА4000 и 2тб оперативки на ik_llamacpp - медленно, но вполне работает.

Dmitrii-Chashchin 13 hours ago

Я вообще планирую большую таблицу составить по разным моделям и бенчам, думаю всем полезно будет! Удивительно, но информации крайне мало в открытых источниках до сих пор . Разве что, как вот писал, во всяких гугл таблицах можно найти, но их хрен пойми куда теряются всегда :)

А так, спасибо за подсказку, мб еще осилю ее :)

Pshir 12 hours ago

Обсуждение и проектирование тянулись около полугода — спорили о компонентах, искали в наличии, пересобирали конфигурацию на бумаге.

Завидую чёрной завистью людям, которые имеют возможность потратить полгода на настолько небольшую задачу.

Dmitrii-Chashchin 11 hours ago

Вы абсолютно правы, но я тут не совсем так выразился. Сроки выполнения после согласования были неадекватно сжатыми, потому что всем нужен был этот проект в контуре «вчера» :) а вот полгода - это тянущаяся история , а точно будем внедрять проект или нет , что как бы, противоречит прошлому предложению …

Но а так да, все же было время подготовится и подумать. Жаль, что в моменте это не казалось легкой задачей. Сейчас же все бы сделали гораздо быстрее!

Pshir 11 hours ago

Понятно, заказчик с очень строгими требованиями по безопасности, как обычно, пол-года занимался внутренними бюрократическими процедурами, а потом внезапно пришёл момент отчитываться за выделенный бюджет не бумажками, отчётами и протоколами совещаний, а выполненной работой. Ну и, конечно, если бы не успели, то виноваты были бы вы, а не царящая у них бюрократия. Все они такие :)

Fwild 5 hours ago

Я что-то нифига не понимаю что такое Peak t/s? для генерации токенов 1600 t/s (Gemma_4_31B) на 4×RTX 4090 слишком слишком много, для чтения промпта(prompt processing) слишком мало, я где-то идиот?

steus_au 16 minutes ago

что помешало поставить одну простую rtx6000 pro и не шаманить огород?