Судя по скриншоту, у вас не выставлен параметр “Number of layers for MoE onto CPU” (ncmoe) — из-за этого все MoE-веса сидят на GPU, VRAM забита под завязку и модель упирается в пропускную способность видеопамяти.
Попробуйте уменьшить параметр «Number of layers for MoE onto CPU» (ncmoe). Например, поставьте 20 вместо 40 — тогда половина MoE-весов уйдёт на GPU, загрузив VRAM, а в RAM освободится место. У меня на 12GB VRAM комфортно работает значение 25.
Судя по скриншоту, у вас не выставлен параметр “Number of layers for MoE onto CPU” (ncmoe) — из-за этого все MoE-веса сидят на GPU, VRAM забита под завязку и модель упирается в пропускную способность видеопамяти.
Попробуйте поставить ncmoe в диапазоне 25–40
Попробуйте уменьшить параметр «Number of layers for MoE onto CPU» (ncmoe). Например, поставьте 20 вместо 40 — тогда половина MoE-весов уйдёт на GPU, загрузив VRAM, а в RAM освободится место. У меня на 12GB VRAM комфортно работает значение 25.