Comments 7
Очень интересуют требования к железу, скорость генерации токенов и качество ответов *30B модели в сравнении с копилотом
Требования к железу для малых LLM весьма скромные. Видеокарта 1060 и оперативная память от 8гб. Что касается у приведенной в примере модели у меня стоит 4090 и 32гб.
Но уверяю что работать будет не на столь производительных ПК.
Что касается сравнения тут не подскажу, но учитывая что запуск происходит оффлайн у меня практически нет ожидания ответа.
Что касается качества ответа тут по большей части зависит от промта и самой LLM которую вы установите. Советую попробовать несколько, и иметь в запасе штуки 3 для выбора)
Для запуска нормальной модели нужна видео карточка за 1500$ и памятью на 32гига. Иначе смысла особого нет. Слабые модели можно брать только под конкретные узкие задачи.
Тут не соглашусь, вполне себе хватает как для помошника. Даже с более слабой моделью.
Нормальные модели начинаются от 30B. Все , что ниже, чисто "поиграться"
Это как в кино, чем меньше "разрешение", тем хуже качество ответа. Сейчас локальные llm, это как первые мониторы 640на 480. До 1080p они дойдут еще не скоро.
Для запуска нормальной модели нужна видео карточка за 1500$ и памятью на 32гига.
Нормальные модели начинаются от 30B.
Для запуска 30B из статьи нужно всего 2 гб VRAM и будет работать на скорости 10+ t/s.
В статье Qwen3-Coder-30B, но полное название модели Qwen3-Coder-30B-A3B. A3B - означает, что это MoE модель, где на каждый токен активных параметров всего 3B.
В llama.cpp есть оптимизация для работы с MoE моделями через --override-tensor exps=CPU
или просто --cpu-moe
. Этот параметр отправляет MoE-веса на CPU, а тензоры внимания и общие ffn тензоры всех слоев на GPU. Это работает так, что даже настоящую большую DeepSeek R1 671B можно запустить на игровом ПК и особо не заскучать дожидаясь ответов.
Несколько дней назад в LM Studio 0.3.23 добавили возможность активировать этот параметр. Во время загрузки модели нужно включить "Force MoE expert weights onto CPU" и выставить полную выгрузку всех слоёв несмотря на предупреждение о том, что памяти не хватит. Flash Attention тоже стоит включить, это сэкономит много памяти контекста.

Нужно всего 2 Гб VRAM + контекст. Например, на 32к контекста потребуется +2 Гб. Скорость работы на 4060ti + i7-14700 получилась 14 t/s.

Скорость можно повысить, если воспользоваться параметром --n-cpu-moe
и заполнить VRAM до отказу, сколько есть. Этого параметра пока нет в LM Studio, поэтому нужно запускать llama.cpp напрямую. llama-server создает и веб-клиент и openai completions api, как и LM Studio Local Server, поэтому для работы с Continue ничего не изменится.
.\llama-server.exe -m "D:\models\lmstudio-community\Qwen3-Coder-30B-A3B-Instruct-GGUF\Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf" --n-cpu-moe 16 -ngl 99 -fa -c 32768

Загружено 15гб VRAM, скорость выросла до 38 t/s.
И на таких маленьких моделях лучше брать квант побольше, не тот, что в LM Studio предлагается по умолчанию. По умолчанию там Q4_K_M, лучше взять Q5_K_M или сразу Q6_K. Ещё лучше обратить внимание на имя авторов квантов и поискать среди них Unsloth, у них выбрать кванты с припиской XL, это динамическое квантование UD, при том же размере дает выше качество.

Сейчас много разных MoE-моделей. Можно запустить и openai_gpt-oss-120b, там тоже всего 5.1B активных параметров, для запуска нужно 4гб VRAM и 62гб RAM. Скорость просядет, так как объем модели куда выше, и уже много тензоров считается на CPU, но всё еще приемлемая.

Как заменить GitHub Copilot на полностью офлайн‑Continue Plugin