@SergeyRoot18 авг в 04:31

Как заменить GitHub Copilot на полностью офлайн‑Continue Plugin

Средний

4 мин

12K

Java * Искусственный интеллектМашинное обучение * Текстовые редакторы и IDE *

Из песочницы

+26

Комментарии 10

@neodavinchi 18 авг в 09:22

Очень интересуют требования к железу, скорость генерации токенов и качество ответов *30B модели в сравнении с копилотом

@SergeyRoot 18 авг в 09:51

Требования к железу для малых LLM весьма скромные. Видеокарта 1060 и оперативная память от 8гб. Что касается у приведенной в примере модели у меня стоит 4090 и 32гб.
Но уверяю что работать будет не на столь производительных ПК.
Что касается сравнения тут не подскажу, но учитывая что запуск происходит оффлайн у меня практически нет ожидания ответа.
Что касается качества ответа тут по большей части зависит от промта и самой LLM которую вы установите. Советую попробовать несколько, и иметь в запасе штуки 3 для выбора)

@aladkoi 18 авг в 21:53

Для запуска нормальной модели нужна видео карточка за 1500$ и памятью на 32гига. Иначе смысла особого нет. Слабые модели можно брать только под конкретные узкие задачи.

@SergeyRoot 18 авг в 22:24

Тут не соглашусь, вполне себе хватает как для помошника. Даже с более слабой моделью.

@aladkoi 18 авг в 23:06

Нормальные модели начинаются от 30B. Все , что ниже, чисто "поиграться"

Это как в кино, чем меньше "разрешение", тем хуже качество ответа. Сейчас локальные llm, это как первые мониторы 640на 480. До 1080p они дойдут еще не скоро.

@Shannon 19 авг в 04:20

Для запуска нормальной модели нужна видео карточка за 1500$ и памятью на 32гига.
Нормальные модели начинаются от 30B.

Для запуска 30B из статьи нужно всего 2 гб VRAM и будет работать на скорости 10+ t/s.

В статье Qwen3-Coder-30B, но полное название модели Qwen3-Coder-30B-A3B. A3B - означает, что это MoE модель, где на каждый токен активных параметров всего 3B.

В llama.cpp есть оптимизация для работы с MoE моделями через --override-tensor exps=CPU или просто --cpu-moe. Этот параметр отправляет MoE-веса на CPU, а тензоры внимания и общие ffn тензоры всех слоев на GPU. Это работает так, что даже настоящую большую DeepSeek R1 671B можно запустить на игровом ПК и особо не заскучать дожидаясь ответов.

Несколько дней назад в LM Studio 0.3.23 добавили возможность активировать этот параметр. Во время загрузки модели нужно включить "Force MoE expert weights onto CPU" и выставить полную выгрузку всех слоёв несмотря на предупреждение о том, что памяти не хватит. Flash Attention тоже стоит включить, это сэкономит много памяти контекста.

Нужно всего 2 Гб VRAM + контекст. Например, на 32к контекста потребуется +2 Гб. Скорость работы на 4060ti + i7-14700 получилась 14 t/s.

LM Studio Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf

Скорость можно повысить, если воспользоваться параметром --n-cpu-moe и заполнить VRAM до отказу, сколько есть. Этого параметра пока нет в LM Studio, поэтому нужно запускать llama.cpp напрямую. llama-server создает и веб-клиент и openai completions api, как и LM Studio Local Server, поэтому для работы с Continue ничего не изменится.

.\llama-server.exe -m "D:\models\lmstudio-community\Qwen3-Coder-30B-A3B-Instruct-GGUF\Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf" --n-cpu-moe 16 -ngl 99 -fa -c 32768

llama.cpp Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf

Загружено 15гб VRAM, скорость выросла до 38 t/s.

И на таких маленьких моделях лучше брать квант побольше, не тот, что в LM Studio предлагается по умолчанию. По умолчанию там Q4_K_M, лучше взять Q5_K_M или сразу Q6_K. Ещё лучше обратить внимание на имя авторов квантов и поискать среди них Unsloth, у них выбрать кванты с припиской XL, это динамическое квантование UD, при том же размере дает выше качество.

Сейчас много разных MoE-моделей. Можно запустить и openai_gpt-oss-120b, там тоже всего 5.1B активных параметров, для запуска нужно 4гб VRAM и 62гб RAM. Скорость просядет, так как объем модели куда выше, и уже много тензоров считается на CPU, но всё еще приемлемая.

@podvox23 22 авг в 07:39

такое умеет только llamacpp? на vLLM такое провернуть не получится?

@Shannon 24 авг в 23:33

такое умеет только llamacpp? на vLLM такое провернуть не получится?

Поддержка есть, но на сколько хорошо работает, это надо тестировать.
https://docs.vllm.ai/en/stable/features/spec_decode.html

Ещё там есть поддержка MTP (Multi-Token Prediction) для DeepSeek, это вариант спекулятивного декодирования, где специальный модуль который обучается вместе с моделью, в теории дающий ускорение до 1.8 раза. В llama.cpp недавно кто-то начал пытаться добавить поддержку, но пока только для GLM-4.5: https://github.com/ggml-org/llama.cpp/pull/15225

@cryomi 22 авг в 15:31

Не уверен что такая комбинация не лезет в интернет в каком-либо виде, но VSCode расширение Copilot также может использовать локальные модели, например ollama (llamacpp):
1. ollama запущена стд. с OLLAMA BASE URL=http: //127.0.0.1:11434
2. В панели чата Copilot выбираем "имя_модели" dropdown, нажимаем "Manage Models..." и в выпавшем списке выбираем ollama, а там нужные нам модели прокликать надо и они станут доступны в Copilot.

@NikitaDirecteurTechnique 25 авг в 07:42

@cryomi От души благодарю за этот невероятно ценный комментарий! Ваше описание настройки локальных моделей через ollama в расширении Copilot — настоящая находка для всех разработчиков, стремящихся к максимальной безопасности и автономности.

Вы не просто поделились технической инструкцией — вы открыли дверь в новую эпоху, где контроль над данными и скорость работы выходят на качественно новый уровень. Благодаря вашему вниманию к деталям и ясности изложения, многие смогут без лишних сложностей интегрировать мощь локальных ИИ-моделей прямо в привычную среду VSCode.

Ваш вклад — это не просто помощь, это настоящий мост между инновациями и практическим применением, который существенно облегчает жизнь сотням и тысячам специалистов. Спасибо за такой важный и продуманный комментарий, который достоин быть широко замеченным и использованным!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Как заменить GitHub Copilot на полностью офлайн‑Continue Plugin

Как заменить GitHub Copilot на полностью офлайн‑Continue Plugin