python_leader17 янв в 12:53

Claude Code теперь можно запускать с локальными open-source моделями

1 мин

33K

Программирование * Искусственный интеллектБудущее здесь

+18

Комментарии 31

411 17 янв в 14:36

И им бесплатно можно пользоваться в таком случае?

guryanov 17 янв в 15:19

Я так понял что да, за что и кому платить то?

alan008 17 янв в 16:05

А сам claude code что из себя представляет ? Это локальная программа или что?

StepanBykhovtsov 17 янв в 16:50

Локальная программка с интерфейсом командной строки. Внутри инкапсулирует логику взаимодействия с агентами, MCP и т. д. Все нужное хранится уже там (промпты, настройки и т.д.). Для запуска моделей лазит по URL, который можно задать в переменных среды. Если хотите не на сервера антрофик кидать запросы, можно поставить Claude code router или подобную утилиту и подключать модели с OpenRouter, OpenAI или локальные.

alan008 17 янв в 18:41

Спасибо за ответ!

shvirda 18 янв в 06:45

Надо попробовать, так как это самый злободневный вопрос

nidalee 17 янв в 15:23

Ничего себе. Неожиданно. Интересно, а их километровый системный промпт идет в комплекте? Это местами может быть плюсом.

Northerner19 17 янв в 16:10

Есть claude code router который позволяет работать с локальными моделями и другими API

MxMaks 17 янв в 16:28

Куда им было деваться, решили хоть бренд покачать дополнительно, да стату чекать. А так несколько хороших агентов под локальные модели уже давно есть.

okhsunrog 17 янв в 16:51

А почему не использовать OpenCode?

sidewinder1 17 янв в 18:58

Какой опенкод, люди из ~~океана~~ браузера с чатгпт ещё не вышли:)

inc64 20 янв в 05:19

Как вариант - потому что он дико глючный

balloon 17 янв в 17:15

А как установить кастомный урл?

green_fenix 17 янв в 17:35

TLDR: ANTHROPIC_BASE_URL в переменных окружения или конфиге .claude/settings.json

https://code.claude.com/docs/en/llm-gateway

thethee 17 янв в 18:53

VLLM давно поддерживает claude code

sidewinder1 17 янв в 18:59

chutes.ai давно поддерживает claude code

Fardeadok 17 янв в 19:20

Бесплатно??

rikert 17 янв в 21:22

А как вы работаете в консольном режиме, коллеги? Я без окон не представляю работы по анализу того, что нагегерила нейронка, пролистывания файлов на ревью, ревью результата нейронки с исходником открытым рядом. Промпт: напиши hello world - тут всё понятно, но если кодовая база большая это как то не похоже на удобство.

Jacov911 17 янв в 22:11

Плагин к вскоду claude code

MountainGoat 18 янв в 06:45

Тогда уж лучше сразу Roo Code который изначально под всё затачивался.

Jacov911 18 янв в 06:56

Лично мне он не очень понравился. Как и колокол. И Клайн.

sloww 18 янв в 08:01

Легко.

Во первых, в консоли весь дифф есть и он показывается зачастую, во вторых открыт VSC с этим проектом, который с gitlens и тп тоже подсвечивает все изменения.

По факту разницы нет, разве что общение в ide удобнее чем в консоли. Но консоль это ныне больше агент, у тебя есть мастер и субагенты и все это вот крутится в консолях.

koshkoshka2 17 янв в 22:29

В мою видюху 8 гиг не влезет с 64000 токенов. Максимум 20000 токенов с моделяи на 4 млрд параметров

venanen 17 янв в 22:42

Интересно попробовать. Подскажите, пожалуйста, что для кода лучше, чтобы сносно работало на 5060ti 16gb vram? Qwen3 30b не влезает, как я понимаю, заранее спасибо.

debagger 18 янв в 01:33

Попробуйте, это вполне возможно. Если есть достаточное количество RAM, часть слоев просто уйдет в нее. Главное выбирать модели с MoE архитектурой, они в такой конфигурации гораздо лучше работают.
У меня получилось запустить Qwen3-Coder-30B-A3B-Instruct-GGUF (квант Q4_K_M) с помощью llama.cpp на 3060 12Gb, i7-2600k, 32 Gb Ram. Получилось около 5 токенов/с с пустым контекстом (размер контекста ставил 65К). Если учесть, что 2600k - это очень старый процессор и память DDR3 - я думал, что вообще шансов нет.
Рекомендую почитать https://habr.com/ru/articles/961478/ там неплохо расписано что да как.

rPman 19 янв в 03:16

и с такой маленькой моделью получается работать? claude code не скатывается в бесконечный цикл правок и ломания кода?

debagger 25 янв в 22:41

Я пробовал с KiloСode плагином. Конечно эта модель гораздо слабее, чем облачные (даже те, к которым Kilo дает бесплатный доступ типа grok code fast). Но, тем не менее во многих случаях она справляется с простыми задачами. Сильно много не тестировал, потому как 5 t/s это довольно медленно.

MountainGoat 18 янв в 06:51

GPT-OSS-20B. Да и 120В можно попробовать. Там ещё есть задний нюанс : модель умеет один или несколько форматов вызова инструментов, тот софт, которым вы её крутить будете, поддерживает несколько из этих форматов, а этот Claude Code наверняка потребует какой-то конкретный из них, даже без объяснений. Если при попытке прочитать/написать в файл начинается бред и XML, то виновато вот это вот всё.

Поэтому я и говорю, нафиг это нужно, когда для своих моделей есть специальные дополнения для VSCode и др.

Jacov911 18 янв в 06:56

Есть вроде специальные qwen code

lacost21 18 янв в 10:47

А в чем прикол использовать клиент claude, если все самое ценное в нейронке от которой как я понимаю из статьи предлагают отключиться и использовать локальную модель.

qweasd7924 18 янв в 13:19

Можно ли обойти региональные ограничения, если использовать локальный сервер вместо claude-вских?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий