@Antra28 сен в 15:03

Как гонять Claude Code (и не только) с качественными моделями задешево?

Простой

4 мин

19K

Искусственный интеллектPython * TypeScript *

Туториал

+14

Комментарии 14

@benjik 28 сен в 15:32

https://github.com/musistudio/claude-code-router

Работает с личным ключём openrouter, с корпоративной litellm, с локальной ollama, да и практически со всем что есть

@Antra 28 сен в 16:00

Это прекрасно!

Подскажете впечатления от моделей? Одно дело "запускается, а другое - чтобы действительно пользу приносило. Слабо верится, что с Ollama/LM Studio что-то путное даже на 24GB VRAM получится.Дешевле через API.

@benjik 28 сен в 16:42

Всё из топов программерских бенчмарков работает хорошо. Раньше были косяки с tool usage, но теперь с транформерами ccr они практически исчезли.

Я пользуюсь тут или чем-то с большим контекстом (Gemini/gpt4.1), или чем-то очень дешёвым (qwen/deepseek/kimi), или даже бесплатным на openrouter.

Из ollama пользовался чем-то 7b:q4 в качестве background модели (у меня 8гб vram), но теперь все только из API.

@Antra 28 сен в 16:52

Я пользуюсь тут или чем-то с большим контекстом (Gemini/gpt4.1),

Я знаю способ с добавлением в CLAUDE.md инструкций типа "When analyzing large codebases or multiple files that might exceed context limits, use the Gemini CLI with its massive context window. Use gemini -p to leverage Google Gemini's large context capacity...".

Через ccrouter можно непосредственно из Claude Code выбирать особую модель (типа как Opus Plan Mode, но Gemini)? Ну или для конкретного агента явно задать Gemini...

Из ollama пользовался чем-то 7b:q4

Ну для autocompletion в каком-нибудь Continue - да. А в Claude Code какая-то польза от таких мелких моделей есть?

@benjik 28 сен в 17:00

Через ccrouter можно непосредственно из Claude Code выбирать особую модель

Да, в longContext в разделе router конфига

А в Claude Code какая-то польза от таких мелких моделей есть?

Для саммари/коммитов/etc мелочевки cc использует haiku. Вот её ccr и заменяет на background модель

@ArtCat 29 сен в 05:53

А gpt-oss-20b юзал? У меня тоже 8врам и 32 ддр5, 33 токена/с выдает, вроде как по тестам и 4.1 жпт делает, по качеству ± qwen 30 coder. Интересно эти конфиги протестить, но пока не дошли до этого руки, если сможешь - с удовольствием жду результатов.

@benjik 29 сен в 06:01

Нет, не пользовался. Я забил почти на все локальные LLM, которые проще использовать из сторонних API. Иногда что-то совсем маленькое и специализированное гоняю, вроде jan от Menlo или ocr какие-то, но уже не для кодинга непосредственно.

@Antra 29 сен в 06:34

gpt-oss-20b меня вполне устроил для работы с MCP. Но кодить с локальными - (на бытовом железе) IMHO не эффективно.

@Antra 29 сен в 06:40

Попробовал ccr. Gemini со своим бесплатным ключом не смог запустить. gemini enerate_content_free_tier_requests, limit:2. Это настраивается?

Через OpenRouter все время занято. Подсунул в OpenRouter свой бесплатный ключ от Gemini, только тогда завелось.

Еще вижу возможность использования gemini-cli. Есть ли подсказки, как запустить? По идее gemini-cli значительно большие лимиты дает, чем просто через API. В таком виде было бы интересно.

Ну и на всякий случай - для Code Plan GLM надо указывать https://api.z.ai/api/coding/paas/v4/chat/completions.

@melodictsk 29 сен в 10:57

Локальные модельки с 30б имея 24врам вполне жизненный вариант. Придётся поиграть с настройками, чтоб контекст вылазил в врам и все довольно шустро работает.

@pae1 30 сен в 05:24

да вроде 4.5 sonnet 20 евро в месяц стоит. это что, дорого? Сейчас обед в не особо приличном месте стоит дороже.

@Antra 30 сен в 13:12

И вам хватает его лимитов?

Я умудрился даже GLM довести до "5-часовой лимит исчерпан, подождите", а это втрое больше, чем Sonnet. Всего-то заставил не только написать целый модуль по описанию, но и тесты к нему, и все отладить.

И это не было "ушел в цикл". Он делом занимался, исправлял свои косяки. К примеру, в процессе работы решил функцию переделать в асинхронную (вполне обоснованно) и потом во многих местах добавлять await. Или после mypy вылизывать, чтобы не было ругательств на типы (хотя можно и без такого, конечно).

Так что вечером не смог закончить, утром продолжил сессию и быстренько выдал уже полностью рабочий вариант. Sonnet при таких объемах минимум $100/мес стоит. А с мелкими задачами мне RooCode и на бесплатных моделях с OpenRouter вполне норм помогает.

P.S. Я GLM не идеализирую, код руками проверяю, переспрашиваю, чтои зачем он наваял, если что-то не понимаю... Токенов улетает немеряно.

@DOLARiON 30 сен в 16:45

Нубский вопрос (не бейте, только установил Claude Code): Подскажите, а где почитать и как использовать `https://github.com/contains-studio/agents`?

@Antra 30 сен в 17:02

Несколько файлов из того репозитория положил в

ls ~/.claude/agents/backend-architect.md code-reviewer.md code-simplifier.md test-writer-fixer.md

И в промпте просто указываю разрешение/рекомендацию их использовать:

Write basic tests for acache.py. There must be CRUD for SID table, testing these operations will be enough.Use test-writer-fixer agent.

Optimize and simplify code @...
Use code-simplifier agent.

А там уж этот "оптимизатор" сам развернется вовсю. Собственно, я обычно пишу "потоком", чтобы работало и проходило тесты. А потом "симплификатор" из больших функций делает мелкие (в .md ему же указн SOLID и прочее), разбивает на классы для функциональной группировки, и т.п.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий