Обновить
8K+
14
4
Рейтинг
6
Подписчики
Отправить сообщение

Спасибо, с критериями согласен — идеального замера нет. Сейчас локальные модели хороши, но тяжеловаты для повседневной работы на одной машине. Даже если вынести на отдельный хост, до облачных им пока далеко, но приемлемо и данные не передаются.

В данной статье я больше ориентировался на экосистему Mac (MLX) и универсальный GGUF, бегло глянув, нашел, что свежих моделей в EXL2 очень мало.

Спасибо! В данном случае для меня GitHub — это просто удобное хранилище материалов. Сам по себе репозиторий без статьи действительно мало что даст, поэтому я и делал акцент на статье, а репозиторий — как бонус для тех, кто захочет покопаться в деталях.

Спасибо, про Gemma-4-31B-it я забыл совсем, а Qwen3.6-35B-A3B вышла уже когда статья была готова, поэтому не попала. Про плотные модели — интересное замечание, но мне они показались уж тяжелыми для локального запуска и реального использования.

Gemma-4-26B-A4B была 4‑битная, а точнее gemma-4-26B-A4B-it-UD-Q4_K_M.gguf.

Очень интересные замеры у вас получились. Если такую сборку собрать и поставить отдельно от рабочего компа (с агентом и IDE), получится хороший сервер для локальных моделей.

Спасибо, что обратили внимание. Да, согласен, не хотел эту тему раскрывать в статье, так как и так длинная получилась. Gemma-4-26B-A4B у меня почему-то по умолчанию без режима thinking загрузилась

Честно, прямо сейчас у меня ответа нет, я бы посмотрел в сторону OmniRoute, и подключил через него, как можно больше провайдеров с бесплатными лимитами

8‑битная модель (32 ГБ) влезла бы, но нужен еще запас памяти на контекст, систему и другие приложения. 4‑бит даёт комфортные 15–20 ГБ свободной памяти, к тому же в статье есть замеры для 5‑бит и 6‑бит версий, которые уже уступают в скорости работы.

Спасибо, не пробовал, но звучит интересно. Судя по описанию, это не классический агент, а оркестратор, который управляет работой других агентов.

У меня тоже есть похожие идеи, но вместо LiteLLM думаю попробовать OmniRoute

Спасибо, поправил

Спасибо, перепроверил, действительно выдает ошибку 400. Добавил UPD в статью.

Cогласен с вами. Просто у Qwen Code только модели от Qwen. У таких решений как Kilo Code, Open Code бывают бесплатные модели от многих компаний, что иногда полезно

Возможно, но я думаю проблемы скорее вызваны большим обновлением и новой версией 7.*, я все проверял на 5.11.0. На нужную версию можно откатиться в VS Code.

Согласен, глубокого исследования здесь нет. Статья больше для новичков: что установить, как подключить бесплатную LLM и попробовать ее без подписки. И потом уже решиться нужно покупать подписку или нет.

Информация

В рейтинге
1 109-й
Зарегистрирован
Активность

Специализация

Бэкенд разработчик, Архитектор программного обеспечения
Старший
Java
Kotlin