Комментарии / Профиль sergio5990 / Хабр

java

Подписчики

Пробуем использовать локальные LLM для написания кода

Спасибо, с критериями согласен — идеального замера нет. Сейчас локальные модели хороши, но тяжеловаты для повседневной работы на одной машине. Даже если вынести на отдельный хост, до облачных им пока далеко, но приемлемо и данные не передаются.

Пробуем использовать локальные LLM для написания кода

sergio5990 22 апр в 20:22

В данной статье я больше ориентировался на экосистему Mac (MLX) и универсальный GGUF, бегло глянув, нашел, что свежих моделей в EXL2 очень мало.

Пробуем использовать локальные LLM для написания кода

sergio5990 22 апр в 20:07

Спасибо! В данном случае для меня GitHub — это просто удобное хранилище материалов. Сам по себе репозиторий без статьи действительно мало что даст, поэтому я и делал акцент на статье, а репозиторий — как бонус для тех, кто захочет покопаться в деталях.

Пробуем использовать локальные LLM для написания кода

sergio5990 22 апр в 20:03

Спасибо, про Gemma-4-31B-it я забыл совсем, а Qwen3.6-35B-A3B вышла уже когда статья была готова, поэтому не попала. Про плотные модели — интересное замечание, но мне они показались уж тяжелыми для локального запуска и реального использования.

Пробуем использовать локальные LLM для написания кода

sergio5990 22 апр в 19:58

Gemma-4-26B-A4B была 4‑битная, а точнее gemma-4-26B-A4B-it-UD-Q4_K_M.gguf.

Очень интересные замеры у вас получились. Если такую сборку собрать и поставить отдельно от рабочего компа (с агентом и IDE), получится хороший сервер для локальных моделей.

Пробуем использовать локальные LLM для написания кода

sergio5990 22 апр в 19:33

Спасибо, что обратили внимание. Да, согласен, не хотел эту тему раскрывать в статье, так как и так длинная получилась. Gemma-4-26B-A4B у меня почему-то по умолчанию без режима thinking загрузилась

Пробуем использовать бесплатные ИИ для написания кода

sergio5990 22 апр в 18:55

Честно, прямо сейчас у меня ответа нет, я бы посмотрел в сторону OmniRoute, и подключил через него, как можно больше провайдеров с бесплатными лимитами

Пробуем использовать локальные LLM для написания кода

sergio5990 18 апр в 09:28

8‑битная модель (32 ГБ) влезла бы, но нужен еще запас памяти на контекст, систему и другие приложения. 4‑бит даёт комфортные 15–20 ГБ свободной памяти, к тому же в статье есть замеры для 5‑бит и 6‑бит версий, которые уже уступают в скорости работы.

Пробуем использовать локальные LLM для написания кода

sergio5990 18 апр в 09:17

Спасибо, не пробовал, но звучит интересно. Судя по описанию, это не классический агент, а оркестратор, который управляет работой других агентов.

Пробуем использовать локальные LLM для написания кода

sergio5990 18 апр в 09:10

У меня тоже есть похожие идеи, но вместо LiteLLM думаю попробовать OmniRoute

Пробуем использовать локальные LLM для написания кода

sergio5990 18 апр в 09:01

Спасибо, поправил

Пробуем использовать бесплатные ИИ для написания кода

sergio5990 5 апр в 16:11

Спасибо, перепроверил, действительно выдает ошибку 400. Добавил UPD в статью.

Пробуем использовать бесплатные ИИ для написания кода

sergio5990 5 апр в 15:40

Cогласен с вами. Просто у Qwen Code только модели от Qwen. У таких решений как Kilo Code, Open Code бывают бесплатные модели от многих компаний, что иногда полезно

Пробуем использовать бесплатные ИИ для написания кода

sergio5990 5 апр в 14:21

Возможно, но я думаю проблемы скорее вызваны большим обновлением и новой версией 7.*, я все проверял на 5.11.0. На нужную версию можно откатиться в VS Code.

Пробуем использовать бесплатные ИИ для написания кода

sergio5990 5 апр в 14:16

Согласен, глубокого исследования здесь нет. Статья больше для новичков: что установить, как подключить бесплатную LLM и попробовать ее без подписки. И потом уже решиться нужно покупать подписку или нет.

Информация

Специализация