Comments 24
Спасибо! А чем можно воспользоваться, чтобы указать LLM каталог проекта и описывать, какие изменения надо сделать, и чтобы этот LLM после согласования правил там файлы? Типа локальный аналог Warp?
Посмотрите на aider -- запускается в терминале, умеет парсить вывод консольных команд (git diff, например), умеет работать с файловой системой.
Вообще, агентных редакторов много разных, первое что вспомнил: roocode (решение в виде плагина для VS Code), void (самостоятельное приложение на базе VS Code).
Но есть подводные камни. Мощности локальных моделей с трудом хватает для агентного редактирования. Void почему-то вообще отказывается читать файлы при подключении к локальной модели (известный баг, никак не пофиксят), что делает его неюзабельным. Aider более-менее работает, но результат непредсказуемый -- то файл не туда закинет, то без без причин удалит существующий файл. Благо есть возможность откатить последние изменения одной командой, но все равно требуется постоянно следить за результатом.
Если речь про написание кода, можно попробовать:
1. Aider, он работает в терминале. Там есть интеграция с Ollama или OpenAI-подобными API. https://aider.chat/docs/llms.html
2. RooCode или KiloCode, они работают в VSCode. Там в провайдерах можно указать Ollama или LmStudio.

Отлично!
Не смотрели ли ли вы на новую NVIDIA RTX PRO 6000 Blackwell with 96GB? Не для дома, конечно (~$10K, насколько я понимаю), но вроде ощутимо дешевле всяких H100, ADA 6000 с такой же памятью.
Да и какие-нибудь 4 x 4090 24GB не дешевле выйдут (с накладными расходами на распределение слоев по картам, обмен между картами).
Да, PRO 6000 может быть хорошим, хоть и дорогим, решением, когда нужен максимальный объем VRAM в одной карте без головной боли с multi-GPU.
Потребление в 600W решает. Для рига из 4-6x 3090/4090/5090 придется покупать несколько киловаттных блоков питания, делать спец разводку, строить корпус и даже делать апгрейд своей электросети. PRO 6000 меньше потребляет, меньше греется, меньше шумит. Не придется придумывать охлаждение.
Как вариант, который пользуется популярностью на реддите и ютубе, можно рассмотреть Mac Studio с 512GB памяти. По цене будет также ~$10K. На такой можно и Deepseek с квантизацией запустить. А можно построить кластер из нескольких - https://www.youtube.com/watch?v=Ju0ndy2kwlw
https://www.apple.com/shop/buy-mac/mac-studio/apple-m3-ultra-with-28-core-cpu-60-core-gpu-32-core-neural-engine-96gb-memory-1tb

А по скорости сравнимо или ощутимо (в разы) все-таки медленнее?
Так-то, конечно, я предпочитаю универсальные решения (чтобы не только для ИИ использовать)
Я думаю, что Mac Studio будет значительно медленнее. PRO 6000 все же заточена под вычислительные задачи, а Mac Studio просто дает хорошее соотношение GB/$ и удобство.
Если главный критерий – это максимальная сырая производительность для тренировки и быстрого инференса очень больших моделей, особенно с учетом дообучения, то NVIDIA является явным победителем. Если же важны такие аспекты, как доступность, низкое энергопотребление, тишина, компактность и возможность запускать большие модели для инференса по более доступной цене (особенно если речь идет о моделях до 130B), то Mac Studio может быть отличным выбором, несмотря на более низкую скорость.
Можете почитать обсуждение - https://www.reddit.com/r/LocalLLaMA/comments/1jzezim/mac_studio_vs_nvidia_gpus_pound_for_pound/
Вот бенчмарк Mac Studio с 96GB - https://www.reddit.com/r/LocalLLaMA/comments/1kvd0jr/m3_ultra_mac_studio_benchmarks_96gb_vram_60_gpu/.
Там же можете поискать бенчмарки разных GPU.
В статье не сказано о MOE моделях, а за ними будущее для локального применения:
openai_gpt-oss-120b-MXFP4.gguf - 14 t/s, 40 символов в сек.
при этом видеокарта вообще не используется,
используется 1 файл llama-server.exe в 6 мб без всяких dll.
Ещё преимущество локального запуска -
контроль и управление процессом из своей программы.
+, я не понимаю почему об этом везде не трубят, MoE реально перевернула игру, сделав локальные модели гораздо более юзабельными. GGUF модели без MoE для реальных задач слабо применимы, потому что быстрее руками сделать, чем ждать инференса на скорости 2-3 t/s. А вот 10-17 t/s, которые дают модели с MoE -- это уже то, с чем можно работать.
Спасибо, изучу этот момент. А какие модели посоветуете попробовать?
Попробуйте линейку Qwen3 посмотреть. Для моих задач хорошо себя показала Qwen3-Coder-30B.
Однозначно. Благодаря MoE использую 30b модель (qwen3-coder) даже просто для автокомплита, ибо скорость генерации выдает автокомплит за секунду. Не MoE модели использовал максимум 14b для этих целей (поскольку она влезала в мои 16 гигов 4080 super).
Отлично работают крупные модели даже просто на CPU. Для локального домашнего применения за ними 100% будущее. Ибо все остальные варианты поднимают ценники железа ближе к миллиону для адекватного домашнего запуска крупных моделей.
Интересно... Какую именно модель вы для автокомплита используете, с какими настройками?

Я кучу перепробовал. Для кодинга такой маленький qwen3-coder вообще не зашел, а для автокомплита devstral больше понравился.
Может с настройками поиграться надо (K/V cahce quantization какой-нибудь..)
.P.S. Очень понравился gpt-oss-20b (оригинальный MXPF4) для работы с MCP (слазить куда-то в БД или по API). И понимает, куда полезть, какой tool использовать, и финальный результат хорошо выдает.
devstral не MoE, как я понимаю. Для автокомплита слишком медленный будет (ибо в память видеокарты не влезет в моем случае вместе с контекстом). Я для автокомплита qwen3-coder:30b-a3b Q4_K_M использую, температура 0.3, качество автодополнения устраивает. Кстати, надо бы на q6 поменять хотя бы.
З.Ы. А если чтобы прям полноценно код писало - то в своем основном стеке не использую нейронки для этого. Использую их для этого только когда пишу на чем то малознакомом. Питон, nix, баш, etc.
qwen3-coder-30b-a3b-instruct@q4_k_m? А остальные параметры какие?
Скажем, context length? Может тут моя ошибка была, для автокомплита и 8К за глаза хватит. (или даже 4К)? Flash attention? Ставить ли принудительно Cache Quantization Type?
Я вообще не программист, для меня все малознакомое :)
К примеру, я бы сроду не смог в FastAPI сделать, чтобы по по завершении определенного эндпойнта (cleanup директорий, таблиц БД...) uvicorn бы завершился, чтобы заново стартовать и все переинициализировать. Только пришлось дополнительно ее пнуть, чтобы убрала лишние ругательства из логов при рестарте.
В таких делах мне OpenRouter z-ai/glm-4.5-air:free в RooCode офигенно помогает. Разумеется, потом смотрю, что ИИ наваял, какие-то мелочи проще самому поправить. Заодно учусь.
Спасибо, давно искал, чтобы было что-то типа awesome-llm.
Есть ли смысл в старых картах Tesla? Например, Tesla V100? Ищу приемлемое по цене решение для транскрибации записей телефонных разговорв колл-центра.
В выборе локальная модель vs внешний сервис важен вопрос ИБ, а при его оценке, кажется, стоит сравнивать не безопасность в вакууме, а реально достижимый уровень безопасности с учетом возможностей компании. Фактическая стоимость рисков внешнего сервиса может оказаться, ниже, хотя абс. уровень безопасности, конечно, ниже.
Хороший бэк localAi
На android также есть ollama в репозиториях termux
Локальный AI: Прагматичное руководство по запуску LLM на своем железе