xonika9 9 сен в 07:00

Локальный AI: Прагматичное руководство по запуску LLM на своем железе

Простой

18 мин

23K

Искусственный интеллектМашинное обучение *

Обзор

+23

Комментарии 24

VitaminND 9 сен в 07:59

Спасибо! А чем можно воспользоваться, чтобы указать LLM каталог проекта и описывать, какие изменения надо сделать, и чтобы этот LLM после согласования правил там файлы? Типа локальный аналог Warp?

holgw 9 сен в 08:19

Посмотрите на aider -- запускается в терминале, умеет парсить вывод консольных команд (git diff, например), умеет работать с файловой системой.

Вообще, агентных редакторов много разных, первое что вспомнил: roocode (решение в виде плагина для VS Code), void (самостоятельное приложение на базе VS Code).

Но есть подводные камни. Мощности локальных моделей с трудом хватает для агентного редактирования. Void почему-то вообще отказывается читать файлы при подключении к локальной модели (известный баг, никак не пофиксят), что делает его неюзабельным. Aider более-менее работает, но результат непредсказуемый -- то файл не туда закинет, то без без причин удалит существующий файл. Благо есть возможность откатить последние изменения одной командой, но все равно требуется постоянно следить за результатом.

xonika9 9 сен в 08:27

Если речь про написание кода, можно попробовать:
1. Aider, он работает в терминале. Там есть интеграция с Ollama или OpenAI-подобными API. https://aider.chat/docs/llms.html
2. RooCode или KiloCode, они работают в VSCode. Там в провайдерах можно указать Ollama или LmStudio.

Antra 9 сен в 08:15

Отлично!

Не смотрели ли ли вы на новую NVIDIA RTX PRO 6000 Blackwell with 96GB? Не для дома, конечно (~$10K, насколько я понимаю), но вроде ощутимо дешевле всяких H100, ADA 6000 с такой же памятью.

Да и какие-нибудь 4 x 4090 24GB не дешевле выйдут (с накладными расходами на распределение слоев по картам, обмен между картами).

xonika9 9 сен в 09:00

Да, PRO 6000 может быть хорошим, хоть и дорогим, решением, когда нужен максимальный объем VRAM в одной карте без головной боли с multi-GPU.
Потребление в 600W решает. Для рига из 4-6x 3090/4090/5090 придется покупать несколько киловаттных блоков питания, делать спец разводку, строить корпус и даже делать апгрейд своей электросети. PRO 6000 меньше потребляет, меньше греется, меньше шумит. Не придется придумывать охлаждение.

Как вариант, который пользуется популярностью на реддите и ютубе, можно рассмотреть Mac Studio с 512GB памяти. По цене будет также ~$10K. На такой можно и Deepseek с квантизацией запустить. А можно построить кластер из нескольких - https://www.youtube.com/watch?v=Ju0ndy2kwlw

https://www.apple.com/shop/buy-mac/mac-studio/apple-m3-ultra-with-28-core-cpu-60-core-gpu-32-core-neural-engine-96gb-memory-1tb

Antra 9 сен в 09:45

А по скорости сравнимо или ощутимо (в разы) все-таки медленнее?

Так-то, конечно, я предпочитаю универсальные решения (чтобы не только для ИИ использовать)

xonika9 9 сен в 10:03

Я думаю, что Mac Studio будет значительно медленнее. PRO 6000 все же заточена под вычислительные задачи, а Mac Studio просто дает хорошее соотношение GB/$ и удобство.

Если главный критерий – это максимальная сырая производительность для тренировки и быстрого инференса очень больших моделей, особенно с учетом дообучения, то NVIDIA является явным победителем. Если же важны такие аспекты, как доступность, низкое энергопотребление, тишина, компактность и возможность запускать большие модели для инференса по более доступной цене (особенно если речь идет о моделях до 130B), то Mac Studio может быть отличным выбором, несмотря на более низкую скорость.

Можете почитать обсуждение - https://www.reddit.com/r/LocalLLaMA/comments/1jzezim/mac_studio_vs_nvidia_gpus_pound_for_pound/

Вот бенчмарк Mac Studio с 96GB - https://www.reddit.com/r/LocalLLaMA/comments/1kvd0jr/m3_ultra_mac_studio_benchmarks_96gb_vram_60_gpu/.

Там же можете поискать бенчмарки разных GPU.

Antra 9 сен в 10:07

Спасибо!

programania 9 сен в 10:52

В статье не сказано о MOE моделях, а за ними будущее для локального применения:
openai_gpt-oss-120b-MXFP4.gguf - 14 t/s, 40 символов в сек.
при этом видеокарта вообще не используется,
используется 1 файл llama-server.exe в 6 мб без всяких dll.

Ещё преимущество локального запуска -
контроль и управление процессом из своей программы.

holgw 9 сен в 20:06

+, я не понимаю почему об этом везде не трубят, MoE реально перевернула игру, сделав локальные модели гораздо более юзабельными. GGUF модели без MoE для реальных задач слабо применимы, потому что быстрее руками сделать, чем ждать инференса на скорости 2-3 t/s. А вот 10-17 t/s, которые дают модели с MoE -- это уже то, с чем можно работать.

xonika9 10 сен в 07:24

Спасибо, изучу этот момент. А какие модели посоветуете попробовать?

holgw 10 сен в 09:01

Попробуйте линейку Qwen3 посмотреть. Для моих задач хорошо себя показала Qwen3-Coder-30B.

Neikist 10 сен в 07:48

Однозначно. Благодаря MoE использую 30b модель (qwen3-coder) даже просто для автокомплита, ибо скорость генерации выдает автокомплит за секунду. Не MoE модели использовал максимум 14b для этих целей (поскольку она влезала в мои 16 гигов 4080 super).

Отлично работают крупные модели даже просто на CPU. Для локального домашнего применения за ними 100% будущее. Ибо все остальные варианты поднимают ценники железа ближе к миллиону для адекватного домашнего запуска крупных моделей.

Antra 10 сен в 08:18

Интересно... Какую именно модель вы для автокомплита используете, с какими настройками?

Я кучу перепробовал. Для кодинга такой маленький qwen3-coder вообще не зашел, а для автокомплита devstral больше понравился.

Может с настройками поиграться надо (K/V cahce quantization какой-нибудь..)

.P.S. Очень понравился gpt-oss-20b (оригинальный MXPF4) для работы с MCP (слазить куда-то в БД или по API). И понимает, куда полезть, какой tool использовать, и финальный результат хорошо выдает.

Neikist 10 сен в 11:11

devstral не MoE, как я понимаю. Для автокомплита слишком медленный будет (ибо в память видеокарты не влезет в моем случае вместе с контекстом). Я для автокомплита qwen3-coder:30b-a3b Q4_K_M использую, температура 0.3, качество автодополнения устраивает. Кстати, надо бы на q6 поменять хотя бы.
З.Ы. А если чтобы прям полноценно код писало - то в своем основном стеке не использую нейронки для этого. Использую их для этого только когда пишу на чем то малознакомом. Питон, nix, баш, etc.

Antra 10 сен в 13:09

qwen3-coder-30b-a3b-instruct@q4_k_m? А остальные параметры какие?

Скажем, context length? Может тут моя ошибка была, для автокомплита и 8К за глаза хватит. (или даже 4К)? Flash attention? Ставить ли принудительно Cache Quantization Type?

Я вообще не программист, для меня все малознакомое :)

К примеру, я бы сроду не смог в FastAPI сделать, чтобы по по завершении определенного эндпойнта (cleanup директорий, таблиц БД...) uvicorn бы завершился, чтобы заново стартовать и все переинициализировать. Только пришлось дополнительно ее пнуть, чтобы убрала лишние ругательства из логов при рестарте.

В таких делах мне OpenRouter z-ai/glm-4.5-air:free в RooCode офигенно помогает. Разумеется, потом смотрю, что ИИ наваял, какие-то мелочи проще самому поправить. Заодно учусь.

Neikist 10 сен в 15:42

Пользуюсь через continue, в его конфиге настройки такие:

model: qwen3-coder:30b
defaultCompletionOptions:
contextLength: 3072
maxTokens: 256
temperature: 0.3
n: 1

Остальные дефолтные от ollama.

Antra 10 сен в 16:10

OK. Спасибо! Для автокомплита тоже Continue юзаю.

badsynt 9 сен в 11:41

Этим стандартом де-факто стал формат GGUF (GPT-Generated Unified Format).

Спасибо, рассмешили. Тем, что в скобках конечно, а не тем что до.

evgeniy_kudinov 9 сен в 14:59

Спасибо, давно искал, чтобы было что-то типа awesome-llm.

vrangel 9 сен в 20:41

Есть ли смысл в старых картах Tesla? Например, Tesla V100? Ищу приемлемое по цене решение для транскрибации записей телефонных разговорв колл-центра.

Applechina 10 сен в 04:49

В выборе локальная модель vs внешний сервис важен вопрос ИБ, а при его оценке, кажется, стоит сравнивать не безопасность в вакууме, а реально достижимый уровень безопасности с учетом возможностей компании. Фактическая стоимость рисков внешнего сервиса может оказаться, ниже, хотя абс. уровень безопасности, конечно, ниже.

utya 10 сен в 06:16

Хороший бэк localAi

Rmktls 11 сен в 05:04

На android также есть ollama в репозиториях termux

Зарегистрируйтесь на Хабре, чтобы оставить комментарий