mbps54 Aug 4 2025 at 14:30

Как поднять локальную LLM за 5 минут

Easy

2 min

25K

Artificial IntelligenceSystem administration * DevOps *

Tutorial

Comments 6

Lev3250 Aug 4 2025 at 14:33

LM studio сделает всё намного быстрее. Плюс GUI, плюс тут же сервер для подключения n8n, например. Плюс тут же загрузка моделей, настройка GPU offload, подстройка температуры, Top K, Top P и т.д.

danon13 Aug 4 2025 at 15:22

Ollama с версии 0.10 предоставляет своё приложение.

Politura Aug 4 2025 at 15:40

Нахрена докер? Нахрена старая никому не нужная модель? Почему именно dense 8b модель с 4 квантом, так что занимает чуть больше 4Гб памяти? А если у меня 16Гб видеопамяти? Или наоборот, видеопамяти нет, но много оперативной памяти? Очередной чувак спросил у ChatGPT: "напиши статью Как поднять локальрную LLM за 5 минут" и тот написал, основываясь на своих старых знаниях?

Ollama локально имеет смысл тогда, когда нужна интеграция с другими сервисами: автоматом поднимает и гасит нужную модель, что бывает очень полезно, у многих приложений есть настройки подключений к ollama серверу (Хотя не особо важно, к lm studio, или llama.cpp также можно подключаться используя openai api. Но удобно.). Сейчас, правда, они еще добавили свое приложение, но как-то его не трогал.

А так, локально LM studio клевая вещь, удобное локальное приложение, многие вещи есть из коробки, включая интеграцию с MCP серверами, причем, она там на уровне, например Gemma3 не заявленна как модель умеющая работать с tools, а из LM Studio нормально с ними работает, пробовал ее-же из агентского приложения сделанного на Goodle ADK - ни в какую не хочет с тулзами работать.

Moog_Prodigy Aug 4 2025 at 16:11

А lm studio может автоматом выгружать модель из памяти и загружать обратно когда прилетает запрос API? Поэтому олламу и держу пока. У нее есть таймауты на удержание модели. То есть на одном компе и оллама и SD (вот она не умеет выгружаться, приходится питонизировать и руинить процесс по команде от телеграм - бота) и Whisper (этот запускается только на время обработки).

Politura Aug 4 2025 at 16:18

Ну, я по этому и написал, что Оллама хороша для интеграций, у меня она параллельно с lm studio стоит. Хотя сейчас глянул, в настройках lm studio сервера тоже оффлоад есть, но сам его как сервер не пробовал, если честно.

Lev3250 Aug 4 2025 at 16:26

Lm studio выгружает модель между запросами. Таймаут не замерял, но это происходило. В моём случае это минус, но не искал, настраивается ли. На поиграться хватило