kapustinomm Feb 28 at 20:32

Как запускать LLM локально с LM Studio: Полное руководство 2026

10 min

32K

Artificial Intelligence

Review

-6

Comments 10

clarkkent5 Mar 1 at 04:43

За последнее десятилетие я работал across всего технологического стека — от frontend и backend до DevOps и AI/ML инфраструктуры.

Вас там LLM немного подвела

Zeus42 Mar 1 at 08:34

За последнее десятилетие я работал across всего технологического стека — от frontend и backend до DevOps и AI/ML инфраструктуры.

Лично для меня, учитывая предложение выше (которое было написано в самом начале статьи), было бы интереснее почитать про живой опыт и то, насколько действительно полезна LM Studio в задачах, а не сгенерированный текст который можно получить от такой же LLM.

georgiy08 Mar 1 at 11:11

За последнее десятилетие я работал across всего технологического стека — от frontend и backend до DevOps и AI/ML

SkylineXXX Mar 1 at 15:27

В рассказе "Срезал" был Глеб Капустин, а не Михаил. Глеб без всяких LLM знал, что такое стратегическая философия

kekusprod Mar 2 at 04:20

Я может чего-то не понимаю, но оффлоадинг (в 2026) существует же не для выгрузки части вычислений в ГПУ, а как раз от обратного? Чтобы уместить модели покрупнее, благодаря выгрузки её части в RAM, жертвуя скоростью? Или эта очередная попытка от ИИ выдать желаемое за действительное (не считая очевидную маркетинговую статью от нвидиа)?

Никто же в здравом уме в современных реалиях не станет запускать инференс в cpu-only режиме?

rocoss Mar 6 at 15:26

Если векторный поиск с 256-dim эмбеддингами теряет способность различать близкие доменные термины, а квантованная модель чаще "додумывает" при генерации, то есть ли у вас практический бенчмарк для оценки комбинированного эффекта (квантование + сокращение эмбеддингов) на метрики вроде faithfulness или contextual recall?

slabnoff Mar 11 at 05:15

Чисто по личному опыту (неделю вожусь с локальными llm, на личном сервере xeon 1240lv3, 16g ram, 5060 ti 16 gb):
- lm studio на linux сервере значительно быстрее чем ollama (начинал с нее), а главное не жрет так память
- перепробовал много моделей, пока для общего применения оптимальна openai/gpt-oss-20b - влезла в 12.2 gb VRAM с контекстом 65536
- отлично интегрировалась с open webui (через openai)
- при желании ставится вообще без gui
- при некоторых танцах с бубном заработала с home assistant

Cayenne007 Mar 11 at 11:30

Перепробовал много моделей для локального кодинг агента + ssh dev ops. Больше всего понравился Qwen 3 coder next 80b q6 именно под lm studio. На моем железе (strix halo + vulkan vulkan backend) он выдает 40-45 токенов в секунду, против 35 (ollama).

Еще большой плюс это build in lm studio link, который легко позволяет подключить клиента по интернету

Из минусов, иногда глючит API, такое ощущение, что ollama все же лучше оптимизирован в этом плане

slabnoff Mar 15 at 21:28

Чуть по подробнее про железо не напишите?

StasTukalo Mar 16 at 11:59

Так себе обзор. Ни слова про то, что лмстудия вообще неумеет нормально работать с несколькими (больше двух) гпу. Вставляешь третий гпу - производительность падает со ста токенов в секунду до 45, вставляешь пятую (седьмую, восьмую- больше непроверял) карту - и производительность падает до 5-6 (естественно, при постоянной прочей архитектуре, типа разрядности шины pcie до гпу).

Qwen3coder 30B, rtx A5000, (остальное железо не является узким местом), на двух разных платформах проверял.