Pull to refresh

Comments 8

За последнее десятилетие я работал across всего технологического стека — от frontend и backend до DevOps и AI/ML инфраструктуры.

Вас там LLM немного подвела

За последнее десятилетие я работал across всего технологического стека — от frontend и backend до DevOps и AI/ML инфраструктуры.

Лично для меня, учитывая предложение выше (которое было написано в самом начале статьи), было бы интереснее почитать про живой опыт и то, насколько действительно полезна LM Studio в задачах, а не сгенерированный текст который можно получить от такой же LLM.

За последнее десятилетие я работал across всего технологического стека — от frontend и backend до DevOps и AI/ML

В рассказе "Срезал" был Глеб Капустин, а не Михаил. Глеб без всяких LLM знал, что такое стратегическая философия

Я может чего-то не понимаю, но оффлоадинг (в 2026) существует же не для выгрузки части вычислений в ГПУ, а как раз от обратного? Чтобы уместить модели покрупнее, благодаря выгрузки её части в RAM, жертвуя скоростью? Или эта очередная попытка от ИИ выдать желаемое за действительное (не считая очевидную маркетинговую статью от нвидиа)?

Никто же в здравом уме в современных реалиях не станет запускать инференс в cpu-only режиме?

Если векторный поиск с 256-dim эмбеддингами теряет способность различать близкие доменные термины, а квантованная модель чаще "додумывает" при генерации, то есть ли у вас практический бенчмарк для оценки комбинированного эффекта (квантование + сокращение эмбеддингов) на метрики вроде faithfulness или contextual recall?

Чисто по личному опыту (неделю вожусь с локальными llm, на личном сервере xeon 1240lv3, 16g ram, 5060 ti 16 gb):
- lm studio на linux сервере значительно быстрее чем ollama (начинал с нее), а главное не жрет так память
- перепробовал много моделей, пока для общего применения оптимальна openai/gpt-oss-20b - влезла в 12.2 gb VRAM с контекстом 65536
- отлично интегрировалась с open webui (через openai)
- при желании ставится вообще без gui
- при некоторых танцах с бубном заработала с home assistant

Перепробовал много моделей для локального кодинг агента + ssh dev ops. Больше всего понравился Qwen 3 coder next 80b q6 именно под lm studio. На моем железе (strix halo + vulkan vulkan backend) он выдает 40-45 токенов в секунду, против 35 (ollama).

Еще большой плюс это build in lm studio link, который легко позволяет подключить клиента по интернету

Из минусов, иногда глючит API, такое ощущение, что ollama все же лучше оптимизирован в этом плане

Sign up to leave a comment.

Articles