Локальная большая лингвистическая модель на Windows 11: выбор среды, модели и пошаговое развёртывание / Комментарии / Хабр

Годно. Но несколько замечаний.

LMStudio умеет загружать модели, когда нужно, и выгружать, когда они простаивают или другим нужно место. Он висит себе в трее и не мешает жить. Именно его следует использовать на десктопе, а чистый llama.cpp - на отдельном сервере.

Локальные модели нужно использовать разцензуренные. И нужно это отнюдь не для порнухи. Сам видел как Gemma 4 отказалась перенести график приёма лекарств из бумажки в тудушник, потому что "требуется косультация врача". Небольшая правка от народа быстро отучает её страдать фигнёй. Разцензуренная модель помечается тегом Heretic (есть и другие). Ещё для Q4 есть новая фича quantisation-aware-training. Поэтому вот ссылка. Хватай пока дают. Годится для 18ГБ VRAM. А для меньше - ищите MoE сетки.

Качать с HuggingFace нужно не броузером, а из консоли или менеджером закачек. Так почему то скорость намного выше. Я использую aria2c, на винде можно Invoke-WebRequest -Uri “https://example.com/file.zip” -OutFile C:\Users\YourUsername\Downloads\file.zip”

AnythingLLM очень грубая софтина. ChatBox лучше, а CherryStudio ещё лучше.

Почему нет ни слова про квантование контекста ?!?!? Это же отличная экономия VRAM если мы говорим про жёсткую экономию! Ставьте квантование контекста Q8 всегда в стеснённых условиях.