Комментарии 4
Годно. Но несколько замечаний.
LMStudio умеет загружать модели, когда нужно, и выгружать, когда они простаивают или другим нужно место. Он висит себе в трее и не мешает жить. Именно его следует использовать на десктопе, а чистый llama.cpp - на отдельном сервере.
Локальные модели нужно использовать разцензуренные. И нужно это отнюдь не для порнухи. Сам видел как Gemma 4 отказалась перенести график приёма лекарств из бумажки в тудушник, потому что "требуется косультация врача". Небольшая правка от народа быстро отучает её страдать фигнёй. Разцензуренная модель помечается тегом Heretic (есть и другие). Ещё для Q4 есть новая фича quantisation-aware-training. Поэтому вот ссылка. Хватай пока дают. Годится для 18ГБ VRAM. А для меньше - ищите MoE сетки.
Качать с HuggingFace нужно не броузером, а из консоли или менеджером закачек. Так почему то скорость намного выше. Я использую aria2c, на винде можно Invoke-WebRequest -Uri “https://example.com/file.zip” -OutFile C:\Users\YourUsername\Downloads\file.zip”
AnythingLLM очень грубая софтина. ChatBox лучше, а CherryStudio ещё лучше.
Почему нет ни слова про квантование контекста ?!?!? Это же отличная экономия VRAM если мы говорим про жёсткую экономию! Ставьте квантование контекста Q8 всегда в стеснённых условиях.
Спасибо за интересный обзор.
"""Второй класс - программы для запуска моделей без ГПИ. Сюда относятся Ollama, llama.cpp """ GitHub - alekk89/llama-cpp-windows-manager: Настольная консоль Windows для llama.cpp runtime, моделей и локальных рабочих процессов кодирования · GitHub
Если память ddr4 лучше в ней, та же gemma-4-e4b поместится q-6, с контекстом 32768, а если llama.cpp, так и qat можно взять q8 или 12b

Локальная большая лингвистическая модель на Windows 11: выбор среды, модели и пошаговое развёртывание