Pull to refresh

Comments 4

Годно. Но несколько замечаний.

LMStudio умеет загружать модели, когда нужно, и выгружать, когда они простаивают или другим нужно место. Он висит себе в трее и не мешает жить. Именно его следует использовать на десктопе, а чистый llama.cpp - на отдельном сервере.

Локальные модели нужно использовать разцензуренные. И нужно это отнюдь не для порнухи. Сам видел как Gemma 4 отказалась перенести график приёма лекарств из бумажки в тудушник, потому что "требуется косультация врача". Небольшая правка от народа быстро отучает её страдать фигнёй. Разцензуренная модель помечается тегом Heretic (есть и другие). Ещё для Q4 есть новая фича quantisation-aware-training. Поэтому вот ссылка. Хватай пока дают. Годится для 18ГБ VRAM. А для меньше - ищите MoE сетки.

Качать с HuggingFace нужно не броузером, а из консоли или менеджером закачек. Так почему то скорость намного выше. Я использую aria2c, на винде можно Invoke-WebRequest -Uri “https://example.com/file.zip” -OutFile C:\Users\YourUsername\Downloads\file.zip

AnythingLLM очень грубая софтина. ChatBox лучше, а CherryStudio ещё лучше.

Почему нет ни слова про квантование контекста ?!?!? Это же отличная экономия VRAM если мы говорим про жёсткую экономию! Ставьте квантование контекста Q8 всегда в стеснённых условиях.

Большое спасибо за комментарий!

Учту

Если память ddr4 лучше в ней, та же gemma-4-e4b поместится q-6, с контекстом 32768, а если llama.cpp, так и qat можно взять q8 или 12b

Sign up to leave a comment.

Articles