Обновить

Локальная большая лингвистическая модель на Windows 11: выбор среды, модели и пошаговое развёртывание

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели9.3K
Всего голосов 7: ↑6 и ↓1+5
Комментарии4

Комментарии 4

Годно. Но несколько замечаний.

LMStudio умеет загружать модели, когда нужно, и выгружать, когда они простаивают или другим нужно место. Он висит себе в трее и не мешает жить. Именно его следует использовать на десктопе, а чистый llama.cpp - на отдельном сервере.

Локальные модели нужно использовать разцензуренные. И нужно это отнюдь не для порнухи. Сам видел как Gemma 4 отказалась перенести график приёма лекарств из бумажки в тудушник, потому что "требуется косультация врача". Небольшая правка от народа быстро отучает её страдать фигнёй. Разцензуренная модель помечается тегом Heretic (есть и другие). Ещё для Q4 есть новая фича quantisation-aware-training. Поэтому вот ссылка. Хватай пока дают. Годится для 18ГБ VRAM. А для меньше - ищите MoE сетки.

Качать с HuggingFace нужно не броузером, а из консоли или менеджером закачек. Так почему то скорость намного выше. Я использую aria2c, на винде можно Invoke-WebRequest -Uri “https://example.com/file.zip” -OutFile C:\Users\YourUsername\Downloads\file.zip

AnythingLLM очень грубая софтина. ChatBox лучше, а CherryStudio ещё лучше.

Почему нет ни слова про квантование контекста ?!?!? Это же отличная экономия VRAM если мы говорим про жёсткую экономию! Ставьте квантование контекста Q8 всегда в стеснённых условиях.

Большое спасибо за комментарий!

Учту

Спасибо за интересный обзор.

"""Второй класс - программы для запуска моделей без ГПИ. Сюда относятся Ollama, llama.cpp """ GitHub - alekk89/llama-cpp-windows-manager: Настольная консоль Windows для llama.cpp runtime, моделей и локальных рабочих процессов кодирования · GitHub

Если память ddr4 лучше в ней, та же gemma-4-e4b поместится q-6, с контекстом 32768, а если llama.cpp, так и qat можно взять q8 или 12b

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации