Qwertcoseryesterday at 10:33

Локальный запуск GLM-5.1

Medium

3 min

11K

Machine learning * Artificial IntelligenceOpen source * Natural Language Processing * System administration *

Tutorial

Translation

Comments 9

ampir-nn yesterday at 12:15

Какой смысл в запуске UD-IQ2_M - для чего это ???

zarxis yesterday at 14:02

Видимо - для ценителей острых ощущений пониже спины...

DSoap yesterday at 14:20

Добрый день, не известно какая скорость в токенах на допустим любой rtx с 24 гб и 256gb оперативы?

Qwertcoser yesterday at 14:56

Здравствуйте, должно быть ~0,5 - 1,5 токена в секунду

edyapd yesterday at 15:32

denis_iii yesterday at 17:00

GLM для удержания контекста имеет плотную формулу голов. Отсюда - большое потребление памяти необходимое для K-V кеша, и второе - это большое падение скорости при увеличении контекста (даже после 30-60К). Поэтому в гибридном (локальном) референсе почти не применима.

NTDim1973 yesterday at 18:08

Как будто для кодинга qwen 80b для локали лучше будет glm в такой квантизации и среде ? Не сравнивали ?

SlavaVSLK yesterday at 18:28

Пока ответит - уже новая версия выйдет 🤣

dkeiz yesterday at 22:23

не рассматривали reap варианты?