Qwertcoserвчера в 10:33

Локальный запуск GLM-5.1

Средний

3 мин

11K

Машинное обучение * Искусственный интеллектOpen source * Natural Language Processing * Системное администрирование *

Туториал

Перевод

Комментарии 9

ampir-nn вчера в 12:15

Какой смысл в запуске UD-IQ2_M - для чего это ???

zarxis вчера в 14:02

Видимо - для ценителей острых ощущений пониже спины...

DSoap вчера в 14:20

Добрый день, не известно какая скорость в токенах на допустим любой rtx с 24 гб и 256gb оперативы?

Qwertcoser вчера в 14:56

Здравствуйте, должно быть ~0,5 - 1,5 токена в секунду

edyapd вчера в 15:32

denis_iii вчера в 17:00

GLM для удержания контекста имеет плотную формулу голов. Отсюда - большое потребление памяти необходимое для K-V кеша, и второе - это большое падение скорости при увеличении контекста (даже после 30-60К). Поэтому в гибридном (локальном) референсе почти не применима.

NTDim1973 вчера в 18:08

Как будто для кодинга qwen 80b для локали лучше будет glm в такой квантизации и среде ? Не сравнивали ?

SlavaVSLK 23 часа назад

Пока ответит - уже новая версия выйдет 🤣

dkeiz 20 часов назад

не рассматривали reap варианты?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий