Обновить

Локальный запуск GLM-5.1

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели11K
Всего голосов 6: ↑4 и ↓2+4
Комментарии9

Комментарии 9

Какой смысл в запуске UD-IQ2_M - для чего это ???

Видимо - для ценителей острых ощущений пониже спины...

Добрый день, не известно какая скорость в токенах на допустим любой rtx с 24 гб и 256gb оперативы?

Здравствуйте, должно быть ~0,5 - 1,5 токена в секунду

Две 3090, остальное на CPU
Две 3090, остальное на CPU

GLM для удержания контекста имеет плотную формулу голов. Отсюда - большое потребление памяти необходимое для K-V кеша, и второе - это большое падение скорости при увеличении контекста (даже после 30-60К). Поэтому в гибридном (локальном) референсе почти не применима.

Как будто для кодинга qwen 80b для локали лучше будет glm в такой квантизации и среде ? Не сравнивали ?

Пока ответит - уже новая версия выйдет 🤣

не рассматривали reap варианты?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации