Обновить

Локальный запуск GLM-5.1

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели21K
Всего голосов 9: ↑6 и ↓3+6
Комментарии11

Комментарии 11

Какой смысл в запуске UD-IQ2_M - для чего это ???

Видимо - для ценителей острых ощущений пониже спины...

Добрый день, не известно какая скорость в токенах на допустим любой rtx с 24 гб и 256gb оперативы?

Здравствуйте, должно быть ~0,5 - 1,5 токена в секунду

Две 3090, остальное на CPU
Две 3090, остальное на CPU

GLM для удержания контекста имеет плотную формулу голов. Отсюда - большое потребление памяти необходимое для K-V кеша, и второе - это большое падение скорости при увеличении контекста (даже после 30-60К). Поэтому в гибридном (локальном) референсе почти не применима.

Как будто для кодинга qwen 80b для локали лучше будет glm в такой квантизации и среде ? Не сравнивали ?

Похоже быстрее будет несколько раз спросить Qwen и поправить ошибки если будут чем один ответ дождаться от glm.

Если делать такой бенчмарк(сравнение), то ещё с учётом скорости ответов надо.

Пока ответит - уже новая версия выйдет 🤣

не рассматривали reap варианты?

MiniMax 2.7 229b в квантовании Q6 божественна и летает на схожем железе как в статье. Уверен и качество будет лучше чем UD-IQ2 GLM.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации