Comments 9
Какой смысл в запуске UD-IQ2_M - для чего это ???
Добрый день, не известно какая скорость в токенах на допустим любой rtx с 24 гб и 256gb оперативы?
Здравствуйте, должно быть ~0,5 - 1,5 токена в секунду

GLM для удержания контекста имеет плотную формулу голов. Отсюда - большое потребление памяти необходимое для K-V кеша, и второе - это большое падение скорости при увеличении контекста (даже после 30-60К). Поэтому в гибридном (локальном) референсе почти не применима.
Как будто для кодинга qwen 80b для локали лучше будет glm в такой квантизации и среде ? Не сравнивали ?
Пока ответит - уже новая версия выйдет 🤣
не рассматривали reap варианты?
Sign up to leave a comment.
Локальный запуск GLM-5.1