Qwertcoser11 апр в 10:33

Локальный запуск GLM-5.1

Средний

3 мин

23K

Машинное обучение * Искусственный интеллектOpen source * Natural Language Processing * Системное администрирование *

Туториал

Перевод

Комментарии 14

ampir-nn 11 апр в 12:15

Какой смысл в запуске UD-IQ2_M - для чего это ???

zarxis 11 апр в 14:02

Видимо - для ценителей острых ощущений пониже спины...

DSoap 11 апр в 14:20

Добрый день, не известно какая скорость в токенах на допустим любой rtx с 24 гб и 256gb оперативы?

Qwertcoser 11 апр в 14:56

Здравствуйте, должно быть ~0,5 - 1,5 токена в секунду

edyapd 11 апр в 15:32

denis_iii 11 апр в 17:00

GLM для удержания контекста имеет плотную формулу голов. Отсюда - большое потребление памяти необходимое для K-V кеша, и второе - это большое падение скорости при увеличении контекста (даже после 30-60К). Поэтому в гибридном (локальном) референсе почти не применима.

sergeym69 25 мая в 18:57

2шт RTX3090 + 220Gb RAM DDR5 6000 + i7 = 4.2 tok/s на UD-IQ3_XXS

Брать IQ2 НЕТ никакого смысла, увеличения скорости нет, а если отключен mmap в параметрах llama.cpp то на Linux можно запускать модель размером больше RAM.

NTDim1973 11 апр в 18:08

Как будто для кодинга qwen 80b для локали лучше будет glm в такой квантизации и среде ? Не сравнивали ?

dibu28 16 апр в 07:44

Похоже быстрее будет несколько раз спросить Qwen и поправить ошибки если будут чем один ответ дождаться от glm.

Если делать такой бенчмарк(сравнение), то ещё с учётом скорости ответов надо.

SlavaVSLK 11 апр в 18:28

Пока ответит - уже новая версия выйдет 🤣

dkeiz 11 апр в 22:23

не рассматривали reap варианты?

BelerafonL 13 апр в 15:25

MiniMax 2.7 229b в квантовании Q6 божественна и летает на схожем железе как в статье. Уверен и качество будет лучше чем UD-IQ2 GLM.

zarxis 26 мая в 10:05

протестировал GLM-5.1-UD-Q3_K_XL на виртуалке с одним выделенным сокетом Xeon Gold 5218 (отключил многопоточность и NUMA) c ОЗУ 360 gb DDR4, использовал 14 ядер из 16 (с 16 ядрами ~1.1 т/с)

в принципе, в сложных сценариях разработки или составления архитектуры его можно юзать - составил промтп, вкинул и пошел заниматься другими делами, через часик уже и ответ готовый будет

Banakhovich 24 июн в 05:31

UD-Q4_K_XL на epyc 7k62 512ram ddr4(3200) + rtx5090 7,5 т/с

Зарегистрируйтесь на Хабре, чтобы оставить комментарий