Comments 8
del
17 токенов в секунду чисто на процессоре?😱
MoE модели реально столько выдают на старте, но как только в контекст набивается несколько тысяч токенов, то скорость падает до 9-10 t\s (что все еще очень неплохо)
Растет время обработки промпта, сейчас протестировал на 5к забитом контексте, прям сильно долго обрабатывался промпт, 2 минуты до первого выходного токена. А скорость генерации ответа упала с 12 до 10 токенов на Lenovo Thinkbook 14+. То есть скорость инференса все-таки не так катастрофично падает как время до первого токена.
Да, для коротких чатов вполне, чем длинее чаты тем медленнее, причем скорость не линейна и отражается на разных показателях, как на скорости инференса, так и на скорости обработки промпта до первого выходного токена.
каждому протестированному устройству не хватает приписки с ценой. Иначе смысл теряется.
И все-таки интересно, что будет, если сравнить с той же 3090 по производительности/стоимости/энергопотреблению
70к - это не то чтобы бюджетный ноутбук, разве что по самой верхней планке, имхо.
Ещё эти новые обозначения процов от интел - приходится гуглить, что это такое.
Локальный инференс на бюджетных ноутбуках