Pull to refresh

Comments 8

17 токенов в секунду чисто на процессоре?😱

MoE модели реально столько выдают на старте, но как только в контекст набивается несколько тысяч токенов, то скорость падает до 9-10 t\s (что все еще очень неплохо)

Растет время обработки промпта, сейчас протестировал на 5к забитом контексте, прям сильно долго обрабатывался промпт, 2 минуты до первого выходного токена. А скорость генерации ответа упала с 12 до 10 токенов на Lenovo Thinkbook 14+. То есть скорость инференса все-таки не так катастрофично падает как время до первого токена.

Да, для коротких чатов вполне, чем длинее чаты тем медленнее, причем скорость не линейна и отражается на разных показателях, как на скорости инференса, так и на скорости обработки промпта до первого выходного токена.

каждому протестированному устройству не хватает приписки с ценой. Иначе смысл теряется.
И все-таки интересно, что будет, если сравнить с той же 3090 по производительности/стоимости/энергопотреблению

Все 3 моих ноутбука покупал примерно за 70к.

RTX 3090 TI от KFA2 взял за 67к, скорость генерации ответа ~130t/s, во время инференса потребляет около 350ватт, в простое ~20ватт. Пока только такие сырые цифры, экономическую эффективность не считал.

70к - это не то чтобы бюджетный ноутбук, разве что по самой верхней планке, имхо.

Ещё эти новые обозначения процов от интел - приходится гуглить, что это такое.

Sign up to leave a comment.

Articles