Byurrer Dec 9 2025 at 09:45

Локальный инференс на бюджетных ноутбуках

Medium

3 min

8.6K

Artificial IntelligenceComputer hardwareLaptops

Case

Comments 8

sergeyns Dec 9 2025 at 09:48

del

TerryChan2003 Dec 9 2025 at 10:57

17 токенов в секунду чисто на процессоре?😱

holgw Dec 9 2025 at 11:13

MoE модели реально столько выдают на старте, но как только в контекст набивается несколько тысяч токенов, то скорость падает до 9-10 t\s (что все еще очень неплохо)

Byurrer Dec 9 2025 at 14:28

Растет время обработки промпта, сейчас протестировал на 5к забитом контексте, прям сильно долго обрабатывался промпт, 2 минуты до первого выходного токена. А скорость генерации ответа упала с 12 до 10 токенов на Lenovo Thinkbook 14+. То есть скорость инференса все-таки не так катастрофично падает как время до первого токена.

Byurrer Dec 9 2025 at 14:30

Да, для коротких чатов вполне, чем длинее чаты тем медленнее, причем скорость не линейна и отражается на разных показателях, как на скорости инференса, так и на скорости обработки промпта до первого выходного токена.

Bardakan Dec 9 2025 at 13:40

каждому протестированному устройству не хватает приписки с ценой. Иначе смысл теряется.
И все-таки интересно, что будет, если сравнить с той же 3090 по производительности/стоимости/энергопотреблению

Byurrer Dec 9 2025 at 14:21

Все 3 моих ноутбука покупал примерно за 70к.

RTX 3090 TI от KFA2 взял за 67к, скорость генерации ответа ~130t/s, во время инференса потребляет около 350ватт, в простое ~20ватт. Пока только такие сырые цифры, экономическую эффективность не считал.

Inskin Dec 10 2025 at 12:01

70к - это не то чтобы бюджетный ноутбук, разве что по самой верхней планке, имхо.

Ещё эти новые обозначения процов от интел - приходится гуглить, что это такое.