Обновить
5
0

Пользователь

Отправить сообщение

Тут главное - с каким размером контекста? Чем окно больше, тем скорость меньше. Я запускаю gpt-oss 120 на карте с 16GB, память ddr4 32GB и у меня с контекстом 32к выходит где-то 15 t/s (llama_cpp). Чем меньше контекста, тем больше скорости.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность