Пользователь
Тут главное - с каким размером контекста? Чем окно больше, тем скорость меньше. Я запускаю gpt-oss 120 на карте с 16GB, память ddr4 32GB и у меня с контекстом 32к выходит где-то 15 t/s (llama_cpp). Чем меньше контекста, тем больше скорости.
Тут главное - с каким размером контекста? Чем окно больше, тем скорость меньше. Я запускаю gpt-oss 120 на карте с 16GB, память ddr4 32GB и у меня с контекстом 32к выходит где-то 15 t/s (llama_cpp). Чем меньше контекста, тем больше скорости.