Pull to refresh

Comments 8

qwen2.5:9b

Жестоко. На этой карточке можно на приличной скорости использовать Qwen3.6-35B-A3B.

Я использовал ранее qwen2.5:14b, но здесь привёл пример менее требовательный. Не у всех есть 16ГБ VRAM.

Там дело не столько в VRAM, сколько в правильном инструменте и технологии. У меня она выдаёт 34 t/s на 3060 Ti 8 GB - на Вашей карте должно быть заметно лучше, вполне возможно что даже Qwen-3.6-27B потянет.

Спасибо за наводку. Я пока не смотрел в сторону этих больших моделей. Попробую!

Вместо ollama, лучше использовать llama.cpp - скорость в 2 раза выше.

Я не против потестировать, но неохота возиться с тонкими настройками llama.cpp. Ollama всё же более user-friendly для задачи в сжатые сроки.

Но для более серьёзного сценария, возможно, Вы правы. В моей схеме заменить одно на другое можно в любой момент.

Нет там никаких тонких настроек, запускается так же как ollama, рекомендую потратить 2 часа на тест ) прирост по скорости будет существенный.

Конечно же, настройки там есть, и их море. Да, сейчас оно уже из коробки без настроек работает, и весьма неплохо, но тот же MTP нужно включать ручками, и не только - тюнинг ещё штук 8 опций весьма значительно сказывается на производительности.

Sign up to leave a comment.

Articles