Comments 8
qwen2.5:9b
Жестоко. На этой карточке можно на приличной скорости использовать Qwen3.6-35B-A3B.
Я использовал ранее qwen2.5:14b, но здесь привёл пример менее требовательный. Не у всех есть 16ГБ VRAM.
Вместо ollama, лучше использовать llama.cpp - скорость в 2 раза выше.
Я не против потестировать, но неохота возиться с тонкими настройками llama.cpp. Ollama всё же более user-friendly для задачи в сжатые сроки.
Но для более серьёзного сценария, возможно, Вы правы. В моей схеме заменить одно на другое можно в любой момент.
Нет там никаких тонких настроек, запускается так же как ollama, рекомендую потратить 2 часа на тест ) прирост по скорости будет существенный.
Sign up to leave a comment.
Anything LLM для каждого [бизнеса]