vadimspriggan Jun 6 at 08:51

Anything LLM для каждого [бизнеса]

Medium

8 min

12K

IT Infrastructure * Artificial IntelligenceConfiguring Linux * System administration * IT systems testing *

Tutorial

Comments 9

powerman Jun 6 at 09:18

qwen2.5:9b

Жестоко. На этой карточке можно на приличной скорости использовать Qwen3.6-35B-A3B.

vadimspriggan Jun 6 at 09:32

Я использовал ранее qwen2.5:14b, но здесь привёл пример менее требовательный. Не у всех есть 16ГБ VRAM.

powerman Jun 6 at 09:38

Там дело не столько в VRAM, сколько в правильном инструменте и технологии. У меня она выдаёт 34 t/s на 3060 Ti 8 GB - на Вашей карте должно быть заметно лучше, вполне возможно что даже Qwen-3.6-27B потянет.

vadimspriggan Jun 6 at 09:40

Спасибо за наводку. Я пока не смотрел в сторону этих больших моделей. Попробую!

OT41 Jun 8 at 07:21

Вместо ollama, лучше использовать llama.cpp - скорость в 2 раза выше.

vadimspriggan Jun 8 at 13:09

Я не против потестировать, но неохота возиться с тонкими настройками llama.cpp. Ollama всё же более user-friendly для задачи в сжатые сроки.

Но для более серьёзного сценария, возможно, Вы правы. В моей схеме заменить одно на другое можно в любой момент.

OT41 Jun 8 at 15:28

Нет там никаких тонких настроек, запускается так же как ollama, рекомендую потратить 2 часа на тест ) прирост по скорости будет существенный.

powerman Jun 11 at 23:46

Конечно же, настройки там есть, и их море. Да, сейчас оно уже из коробки без настроек работает, и весьма неплохо, но тот же MTP нужно включать ручками, и не только - тюнинг ещё штук 8 опций весьма значительно сказывается на производительности.

zaelcovsky Jul 6 at 21:18

а клиенты англоязычные были? или почему выбор пал на эмбеддинг nomic-embed-text ?