xitri_kot Oct 3 at 13:13

Рецепт vLLM с мистралем. Часть 1

Easy

4 min

1.4K

Python *

Tutorial

Comments 6

Moog_Prodigy Oct 3 at 20:10

Разочарован. Статья о запуске слабой модельки в облаках. Просто мусор.

xitri_kot yesterday at 08:05

Я в начале пути, запускаю пока слабые модельки, ага)

TerryChan2003 Oct 5 at 16:01

И что это за изобретённый велосипед и чем он лучше эндпоинта llama и lm studio?

xitri_kot yesterday at 08:06

llama и lm studio не пробовал еще, по твоему что из этого всего флагман?

Moog_Prodigy 21 hours ago

Флагманов сейчас три по сути. llama , ollama , lmstudio. Последний самый навороченный, но не факт что самый оптимизированный.

Jiablero 1 hour ago

Тем что vLLM - это скорее серверный вариант для запуска параллельных запросов, с батчингом, кешированием и т.п. и оптимизирован под CUDA.

LM Studio, ollama по сути та же llama.cpp, т.к.используют ее для запуска моделей. С нюансами конечно.

Я гонял одни и те же запросы на ollama с gemma3 4b и на vLLM (50 воркеров, запрос в среднем 1500 токенов, ответ 90 токенов, повторяющмйся system prompt, разный user, 100000 таких запросов) разница в скорости выполнения в 10 раз в пользу vLLM. При одиночных разноплановых запросах такой разницы, конечно, не будет.