Comments 6
Разочарован. Статья о запуске слабой модельки в облаках. Просто мусор.
И что это за изобретённый велосипед и чем он лучше эндпоинта llama и lm studio?
llama и lm studio не пробовал еще, по твоему что из этого всего флагман?
Тем что vLLM - это скорее серверный вариант для запуска параллельных запросов, с батчингом, кешированием и т.п. и оптимизирован под CUDA.
LM Studio, ollama по сути та же llama.cpp, т.к.используют ее для запуска моделей. С нюансами конечно.
Я гонял одни и те же запросы на ollama с gemma3 4b и на vLLM (50 воркеров, запрос в среднем 1500 токенов, ответ 90 токенов, повторяющмйся system prompt, разный user, 100000 таких запросов) разница в скорости выполнения в 10 раз в пользу vLLM. При одиночных разноплановых запросах такой разницы, конечно, не будет.
Рецепт vLLM с мистралем. Часть 1