All streams
Search
Write a publication
Pull to refresh

Comments 6

Разочарован. Статья о запуске слабой модельки в облаках. Просто мусор.

Я в начале пути, запускаю пока слабые модельки, ага)

И что это за изобретённый велосипед и чем он лучше эндпоинта llama и lm studio?

llama и lm studio не пробовал еще, по твоему что из этого всего флагман?

Флагманов сейчас три по сути. llama , ollama , lmstudio. Последний самый навороченный, но не факт что самый оптимизированный.

Тем что vLLM - это скорее серверный вариант для запуска параллельных запросов, с батчингом, кешированием и т.п. и оптимизирован под CUDA.

LM Studio, ollama по сути та же llama.cpp, т.к.используют ее для запуска моделей. С нюансами конечно.

Я гонял одни и те же запросы на ollama с gemma3 4b и на vLLM (50 воркеров, запрос в среднем 1500 токенов, ответ 90 токенов, повторяющмйся system prompt, разный user, 100000 таких запросов) разница в скорости выполнения в 10 раз в пользу vLLM. При одиночных разноплановых запросах такой разницы, конечно, не будет.

Sign up to leave a comment.

Articles