Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью / Комментарии / Хабр

Вопрос простого обывателя который на 3060 изучает работу с LLM ( Tranformers , pytorch .. )
Просто по тому, что где то к 2\3 стати уже стал не понимать )

Понятно, что VLLM заточен ( больше подходит ) для бекенда онлайн сервиса имея на борту разные расширенные мат инструменты ( как например разные виды тензорного параллеризма )

Но, вот если взять хоум лабу и запустить в однопотоке ( на одном GPU с обьемом минимально достаточным для того что бы уместить драфт и основную модель и тд )
Будет ли выйгрыш в производительности ?
Например между запуском на Transformers и VLLM ( в задачах для генерации текста ) ?

Так то известно что и VLLM и Transformers под капотом используют PyTorch,
но насколько VLLM может быть эффективна в хоум лабе.
Хотя интуитивно ответ, в том ,что VLLM когда это интерпрайз инференс и в VLLM все для этого )

Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью

Комментарии 2

Публикации