Разворачиваем AI-приложение в кластере k8s / Comments / Habr

Какие преимущества у разворачивания в k8s моделей перед ray serve?

Инструменты решают разные задачи и имеют разную архитектуру.

В k8 можно пробовать запускать готовые LLM и масштабировать их, второй инструмент может быть полезен для быстрого прототипирования и в рамках MLOps.

Также есть kuberay-operator, для синергии технологий.

proxy3d Apr 30 at 13:48

Мы же говорили о GPU. О каких конкретно разных задачах идёт речь?

В ray serve можно запускать готовые LLM. Загрузив их через 20-30 строчек кода и получив при этом возможность автоматически распараллелить и видеть логи llm через мониторинг.

Или вы имеете ввиду не совсем LLM, а обертки вроде Gradio? Если так, то gradio ближе к обычным cpu серверам, а gpu лучше выносить отдельно. Если конечно один gpu сервер, то разницы нет. Но тогда и k8s избыточный.

Хочется понять, когда k8s оправдан с gpu, против ray serve. Не могу придумать ни одного сценария. Какие сценарии вы видите, в которых k8s с нейронками даёт преимущества или делает то, что не позволяет делать ray serve? И при этом k8s не избыточен.