Комментарии 3
Какие преимущества у разворачивания в k8s моделей перед ray serve?
Инструменты решают разные задачи и имеют разную архитектуру.
В k8 можно пробовать запускать готовые LLM и масштабировать их, второй инструмент может быть полезен для быстрого прототипирования и в рамках MLOps.
Также есть kuberay-operator, для синергии технологий.
Мы же говорили о GPU. О каких конкретно разных задачах идёт речь?
В ray serve можно запускать готовые LLM. Загрузив их через 20-30 строчек кода и получив при этом возможность автоматически распараллелить и видеть логи llm через мониторинг.
Или вы имеете ввиду не совсем LLM, а обертки вроде Gradio? Если так, то gradio ближе к обычным cpu серверам, а gpu лучше выносить отдельно. Если конечно один gpu сервер, то разницы нет. Но тогда и k8s избыточный.
Хочется понять, когда k8s оправдан с gpu, против ray serve. Не могу придумать ни одного сценария. Какие сценарии вы видите, в которых k8s с нейронками даёт преимущества или делает то, что не позволяет делать ray serve? И при этом k8s не избыточен.
Разворачиваем AI-приложение в кластере k8s