volinski 17 мар 2021 в 18:02

MLOps без боли в облаке: как развернуть Kubeflow в продакшен-кластере Kubernetes

10 мин

8.3K

Блог компании VKМашинное обучение*DevOps*Kubernetes*Data Engineering*

Туториал

+28

Комментарии 4

Akkarine 18 мар 2021 в 13:05

Отличная статья, спасибо! Как раз изучал тему разворачивания JupyterHub на простаивающих мощностях. Не знал о Kubeflow. Подскажите пожалуйста лучшее решение для такого кейса:

Есть два сервера. Свободные ресурсы примерно равны. Могу выделить на первом 24 ядра / 16 Гб оперативки, а на втором 10 ядер / 32 Гб. Можно перегнать некоторую нагрузку по оперативке с первого на второй.

В идеале хотелось бы объединить этот ресурс созданием вычислительного кластера.

Возможно ли получить один мощный инстанс Jupyter Notebook и утилизировать объединённый ресурс для проверки ML теорий (устал по 3 часа ждать в google colaboratory :)?
Или, как вы пишете, лучше по максимуму освободить ресурс одной из машин и на ней поднять чистый JupyterHub? И имеет ли при этом смысл установка Kubeflow?

В компании я пока один начинающий дата-сатанист, но не исключено появление интереса у других моих коллег.

Практического опыта с kubernetes нет, поэтому рассматривал вариант ещё использовать OpenShift (чтобы за меня команды куберу слал).

volinski 18 мар 2021 в 14:09

Kubeflow, скорее всего, не поможет вам в решении задачи. По умолчанию Kubeflow не распараллелит за вас data science эксперименты. Нужно смотреть какой фреймворк используете. Умеет ли он работать в кластерном режиме. Предлагаю вам для начала посмотреть в сторону Spark. Его кстати тоже можно запускать в кубере.
www.youtube.com/watch?v=fYGc4elKW-g

Akkarine 18 мар 2021 в 14:34

Да, похоже что я фундаментально ошибался и без дополнительных инструментов не обойтись. Спасибо!

AigizK 19 мар 2021 в 09:14

Из того что не нравится у Kubeflow, это распараллеливание задач в пайплайне. Допустим какое то вычисление можно выполнить параллельно, создаешь новую операцию и настраиваешь пайплайн, чтоб было 5 параллельных задач. В итоге:

если таких задач будет 1000 штук, то UI попытается показать все и зависает
для каждый задачи создается отдельный под, и нет возможности указать, чтоб использовал существующий под, как в даск кластере это реализовано

Ну то ли я не разобрался, то ли этого делать нельзя, нельзя указать с какими ресурсами надо создать под для конкретный операции

Зарегистрируйтесь на Хабре, чтобы оставить комментарий