volinski 28 июн 2021 в 09:48

Как работать с Big Data быстрее и эффективнее: Kubernetes для Data Science

10 мин

9.5K

Блог компании VKОблачные вычисления*Big Data*Kubernetes*Data Engineering*

+17

Комментарии 4

ARMADIK 1 июл 2021 в 09:35

Хорошая статься, хотел уточнить, а spark в kube запускается в режиме клиент или кластер с использование yarn — hadoop? Что используется для интеграции?
Kernels в jupyter запускается локально на pod или задействован jupyter gateway enterprise?

volinski 2 июл 2021 в 14:55

Если использовать Kubernetes Operator For Spark, то в cluster mode.

github.com/GoogleCloudPlatform/spark-on-k8s-operator/blob/master/docs/user-guide.md#specifying-deployment-mode
A SparkApplication should set .spec.deployMode to cluster, as client is not currently implemented. The driver pod will then run spark-submit in client mode internally to run the driver program. Additional details of how SparkApplications are run can be found in the design documentation.

Если через spark-submit, то можно client и cluster режим использовать.
Подробнее можно здесь почитать
www.lightbend.com/blog/how-to-manage-monitor-spark-on-kubernetes-introduction-spark-submit-kubernetes-operator

Насчет jupyter не подскажу. Есть подробная документация, надеюсь будет полезна
zero-to-jupyterhub.readthedocs.io/en/latest

ARMADIK 2 июл 2021 в 16:33

Спасибо, но я не правильно задал вопрос, пользователи jupytera(который разверну на kube) могут пользоваться ресурсами yarn hadoop кластера?

EvgenyVilkov 2 июл 2021 в 16:10

"Но в таком подходе есть несколько ограничений, вроде невозможности разделения Storage- и Compute-слоев, сложностей масштабирования и изоляции сред для разных приложений. "

Cloudera Virtual Private Cluster, начиная с версии 6.3 вам в помошь. Разделение "из коробки" без зоопарка и сотен чд потраченных на вот это вот все.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий