Cloudera 25 фев 2021 в 09:00

Apache Spark на Kubernetes: чем полезен Apache YuniKorn

9 мин

1.8K

Блог компании ClouderaApache*Big Data*Облачные сервисы*Data Engineering*

Перевод

Комментарии 5

sshikov 25 фев 2021 в 21:25

Почему для Apache Spark выбирают K8s

Вообще-то, разумно ожидать, что если человек уже знает, что такое спарк, и ему это интересно, то он заходил на spark.apache.org, и там на первой же странице написано:

Spark runs on Hadoop, Apache Mesos, Kubernetes, standalone, or in the cloud.

Ну т.е. это мы и так знаем. Да, умеет работать на k8s. И еще на паре других платформ. При этом во всем этом достаточно длинном тексте я не нашел ни одной попытки сравнить, чем же запуск на k8s лучше, чем в Hadoop. Ну или в мезосе. Чем планировщик лучше Yarn? Где в кластере k8s вы собираетесь хранить данные, вместо HDFS? Ну и ряд других вопросов, которые стоило бы рассмотреть в рекламе нового продукта, чтобы она не была просто рекламой.

Kiryl_Halozhyn 26 фев 2021 в 15:16

Привет, это текст только про open source проект YniKorn — планировщик задач Спарка на К8с, а не среду инсталляции или хранение данных. В случае платформы CDP все зависит от среды — в частном облаке это Ozone или HDFS, в публичных облаках это S3/ADLS/GCS

sshikov 26 фев 2021 в 15:40

Ну это было бы неплохо в статью. Не хватило там этого всего. Сравнительного анализа именно такого способа с другими.

bigdata-dev 26 фев 2021 в 11:06

да, тоже интересно куда предлагается писать спарку в клоудеровской k8s? на hdfs?

Kiryl_Halozhyn 26 фев 2021 в 15:16

см выше

Зарегистрируйтесь на Хабре, чтобы оставить комментарий