Cloud Spark — облачный сервис на основе Managed Kubernetes и Apache Spark для распределенной пакетной и потоковой обработки данных, работы с Machine Learning и аналитикой. 

С помощью сервиса вы можете структурировать данные из разрозненных источников для создания аналитических и предиктивных систем, а также моделей машинного обучения. 

Особенности Cloud Spark

  • За счет встроенных коннекторов Cloud Spark позволяет быстро читать и записывать большие объемы данных из разных источников. Например, из ClickHouse, Apache Kafka и MongoDB.
  • Сервис поддерживает масштабируемую библиотеку машинного обучения MLlib и позволяет работать в облаке над задачами, связанными с машинным обучением. Благодаря алгоритмам, Spark работает с MLlib до 100 раз быстрее, чем MapReduce.
  • Cloud Spark создан на базе Managed Kubernetes от VK Cloud. Автомасштабирование Kubernetes позволяет экономить до 60% на стоимости вычислительных ресурсов.
  • Мы написали удобную клиентскую библиотеку на Python, которая позволяет управлять Cloud Spark из любого Python-окружения.

Подробнее о Cloud Spark

Рекомендуем также посмотреть наш вебинар о Spark в Kubernetes для обработки данных — в нем разбираем практические аспекты и особенности эксплуатации.