VK Cloud заявил об открытии доступа к собственному сервису для работы с большими данными на базе технологий Apache Spark и Kubernetes для малого и среднего бизнеса (МСП). Cloud Spark обеспечивает распределённую пакетную и потоковую обработку неструктурированных и слабоструктурированных данных из разных источников, таких как S3, ClickHouse, Kafka и других. Благодаря оптимизации и кэшированию в памяти, сервис выполняет аналитические запросы к данным практически любого объёма, рассказали информационной службе Хабра в пресс‑службе компании.

По словам VK, с помощью Cloud Spark можно оперативно и с минимальными затратами на инфраструктуру решать задачи Data Science и аналитики, включая проведение разведочного анализа данных (EDA) и обучение модели машинного обучения на данных компании. Аналитики и специалисты по работе с данными получают доступ к необходимым данным из разных источников посредством SQL‑запросов, а ML‑разработчики смогут использовать возможности встроенной библиотеки MLlib для работы с машинным обучением (ML). Все пользователи смогут управлять сервисом из любого удобного окружения, например с локального компьютера или из JupyterHub, за счёт встроенной клиентской библиотеки.

Cloud Spark развёрнут на базе управляемого сервиса Kubernetes от VK Cloud. Поддержку работоспособности и администрирование Cloud Spark обеспечивает платформа VK Cloud.