Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Есть ли какая-то особенная причина, по которой вы используете старый Spark Streaming вместо нового Spark Structured Streaming? Особенно с учетом того что здесь у вас нет верхней границы на версию спарка.
Прямо так сразу «неправильно»? Вы знакомы с прямым подходом, когда исполнители Spark читают данные непосредственно из Kafka?
основной механизм в SparkStreaming, который должен быть настроен для обеспечения отказоустойчивости, то по-моему управление чтением из Kafka с использованием транзакций решает эту проблему.
С ростом объемов данных из различных источников, сложно переоценить практическую ценность Spark Streaming для создания потоковых приложений и приложений, действующих в масштабе реального времени.
Apache Kafka и потоковая обработка данных с помощью Spark Streaming