Apache Kafka и потоковая обработка данных с помощью Spark Streaming / Comments / Habr

Googolplex May 11 2019 at 00:34

Есть ли какая-то особенная причина, по которой вы используете старый Spark Streaming вместо нового Spark Structured Streaming? Особенно с учетом того что здесь у вас нет верхней границы на версию спарка.

I_v_g May 11 2019 at 08:33

Особенная причина лишь в том, что я собираюсь раскрыть эту тему в следующей статье :)

Andronas May 11 2019 at 13:54

На диаграмме компонентов стрелка от producer идёт прямо в спарк из кафка и это неправильно- producer пишет в кафку а забирать должен consumer. Это конечно если рассматривать с позиции очереди сообщений.

-1

I_v_g May 11 2019 at 23:40

Прямо так сразу «неправильно»? Вы знакомы с прямым подходом, когда исполнители Spark читают данные непосредственно из Kafka?

Andronas Aug 26 2019 at 11:01

Так ведь читают «исполнители Spark» которые играют роль consumer т.е. потребители данных. А producer — это те кто пишут в Kafka данные. Это если соблюдать терминологию Kafka.
Т.е. на схеме где написано «producer» внутри прямоугольника Kafka, должно быть на самом деле написано «consumer».

Ejentos Apr 28 2023 at 15:25

Как у новичка, незнакомого со spark и потоковой обработкой данных, у меня вопросы по поводу архитектуры.
1. Почему не использовать Kafka streaming, где, по-моему, точно также можно создать обработку сообщений и направлять их в базу данных? Тогда мы отказываемся от целого компонтента, что упрощает систему.
2. Допустим, возникли сложности с Kafka streaming. Следующее, что приходт на ум — почему бы не использовать обычный клиент (java, .net, php...), который, скорее всего, замечательно впшется в текущй стек разработки и уже существующие вопросы тестирования, мониторинга, развёртываня и компетенций разработчиков не должны вызвать трудностей. Если говорить о сheckpoints описанных в статье как

основной механизм в SparkStreaming, который должен быть настроен для обеспечения отказоустойчивости

, то по-моему управление чтением из Kafka с использованием транзакций решает эту проблему.

С ростом объемов данных из различных источников, сложно переоценить практическую ценность Spark Streaming для создания потоковых приложений и приложений, действующих в масштабе реального времени.

Кажется за этими словами, стоит много важной и основной информации, которая, к сожалению, так и осталась за кадром.

Думаю, что те, кто знаком со стеком, описанным в статье, собственно в ней и не нуждается, тогда я просто развожу руками и предвижу, что статья, если и находит читателей, то говорит только о том, что с Kafka, Spark и AWS можно обрабатывать потоки данных…

Apache Kafka и потоковая обработка данных с помощью Spark Streaming

Comments 6

Articles