2ANikulin Jun 16 2017 at 04:29

Apache Spark как ядро проекта. Часть 2. Streaming, и на что мы напоролись

3 min

9.3K

Big Data*Hadoop*

+10

Comments 9

Triffids Jun 16 2017 at 05:20

ну все таки в spark 2.х они выкатили совершенно другие api под стриминг и по хорошему надо именно на них надо тестировать. то что было в 1.6 у них не позиционируется как стриминг.

2ANikulin Jun 16 2017 at 05:20

Я согласен что надо на новый спарк переходить. Но не соглашусь что 1.6 — не позицианировался как стриминг

Envy Jun 16 2017 at 12:58

Еще не выкатили, это альфа

madmis Jun 16 2017 at 05:28

У нас в конторе как message broker используют AWS Kinesis.
Сначала на php пилили под него консьюмера (паблишер на Scala написан), получилось черти что. Потом ребята на Scala перепилили.
Я вот только до сих пор понять не могу, зачем для обычных сообщений (json), где немного данных, был выбран Kinesis с которым заморочек немерянно (или я просто его совсем не понял).

Может кто-то статью про Kinesis напишет?
О том для чего его стоит использовать, для чего не стоит. Его плюсы и минусы. Ну и личный опыт.
Было бы очень интересно почитать.

2ANikulin Jun 16 2017 at 05:30

Попробуйте сами разобраться с Kinesis на досуге. Потыкайте его палочкой, а потом статейку напишете. Получите сразу +100500 опыта и почета ))

kokorins Jun 16 2017 at 11:01

А flink не рассматривали?

2ANikulin Jun 16 2017 at 11:05

Нет, к таким эксперементам, пока мы не готовы )

Huntlet Jun 20 2017 at 11:59

Есть ещё такой способ — вычитывать данные с помощью KafkaUtils.createRDD, а офсеты хранить самостоятельно. Если есть возможность сохранить данные и офсеты одной транзакцией, то получается Exactly once.

2ANikulin Jun 20 2017 at 13:04

Да, это выход.
Но это уже будет не стримминг