Polina_Averina Mar 26 2021 at 07:57

Pulsar vs Kafka: сравнение и мифы

21 min

14K

Слёрм corporate blogSystem administration*Programming*IT Infrastructure*Apache*

Translation

+20

Comments 11

tmk826 Mar 26 2021 at 09:03

Использую Kafka много лет, а про Pulsar услышал в первый раз. Но после такой рекламы надо будет посмотреть.

UFO just landed and posted this here

creker Mar 26 2021 at 18:03

Вот это да. Подход кафки совсем себя не оправдывает. Все клиенты, которые не используют librdkafka, ведут себя абсолютно по-разному. Все поддерживают разные KIP. Ребалансировка всегда приключение, потому что не знаешь, как какая библиотека себя поведет. Как она передеживет просто подключение клиента, как переживет падение брокера, как обработает добавку партиций на горячую и т.д.

Кроме этого, у кафики пока еще есть stop the world при ребалансировке

В одном из KIP кстати добавили нормальную ребалансировку, но это еще надо найти клиент, который ее поддерживает. Мы используем sarama и там этого нет.

mentin Mar 26 2021 at 10:10

Как сторонний наблюдатель, для меня "Для репликации данных в реальном времени… много разных инструментов" (далее 6 разных вариантов) не реклама Кафки, а большое предостережение. Я бы задумался что заставило Убер, ЛинкедИн и Сейслфорз тратить свое время на создание велосипедов, почему не воспользовались существующими? Что так кардинально плохо в официальных решениях, что вместо использования открытости и исправления существующих решений, все они делают полностью своё?

leonidv Mar 26 2021 at 10:30

Ответ эту статью от разработчиков Apache Pulsar (явно вроде не ссылаются, но по датам очень похоже):
streamnative.io/en/blog/tech/2020-07-08-pulsar-vs-kafka-part-1
streamnative.io/en/blog/tech/2020-07-22-pulsar-vs-kafka-part-2
streamnative.io/en/blog/tech/2020-11-09-benchmark-pulsar-kafka-performance-report#conclusions

В 2019 компанию, поддерживающую Pulsar (а-ля confluent для Kafka) выкупил Splunk. Вот статья их инженера: www.splunk.com/en_us/blog/it/life-beyond-kafka-with-apache-pulsar.html

Pulsar входит в стэк datastax, вот их маркетинговая статья:
www.datastax.com/blog/2021/01/four-reasons-why-apache-pulsar-essential-modern-data-stack

mitya_k Mar 26 2021 at 11:43

Опыт использования Pulsar отрицательный.

Отвратительный клиент под Node js. Проблема в том, что клиент зависит от СИшной либы, а из нее сыпались ошибки в рантайме.
Очень слабое коммьюнити, полторы калеки на StackOverflow и т.д. В случае чего вам придется залазить в исходники. Кол-во вспомогательных инструментов в сравнении с другими брокерами равно нулю.
Для синхронных языков типа Python придется читать из топика через while(true) {}, что мягко говоря не очень удобно(1 топик — 1 скрипт). Да, это можно обойти через слушания топиков по маске, а потом парсить регуляркой название и заниматься роутингом сообщения. Но, блин, это не очень удобно
Отсутствие нормальной web морды как в RabbitMQ/Kafka

creker Mar 26 2021 at 17:57

Kafka движется в противоположном направлении — скоро ZooKeeper будет удален (см. KIP-500), так что останется всего одна распределенная система, которую нужно деплоить, обслуживать, масштабировать и мониторить

Неправда. Этот KIP заменяет одну распределенную систему (zookeeper) на другую (кворум контроллеров). По факту, ничего не изменится. А скорее всего будет хуже. Тут же мало того, что смена архитектуры, так еще речь о кворумной системе. Сколько ее будут отлаживать неизвестно.

AndrewJD Mar 27 2021 at 17:09

На конференциях по Kafka очень любят упоминать кейс Нью-Йорк Таймс, но не упоминают что у них всего ~100 GB данных.

FuriCuri Sep 30 2021 at 20:33

Спасибо за статью. А что скажете про Kafka vs RedPanda?

akomiagin Dec 27 2021 at 17:16

Подскажите, а с точки зрения быстроты развертывания, простоты эксплуатации, возможностей по горизонтальному масштабированию и требованиям к инфраструктуре есть сравнение?