ewolf 24 июн 2021 в 11:32

Apache Pulsar как основа для системы очередей

13 мин

22K

Блог компании AvitoTechСистемное администрирование*Программирование*IT-инфраструктура*Apache*

Технотекст 2021

+19

Комментарии 28

amarao 24 июн 2021 в 11:48

Я как раз ищу что-то для отправки заданий, но у с большой особенностью: задание - это порядка гигабайта данных. Kafka такой размер сообщений не любит. А как с этим обстоит у Pulsar?

ewolf 24 июн 2021 в 12:31

Pulsar тоже не очень любит. Как минимум размер пакета в протоколе по-умолчанию — 5 мегабайт.

Может быть в целом и не нужно слать такие большие задания? Положили пейлоад в сторадж, положили событие с его id в очередь и все

amarao 24 июн 2021 в 13:45

А вот это вопрос интересный. У нас highly volatile данные (граница актуальности - десятки минут), объёмом несколько сотен МБ. Из них нужно выжать (утрируя) небольшой вектор в сотни цифр, который имеет ценность в интервале недель и больше.

Данные прилетают с кучи локаций (сырые метрики) и у нас есть вариант писать их в базу и оттуда "отжимать", или сначала отжимать, а потом писать только важное.

Моя идея была сделать пул работников для "отжима" и раскидывать им задачи через message queue (т.к. локации разные, объём данных разный, время рассчёта разное).

База (и персистентность) тут выглядит избыточно, т.к. сырые данные теряют актуальность почти сразу. Писать в базу во имя удобства message queue, это как-то криво, потому что в схеме взаимодействия появляется довольно жирная связь, да и теряется чистый stateless (взял задачу, отдал результат).

Вот чешу затылок на тему, кому не трудно гигабайты перекачивать.

Bahusss 24 июн 2021 в 16:00

Интересно как появляется этот гигабайт данных изначально? Некий воркер собирает его из разных источников в памяти? Что будет если этот воркер упадет на полпути? Заново начнет пересобирать?

В классическом ETL не зазорно иметь какой-нибудь простой сторадж, в котором хранить временные данные, хоть в базе хоть в файле.

amarao 24 июн 2021 в 20:39

У нас довольно специальный случай - этот гигабайт состоит из ~200Мб метрик из удалённой локации (из которой очень трудно их доставать - в общем случае могут быть проблемы с сетью), плюс примерно 300Мб данных из других источников (относительно легко доступных). В общую кучу их хочется докладывать, чтобы воркеру не надо было никуда ходить, кроме MQ. Если собирающий потеряет данные, это будет галочка "данные потеряны" (и это ок, т.к. является частью ответа). Если воркер обсыпется в процессе рассчёта, это будет печально, но тоже терпимо, если не сильно часто.

За ETL аббревиатуру спасибо. (Я не data scientist, я админ в команде с программистами, для меня это внове).

StanEgo 24 июн 2021 в 18:28

Было что-то похожее недавно. Нужно было отжимать приходящие CSV размером от 5ГБ. Через имеющийся стриминг (NiFi, Kafka) ползало, но очень печально. Решением оказался Clickhouse. Отправка родному клиенту на stdin 5ГБ с последующей выдачей ключевых метрик (по датасету из 19М строк) на Kafka connector занимало буквально 6-7 секунд. И это на достаточно простом стенде, данные на который вливались с ноута по воздуху и внутри был фактически ещё один ETL stage, то есть импортированный датасет трансформировался в новый с обогащением, конвертацией и т.п.

amarao 24 июн 2021 в 20:40

У нас, к сожалению, алгоритмы сложнее, чем в clickhouse'ный sql можно записать. Притаскивать базу данных или внешнее хранилище можно, но оно усложнит администрирование и тестирование. Одно дело "чистая" функция "отжима", другое дело компонента, которая и в MQ лазит, и в базу.

aleks_raiden 24 июн 2021 в 22:01

Можно попробовать еще https://vectorized.io/redpanda/ как прозрачную замену Kafka

alhimik45 24 июн 2021 в 21:11

Думается вариант с хранилищем самый часто используемый. У нас пейлоады отправлялись в условный S3, в очередь отправлялась только ссылка на контент. Всё было в одном ДЦ и работало шустро.

В одном пет проекте использовал NSQ, у него в топики можно прям curl'ом POST-ить бинарники. Работало, но у меня там были максимум метров по 50 где-то данные. Да и с отказоустойчивостью непомню что там было, кажется репликации у него из коробки нет.

Odin_cool 26 июн 2021 в 10:46

Очень хорошо обстоят, в клиенте реализован chunking - прозрачное разбиение большого сообщения на маленькие и склеивание на стороне консьюмера

sojey80135 24 июн 2021 в 12:07

наплодили... не ясно даже что выбирать...

pulsar , kafka , spart, flink, storm , spark, samza

ждем пока ктонибудь додумается написать статью как из этого выбирать

ewolf 24 июн 2021 в 12:32

Конкретно pulsar — это кафка на стероидах. Тоже log внутри, но с добавлением некоторой логики сверху.

EasyGrow 24 июн 2021 в 21:29

> Конкретно pulsar — это кафка на стероидах.
Не совсем так. В некоторых случаях Кафка лучше подходит, в некоторых Пульсар (и есть довольно большое пересечение, где можно использовать любую из технологий). В ряде компаний используют обе технологии, но под разные задачи (например, Tencent).

ewolf 24 июн 2021 в 21:34

Согласен с вами. Своим комментарием я имел в виду, что пульсар, имея в основе систему хранения логов, похож в этом на Кафку, но в отличие от нее добавляет поверх ещё ряд функций: отложенные сообщения, отсутствие ограничения на число консьюмеров и другое. Все то, что в случае с кафкой пришлось бы реализовывать самостоятельно. Но все это правда не бесплатно с точки зрения надёжности

EasyGrow 24 июн 2021 в 21:41

pulsar, kafka – хранилища/стриминговые платформы

spark, flink, storm, samza – фреймворки, которые можно использовать поверх этих (и не только) хранилищ

Мне кажется, что для 99% случаев Pulsar не нужен (часто Кафка тоже). Если вы не знаете что вам нужно, но хотите попробовать какую-то из этих двух технологий, то начинайте с Kafka (проще, больше обучающих материалов, более распространенная, лучше тулинг, больше комьюнити).

sojey80135 25 июн 2021 в 21:57

ну вот первую пачку сравнили , ждем сравнение пачки spark, flink, storm, samza

akurilov 24 июн 2021 в 22:50

Ещё nuts, pravega, etc

EasyGrow 25 июн 2021 в 17:40

nats все-таки уже другая по своей идее технология (in-memory queue).

nats streaming близкая к Кафке и Пульсару, да

dph 24 июн 2021 в 13:28

А сколько очередей (топиков) одновременно удалось поднять на pulsar и на каком железе?
У кафки проблемы начинаются где-то с 100K, а как на пульсаре по вашему опыту?

ewolf 24 июн 2021 в 18:51

Пока их относительно не много. 1000+ партицированных топиков и соответственно 5000+ топиков-партиций

EasyGrow 24 июн 2021 в 21:33

Для Кафки число топиков не очень важно, важно число партиций. 100к это не предел для Кафки. Конфлюент дает такие цифры (статья): «As a rule of thumb, we recommend each broker to have up to 4,000 partitions and each cluster to have up to 200,000 partitions.»

EasyGrow 24 июн 2021 в 21:33

При этом в Kafka 3 (без зукипера) этот предел будет значительно увеличен (до миллионов)

sojey80135 24 июн 2021 в 22:17

можно ли после прочтения сообщения , отложить его на некоторое время чтобы без каких либо внутренних буферов ?

ewolf 25 июн 2021 в 07:12

Можно сделать nack и настроить в пульсаре redelivery timeout: тогда оно будет предоставлено через заданный интервал времени

Hixon10 25 июн 2021 в 00:28

Спасибо за статью!

Я правильно понимаю, что вы используете delayed сообщения в вашем сервисе очередей? Или вам достаточно классической очереди, когда сообщение из очереди можно потреблять сразу же после его публикации.