Anna_sokol22 5 авг 2022 в 16:37

Рецепт готовки Apache Kafka: как создавался Data Lake на 80 Тb

7 мин

5.9K

Блог компании СлёрмApache*Big Data*Хранение данных*

+11

Комментарии 9

maxim_ge 5 авг 2022 в 19:13

Этот пункт был выведен эмпирическим путем, когда мы поняли, что инсталляция Kafka больше, чем на 12 Тб на единицу кластера драматически рушит производительность.

Можно пояснить, что такое "единица кластера"?

hellamps 5 авг 2022 в 22:54

видимо, нода одна.

интересно что же будет, если в кластере пара нод приляжет и кафка переразмажет по существующим нодам, выехав за этот предел.

maxim_ge 5 авг 2022 в 19:27

Мы пробовали сделать это с помощью реляционных баз данных, но они себя тоже не оправдали. Еще использовали Hadoop, но он медленный, как и RabbitMQ.

А какое "железо" используется, на котором "реляционные БД" и Rabbit не способны обеспечить 15 тысяч RPS?

md_backend_binance 5 авг 2022 в 21:46

Маловато чтото , у нас около 70к\с как у насдака. Но мы используем ksqldb очень во многих местах, вместо самописных экстернал приложений

aleks_raiden 6 авг 2022 в 00:23

Ммм, а можно поподробнее? Как раз проектирую подобную систему в той же области...

kohus 6 авг 2022 в 12:51

В Кафке есть индекс по timestamp, поэтому можно быстро спозиционировать консумента на самую первую запись с заданным временем. А для того, чтобы примерно посчитать количество данных, можно использовать разницу оффсетов(инструмент GetOffsetShell)

akakoychenko 6 авг 2022 в 20:52

Стремный подход, как по мне
Если держать в кафке данные за 5 лет, то менеджить ее будет адом. Даже банальный ребаланс при увеличении количества партиций на таком объеме это жесть. А если одна нода на 10ТБ упадет физически, и надо восстановить, и при этом это все под постоянной записью, тоже, чувствую, задача не то, чтобы тривиальная.
Не понимаю, почему не пойти по бест практисам, и не перекладывать данные раз в день с кафки в архивы по 1-10ГБ каждый на s3-совместимое хранилище/в HDFS/тупо в файловую систему на машинах по 20+ механических дисков в рейде?

greengrunt 9 авг 2022 в 21:03

а есть где почитать про такой бест практис? это какой-нибудь кафка коннект надо будет использовать?
просто штатным kafka-console-consumer данные надежно не вычитать с живого топика, как я понимаю...

Reversaidx 11 авг 2022 в 12:38

Про ребаланс Consumer group - проблема уже не актуально, год как при ребалансе все не встает колом

Зарегистрируйтесь на Хабре, чтобы оставить комментарий