blacksan11 апр 2025 в 14:41

ОС против Kafka: битва за map-области: история одного неочевидного лимита

Средний

5 мин

Java * Высоконагруженные системы * Apache * IT-инфраструктура * Хранение данных *

Туториал

Комментарии 4

Oeaoo 11 апр 2025 в 16:06

Интересно как они смогли упасть все сразу. Там что, на столько равномерно все было сбалансированно? Или поздно среагировали?

blacksan 11 апр 2025 в 21:48

Добрый день! Ситуация такая что нод всего три и фактор репликации стоит 3, соответственно на всех трех нодах данные одинаковые, отсюда и ~ одинаковое кол-во сегментов и из этого же следует что количество memory-mapped областей на всех нодах меняется очень сходно, практически одинаково в рамках процесса Kafka. Ну и соответственно за рамки дефолтного придела все ноды вышли в примерно одно и тоже время - почему и упали также +- в одно время с разницей в пару минут.

Oeaoo 12 апр 2025 в 05:18

Пытаюсь для себя сообразить как условная фича правильной архитектуры (равномерное распределение нагрузки) обратилась в самую настоящую проблему. Понятно, что проблема могла бы решаться предвидением настройки или оперативным реагированием на алерты, но может как-то нужно иначе строить архитектуру чтобы даже такие вещи ломали систему лишь частично и постепенно?..

blacksan 12 апр 2025 в 15:34

Ну устойчивую архитектуру от всего наверно сложно построить, тут скорее вопрос целесообразности, ведь от увеличения кол-ва девяток после запятой в SLA стоимость решения растет и далеко не линейно)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий