Comments / Profile of r

r_j Apr 1 at 06:18

Поменял график с легендой на более подходящий для примера.

r_j Mar 19 at 07:14

На самом деле, действительно местами может быть что-то неочевидно по скриншотам. Да и объяснять особенности визуализации по скриншотам — сложно.

Появилась идея сделать какой-нить дашборд для примера, с живыми панелями с метриками. Как-нибудь попробую сделать что-то такое.

Спасибо за ваши замечания!

r_j Mar 19 at 06:24

Да нифига непонятно. Я даже прочитав текст не понял, о чём речь. Впрочем, не важно. Важно то. что на первом я более-менее могу проследить каждую линию, а на втором красная в правой части вообще перестаёт быть видна. Это очень не наглядно.

Вот так наглядно?

r_j Mar 19 at 06:08

Понятия не имею, что такое репликас, но я из этой картинки совершенно не могу понять: 80 - это слишком мало или слишком много?

раз красным, значит — значит важно обратить внимание, в данном случае прийдет алерт.

Кстати, 16 из 18 это 89%, а не 80. Так что данная картинка не столько отвечает на вопросы, сколько задаёт новые.

Поправил скриншот и подпись, действительно было неправильно.

Зато текст и заголовков и легенд непонятный.

Average CPU Usage — что тут непонятно?

И ещё я бы не стал смешивать разные единицы измерений.

Но тут же две отдельные панели, они просто оказались рядом, специального смысла тут нет.

Да нифига непонятно. Я даже прочитав текст не понял, о чём речь. Впрочем, не важно. Важно то. что на первом я более-менее могу проследить каждую линию, а на втором красная в правой части вообще перестаёт быть видна. Это очень не наглядно.

Вы же понимаете, что такое стекирование?

Вообще не видно. Если бы не это примечание, то я бы сроду не догадался, что каждая строка - это отдельная метрика.

В скриншот не вошли названия метрик (подписи справа) — попросили убрать для соблюдения NDA.

П.С. Я понимаю, примеры могли быть сделаны для демонстрации только одного аспекта, но странно выглядит статья, где автор что-то рекомендует, а потом в следующей же картинке игнорирует все свои рекомендации.

Где именно я это делаю?

r_j Mar 15 at 06:38

Про row добавлю, действительно важная штука.

А вот напихать всех метрик для разной ЦА на один дашборд — не самая лучшая идея. Дашборд постепенно станет очень тяжелым, и как показывает практика — такое соседство рано или поздно станет неудобно всем (для удовлетворения нескольких ЦА одних переменных-выпадашек сколько будет!). В такие моменты лучше распилить дашборд на несколько.

r_j Mar 14 at 14:06

а как правильно, "приборная доска"?

Устройство протокола DHCP в технических подробностях/недостатки DHCP. Атака DHCP Starvation

r_j Jul 11 2024 at 21:43

Хорошая статья! В начале есть опечатка "DHCPDISOCVER", нужно заменить на "DHCPDISCOVER".

r_j Apr 17 2024 at 21:03

Спасибо! Приятно слышать, что доклад и статья оказались полезны.

r_j Apr 10 2024 at 22:13

24 кластера с данными насчитал.

Суммарный объем данных на дисках с учетом реплик: ~7.43 PiB.

У каждого кластера обязательно должен быть мастер, иначе это не кластер, а набор независимых нод (на самом деле нод, которые имеют роль мастера, должно быть минимум 3, для кворума, из которого активный мастер всегда 1). В связи с высокой нагрузкой на data-ноды, мы выносим роль мастера на отдельные (небольшие) ноды.

Впрочем, это всё уже было описано в статье.

r_j Apr 10 2024 at 21:28

Система нормально себя чувствует, держит нагрузки.

Elastic Proxy Cluster — это не самописное, а просто отдельностоящий кластер Эластика, настроенны на Cross Cluster Search (средствами самого Эластика можно настроить такой кластер, чтобы он искал во всех кластерах с данными, при этом в самом proxy cluster данных нет, он только проксирует поиски и объединяет данные из результатов поисков).

r_j Sep 7 2023 at 18:50

На самом деле я бы почитал статью с подробностями и скриншотами

r_j Sep 7 2023 at 18:47

Про мониторинг я не словом. SLA нет, мы (как команда) не представляем платный сервис клиентам. За год, пока я с этой командой uptime 100%, остановка критических сервисов команды - это остановка основного бизнеса компании

Ну раз SLA нет, и требования грепать за последние 15 мин., то наверно так еще норм. У нас были другие требования.

Интересно как выглядит grep с получением статистики в виде графика во времени.

r_j Sep 7 2023 at 12:05

Про то, что если ресурсы не считать и не привязывать к владельцам — рано или поздно ресурсы закончатся, даже спорить не буду, полностью согласен.

r_j Sep 7 2023 at 12:04

Интересны подробности:

В какой компании так делают, если не секрет?
Какой SLA у сервисов с таким мониторингом?
Сколько сервисов так логирует?
Сколько инженеров суммарно в командах, которые так ищут по логам?
Все логи в кучу файликов складываете, или есть какая-то систематизация, разграничение доступа, или прям всем доступны все логи, и еще извне?
Как проверяете, что фичи выкатились на прод ожидаемо (например, разработчики включили фича-флаг или просто фичу выкатили новую сложную, и следят за подробностями работы приложения)?
Есть ли процесс проверки логов на наличие нежелательных данных (sensitive data, перс. данные и тд)?
Нет ни одного алерта/дашборда по логам?

r_j Sep 7 2023 at 11:52

не очень часто, может пару раз в день для одной группы, при этом Кафка часто партиции назначает на того же консьюмера и процесс занимает секунды для каждой группы отдельно

r_j Sep 6 2023 at 07:40

Спасибо за замечания. Исправил англицизмы, но возможно не все. Проф. деформация дает о себе знать :(

r_j Sep 6 2023 at 06:26

Один кластер Kafka в каждом ДЦ на всех пользователей. У каждого клиента есть как минимум одна из основных сущностей Sage — группа (group), бывает что у клиента есть несколько таких групп. Каждая группа логов пишется в отдельный топик.
Входной поток на Кафке: в пике 500 МБ (ДЦ1) + 400 МБ (ДЦ2) — сообщения могут приходить как в сжатом, так и в несжатом виде. При вычитке и обработке на переливалке после расжатия получается уже суммарно примерно те самые 3,5 ГБ/с в пике.
В каждом кластере Kafka по 5 брокеров.
Обычно на топик создается 10 партиций, есть большие группы где поднимали до 20 партиций. Consumer group переливалки — один на кластер.
Семантика exactly-once не обеспечивается. Но для каждого записанного лога проставляется (кроме исходного времени внутри самого события) временная метка, когда сообщение было взято в обработку + id лога — можно понять, что событие повторно записано. Еще есть ряд проверок при записи события для минимизации ошибок на стороне клиента, например проверяется что событие не очень далеко из прошлого (на случай сбоя и попытки переотправки очень старых логов заново).
mq — имеется ввиду RabbitMQ? Не рассматривали, кажется что Кафка нас пока устраивает. Изначально когда выбирали Кафку, понравилось что есть очень много готовых клиентов для отправки, да и поддержка в библиотеках тоже есть во всех мейнстримовых языках. Схемы данных мы пока еще не вводили, но мысли такие есть (как минимум для больших клиентов, чтобы было меньше неожиданностей на стороне Elastic, и даже оптимизации можно будет сделать под схему).

r_j Sep 3 2023 at 12:42

Еще есть логи, на которых решаются задачи SOC — тут 14 дней часто не достаточно. Также на логах решаются аналитические задачи, которые также требуют хранить логи дольше.

r_j Sep 3 2023 at 12:33

В нашем случае логи льют сами пользователи, и группы под эти логи тоже создают сами пользователи, как показывает практика — редко кто из пользователей о таком задумывается. Но идея полезная, запишем в список на проработку, спасибо!

r_j Sep 3 2023 at 12:30

Храним логи по умолчанию 14 дней, для некоторых клиентов — дольше.

Почему так много логов — вопрос риторический, всем всегда хочется иметь как можно больше логов для разработки/тестирования/мониторинга.

APM — централизованно нет, но в компании есть трейсинг.

Метрики на основе логов — есть такая идея, сделать как сервис простую конвертилку, но еще не успели реализовать.