Comments / Profile of NikolaySivko / Habr

How to become an author

Николай Сивко @NikolaySivko

User

Profile Publications 15 Comments 67 Bookmarks 22

Обзор Coroot — Open Source-утилиты для наблюдаемости: установка, настройка, возможности, плюсы и минусы

NikolaySivko Jul 7 2023 at 18:26

В Pyroscope тоже есть ретеншн (https://github.com/coroot/helm-charts/blob/main/charts/coroot/values.yaml#L106), возможно баг какой-то.

Про кликхаус - можно его исключить из установки (потыкайте галочки тут https://coroot.com/docs/coroot-community-edition/getting-started/installation) и настроить связку otel-collector + clickhouse + coroot руками.

0

Обзор Coroot — Open Source-утилиты для наблюдаемости: установка, настройка, возможности, плюсы и минусы

NikolaySivko Jun 16 2023 at 12:07

Спасибо за обзор и конструктивный фидбэк! (disclaimer: я причастен к разработке Coroot)

+10

Тонкая настройка балансировки нагрузки

NikolaySivko Oct 19 2019 at 10:00

Я не смотрел и не тестировал haproxy 2, так что по существу сказать ничего не могу.

0

Тонкая настройка балансировки нагрузки

NikolaySivko Oct 3 2018 at 14:01

http-check expect status 200 отвечает за выкидывания сервера из балансировки при ответе не 200 статусом на health check (синтетический запрос от haproxy на бэкенд, выполняемый раз в интервал времени).
Retry — повторная попытка отправить пользовательский запрос на другой бэкенд, если один из бэкендов уже ответил не200 статусом на этот запрос.

В статье говорится о том, что haproxy не умеет делать именно retry.

0

Тонкая настройка балансировки нагрузки

NikolaySivko Oct 3 2018 at 13:09

Речь шла о пользовательском запросе, а не о health check.

0

Kubernetes в production: сервисы

NikolaySivko Sep 24 2018 at 20:25

Не до конца понял вопрос.
Если про ретраи между дохлыми апстримами, то количество ретраев надо ограничивать (в штуках, по времени). Снизить вероятность попадания на дохлый апстрим можно health check'ами. Вот тут я про все это рассказывал.

0

Тонкая настройка балансировки нагрузки

NikolaySivko Sep 18 2018 at 11:26

Про Apache Ignite сам ничего не знаю, но у них же типа "вендора" есть (gridgain если не ошибаюсь). Может просто консалтинг купить — это же быстрый способ самому в код не лезть? Более того, если даже есть задача растить экспертизу внутри команды, это будет хорошим бустом.

0

Анатомия инцидента, или как работать над уменьшением downtime

NikolaySivko Sep 17 2018 at 16:49

Автоматом можно надежно посчитать только время от уведомления до Ack.
Detection можно глазами на графиках увидеть: начались ошибки/провал бизнес-метрик, а уведомление мы знаем когда было.

0

Тонкая настройка балансировки нагрузки

NikolaySivko Sep 14 2018 at 16:00

Спору нет, если редко, но у многих 5 раз в день деплой с таким бугорком.

0

Тонкая настройка балансировки нагрузки

NikolaySivko Sep 14 2018 at 13:14

Хорошая опция, но это не про повторную попытку, она лишь может пометить данный сервер "мертвым" не дожидаясь результатов health check или спровоцировать health check. Я же говорил именно про ретрай.

0

PostgreSQL: как и почему пухнет WAL

NikolaySivko Sep 3 2018 at 20:23

Справедливости ради замечу: коллеги DBA подсказывают, что длинная транзакция не может блокировать работу checkpointer'а. Так что в данном случае проблема в чем-то другом, но в чем именно по метрикам пока не понятно.

+1

Про износ SSD на реальных примерах

NikolaySivko Aug 28 2018 at 15:07

Согласен с вами, тут явная проблема в наших процессах. Мы сейчас активно над этим работаем. Спасибо за ваши пожелания!

0

Про износ SSD на реальных примерах

NikolaySivko Aug 27 2018 at 17:44

Это я так показал "сжигание" — то, как уменьшается показатель. Просто показать 100->92 получалось не особо наглядно.

0

Про износ SSD на реальных примерах

NikolaySivko Aug 27 2018 at 17:38

Написал вам в личку.

0

Про износ SSD на реальных примерах

NikolaySivko Aug 27 2018 at 17:12

Кстати, ниже 1% индикатор не опускается никогда

0

Про износ SSD на реальных примерах

NikolaySivko Aug 27 2018 at 17:09

Да, именно так, но так как вендоры ничего другого не предлагают, пользователям приходится ориентироваться на этот индикатор. Да и хостеры диски меняют по этому же критерию.

0

Про износ SSD на реальных примерах

NikolaySivko Aug 27 2018 at 17:06

Мне кажется персентили тут ничего не скажут, так как нагрузка разная. Максимальная скорость износа (которую я показал) позволит жить на таких дисках 2 года.
Но с другой стороны, если у вас дедик и хостер меняет диски по запросу, это не такая уж и проблема (если не брать во внимание, что у hetzner диски не hot-swap).

0

Про износ SSD на реальных примерах

NikolaySivko Aug 27 2018 at 16:38

Да, в этом случае можно искусственно убивать один из дисков быстрее, например отрезав партицию и заюзав ее под своп или redis:)

0

Простые метрики и способ сэкономить время при поиске проблем в инфраструктуре

NikolaySivko Aug 21 2018 at 10:44

Детектор аномалий мы будем делать, мы периодически пробуем разные подходы на реальных данных.

0

Простые метрики и способ сэкономить время при поиске проблем в инфраструктуре

NikolaySivko Aug 20 2018 at 17:05

В датацентре что-то было с отводом тепла, само кончилось через 40 минут. По графику скорости падения температуры мне в FB подсказали, что у нашего хостера жидкостное охлаждение процов и что-то было с циркуляцией хладагента.

0

1