Pull to refresh
8
0
Nikita Maslyannikov @rand000m

SRE | DevOps

Send message
Раньше у нас были сервера, на которых было много баз. Эти базы росли и им стало тесно вместе. Мы начали процесс переноса больших/важных баз на отдельные сервера. Приложение не всегда переключалось на новые сервера без даунтайма. Также MaintenencePlan или бекапы пару раз слишком нагружали сервера, от чего страдало время выполнения запросов.
Возможно я не достаточно детально осветил этот момент. Мы обнаружили это по метрикам ELK. Если бы он лежал — такие же показания были и на прочих метриках.
Помимо ELK есть еще метрики nginx-module-vts, которые лежат Prometheus. Особо важные метрики перекладываются в graphite кластер и там остаются на годы, подчиняяcь retention политикам кластера.
В мониторинг сильно не углублялся, это большая тема на отдельную статью.
Мы используем nomad+consul в качестве оркестратора контейнеров. По этому на фронтах апстримы обновляются consul_template.
Поскольку у нас постоянно какие-то сервисы едут на бой — consul-template постоянно перезагружает nginx. Когда несколько сервисов едут на бой одновременно — nginx перезагружается действительно часто.
Как часто вы тюните это процент? Абсолютное число запросов не учитываете вообще?

Пока что не было нужды тюнить эти цифры, но за абсолютными значениями поглядываем.

Это сколько раз в секунду вы nginx релоадите, чтобы такое поведение заметно сказалось на балансировке?

5-15 раз в минуту.

Information

Rating
Does not participate
Works in
Date of birth
Registered
Activity