Comments / Profile of rand000m / Habr

Nikita Maslyannikov @rand000m

SRE | DevOps

Profile Publications 1Comments 4Bookmarks

rand000m May 3 2020 at 11:43

Раньше у нас были сервера, на которых было много баз. Эти базы росли и им стало тесно вместе. Мы начали процесс переноса больших/важных баз на отдельные сервера. Приложение не всегда переключалось на новые сервера без даунтайма. Также MaintenencePlan или бекапы пару раз слишком нагружали сервера, от чего страдало время выполнения запросов.

Look

Топ факапов Циан

rand000m May 2 2020 at 16:57

Возможно я не достаточно детально осветил этот момент. Мы обнаружили это по метрикам ELK. Если бы он лежал — такие же показания были и на прочих метриках.
Помимо ELK есть еще метрики nginx-module-vts, которые лежат Prometheus. Особо важные метрики перекладываются в graphite кластер и там остаются на годы, подчиняяcь retention политикам кластера.
В мониторинг сильно не углублялся, это большая тема на отдельную статью.

Look

Топ факапов Циан

rand000m Apr 30 2020 at 17:45

Мы используем nomad+consul в качестве оркестратора контейнеров. По этому на фронтах апстримы обновляются consul_template.
Поскольку у нас постоянно какие-то сервисы едут на бой — consul-template постоянно перезагружает nginx. Когда несколько сервисов едут на бой одновременно — nginx перезагружается действительно часто.

Look

Топ факапов Циан

rand000m Apr 30 2020 at 15:10

Как часто вы тюните это процент? Абсолютное число запросов не учитываете вообще?

Пока что не было нужды тюнить эти цифры, но за абсолютными значениями поглядываем.

Это сколько раз в секунду вы nginx релоадите, чтобы такое поведение заметно сказалось на балансировке?

5-15 раз в минуту.

Look