Comments 5
Очень интересно, что скажете по поводу исполняемых скриптов как вариант действий на триггеры?
И как смотрите на вложенность групп, есть ли какие то советы как правильно группировать по уровням?
Немного поздно. Путь боли. Простые операции, типа чистка темпа или рестарт службы( это ничего не чинит обычно, и будет петля рестартов), попробовать можно. Вся логика живет в скриптах, плюс, не забывайте все огораживать тегами, если процесс/сервис популярный, будет срабатывать не на том. Если флапает, так же череда пере запусков. Что-то сложное, лучше через Ansible AWX/Rundeck. Про иерархию, для базовой структуры и RBAC(владение/доступ/локация) глубиной 2–3 уровня, а критичность, сервис и env выносите в теги.
Очень интересно и полезно. Жду продолжения.
Спасибо большое за то, что поделились ценным опытом!
Уже, видимо, посчитали, что не зашло и продолжения не будет, но мне было очень интересно. Я несколько лет работаю с zabbix, но в довольно узкой сфере веб-серверов. Поэтому свои задачи я им решаю хорошо, а вот про решение чужих задач только читаю иногда.
Статья написана несколько сложным языком. Много английских слов там, где можно было не смешивать языки и много аббревиатур без их расшифровки. Приходилось попутно гуглить, но я справился. Возможно, поэтому статья и не особо зашла.
Однако, я вижу, что опыт у вас огромный и мне лично было бы интересно почитать другие статьи на эту тему.
Благодарю. Да, хабр забросил. Но, из хорошего, собрал всё в кучу. Не знаю, даст ли вставить ссылку. https://slowdownyw.github.io/zabbix-enterprise-guide/ Но, гуглится по за просу "Zabbix Enterprise Guide на русском", репа на гитхабе. Успехов!
Антипаттерны Zabbix в крупной инфраструктуре: каталог базовых граблей