Как стать автором
Обновить

Комментарии 12

Свои решения это всегда круто. У себя для этого используем smarctl exporter - prometheus - grafana. К ней можно прикрутить уже плагины на slack и прочие сервисы, или пользоваться alertManager.

В компании для внутренних сервисов и облачной инфраструктуры активно используется Zabbix. Он интегрирован с пользователем alertManager в Jira, что позволяет автоматически создавать задачи. Далее, эти задачи дублируются в проекте инженеров для согласования и оперативных действий с дежурной сменой. Это позволяет довольно быстро и эффективно реагировать на проблемы и производить замены комплектующих даже в выходные и праздничные дни. Этот процесс также распространен на другие компоненты инфраструктуры.

троллейбус_буханка.джипег

Ради искусства. Вы еще не видели, что способен сотворить инженер из пачкордов.

Спойлер

Например, плетку.

Джунов на галере подгонять?

У меня только один вопрос: а что Вы делать будете, если когда этот Ваш Телеграм — ффсё?

В компании существует отдел, занимающийся внутренними сервисами и вспомогательными инструментами. Думаю, в какой-то момент вся эта история перейдет в общий web-сервис со множеством вспомогательных инструментоа. Ну а пока боты, созданные инженерами в Телеграме, являются быстрым решением их задач.

Я у себя на сервисе настроил мониторинг всех серверов через Zabbix, в том числе состояние дисков. При этом в зависимости от уровней серьезности сообщения отправляются либо на E-Mail, либо на E-Mail+SMS, либо на E-Mail+SMS+Звонок_синтезированным_голосом+Отправка_в_Телеграм

И все, это, конечно, можно настраивать.
Для отправки SMS и голосовых звонков используются разные провайдеры.

Как я писал в комментарии выше, в компании также используется Zabbix. Из идей: можно было бы клиентам услуг Selectel добавлять интеграции с тикет системой. Например, по API создавать тикеты о планировании замены дисков или других комплектующих.

Тикеты да, создавать можно, только вот стоит ли это автоматизировать?
Обычно когда я получаю критичные сообщения от Zabbix, то вначале пытаюсь понять сам, что случилось и что делать.

Вот если бы у вас была служба администрирования серверов, которой можно было бы поручить решение подобных задач, то тут да, им можно было бы отправлять такие тикеты, созданные zabbix.

С одной стороны, да, в каждом тикете еще необходимо потвердеть действия, к которым мог бы приступить инженер. С другой, все зависит от количества арендуемых серверов и количества затраченных ресурсов. Для тех, у кого парк из десятков серверов, довольно длительно разбирать каждый. При правильно настроенном процессе на своевременную замену несправной комплектующей (блок питания, CPU, ОЗУ, диски, оптические трансиверы) риск возникновения проблем снижается.

К сожалению, услуги по администрированию сейчас не предоставляются. Техническая поддержка старается предлагать помощь партнеров.

К сожалению, когда после перезагрузки одного из моих арендованных серверов произошла остановка из-за проблем с RAID-массивом, мне в тикете ничего такого не предложили - никаких партнеров. Хорошо что мне помог один мой хороший знакомый, а то была бы беда.

Полагаю, было бы неплохо вашей компании пересмотреть возможность предоставления подобных услуг. На мой взгляд, было бы очень даже ориентировано на клиентов!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий