Обновить

Telegram-бот для диагностики дисков в серверах. Как я собрал инфраструктуру и что использовал для разработки

Время на прочтение15 мин
Охват и читатели5.9K
Всего голосов 38: ↑38 и ↓0+38
Комментарии12

Комментарии 12

Свои решения это всегда круто. У себя для этого используем smarctl exporter - prometheus - grafana. К ней можно прикрутить уже плагины на slack и прочие сервисы, или пользоваться alertManager.

В компании для внутренних сервисов и облачной инфраструктуры активно используется Zabbix. Он интегрирован с пользователем alertManager в Jira, что позволяет автоматически создавать задачи. Далее, эти задачи дублируются в проекте инженеров для согласования и оперативных действий с дежурной сменой. Это позволяет довольно быстро и эффективно реагировать на проблемы и производить замены комплектующих даже в выходные и праздничные дни. Этот процесс также распространен на другие компоненты инфраструктуры.

троллейбус_буханка.джипег

Ради искусства. Вы еще не видели, что способен сотворить инженер из пачкордов.

Спойлер

Например, плетку.

Джунов на галере подгонять?

У меня только один вопрос: а что Вы делать будете, если когда этот Ваш Телеграм — ффсё?

В компании существует отдел, занимающийся внутренними сервисами и вспомогательными инструментами. Думаю, в какой-то момент вся эта история перейдет в общий web-сервис со множеством вспомогательных инструментоа. Ну а пока боты, созданные инженерами в Телеграме, являются быстрым решением их задач.

Я у себя на сервисе настроил мониторинг всех серверов через Zabbix, в том числе состояние дисков. При этом в зависимости от уровней серьезности сообщения отправляются либо на E-Mail, либо на E-Mail+SMS, либо на E-Mail+SMS+Звонок_синтезированным_голосом+Отправка_в_Телеграм

И все, это, конечно, можно настраивать.
Для отправки SMS и голосовых звонков используются разные провайдеры.

Как я писал в комментарии выше, в компании также используется Zabbix. Из идей: можно было бы клиентам услуг Selectel добавлять интеграции с тикет системой. Например, по API создавать тикеты о планировании замены дисков или других комплектующих.

Тикеты да, создавать можно, только вот стоит ли это автоматизировать?
Обычно когда я получаю критичные сообщения от Zabbix, то вначале пытаюсь понять сам, что случилось и что делать.

Вот если бы у вас была служба администрирования серверов, которой можно было бы поручить решение подобных задач, то тут да, им можно было бы отправлять такие тикеты, созданные zabbix.

С одной стороны, да, в каждом тикете еще необходимо потвердеть действия, к которым мог бы приступить инженер. С другой, все зависит от количества арендуемых серверов и количества затраченных ресурсов. Для тех, у кого парк из десятков серверов, довольно длительно разбирать каждый. При правильно настроенном процессе на своевременную замену несправной комплектующей (блок питания, CPU, ОЗУ, диски, оптические трансиверы) риск возникновения проблем снижается.

К сожалению, услуги по администрированию сейчас не предоставляются. Техническая поддержка старается предлагать помощь партнеров.

К сожалению, когда после перезагрузки одного из моих арендованных серверов произошла остановка из-за проблем с RAID-массивом, мне в тикете ничего такого не предложили - никаких партнеров. Хорошо что мне помог один мой хороший знакомый, а то была бы беда.

Полагаю, было бы неплохо вашей компании пересмотреть возможность предоставления подобных услуг. На мой взгляд, было бы очень даже ориентировано на клиентов!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
slc.tl
Дата регистрации
Дата основания
Численность
1 001–5 000 человек
Местоположение
Россия
Представитель
Александр Шилов