С одной стороны, да, в каждом тикете еще необходимо потвердеть действия, к которым мог бы приступить инженер. С другой, все зависит от количества арендуемых серверов и количества затраченных ресурсов. Для тех, у кого парк из десятков серверов, довольно длительно разбирать каждый. При правильно настроенном процессе на своевременную замену несправной комплектующей (блок питания, CPU, ОЗУ, диски, оптические трансиверы) риск возникновения проблем снижается.
К сожалению, услуги по администрированию сейчас не предоставляются. Техническая поддержка старается предлагать помощь партнеров.
Как я писал в комментарии выше, в компании также используется Zabbix. Из идей: можно было бы клиентам услуг Selectel добавлять интеграции с тикет системой. Например, по API создавать тикеты о планировании замены дисков или других комплектующих.
В компании существует отдел, занимающийся внутренними сервисами и вспомогательными инструментами. Думаю, в какой-то момент вся эта история перейдет в общий web-сервис со множеством вспомогательных инструментоа. Ну а пока боты, созданные инженерами в Телеграме, являются быстрым решением их задач.
В компании для внутренних сервисов и облачной инфраструктуры активно используется Zabbix. Он интегрирован с пользователем alertManager в Jira, что позволяет автоматически создавать задачи. Далее, эти задачи дублируются в проекте инженеров для согласования и оперативных действий с дежурной сменой. Это позволяет довольно быстро и эффективно реагировать на проблемы и производить замены комплектующих даже в выходные и праздничные дни. Этот процесс также распространен на другие компоненты инфраструктуры.
Смотрите, бот — это инструмент инженеров, придуманный для локальной оптимизации процессов.
Если смотреть с точки зрения компании, то мы больше специализируемся в сторону предоставления инфраструктурной части.
Для создания zabbix модуля нужно продумать много процессов: разработка модулей к клиенту zabbix, включение данных модулей в автоматическую установку различных ОС по умолчанию, принудительное (по умолчанию) подключение к мониторингу в виде серверной части zabbix, отслеживание и уведомление пользователей арендуемого сервера, своевременное обновление, изменение внутренних регламентов по отслеживанию. Все они содержат достаточно много нюансов и касаются по большей части разработки ПО для поддержания инфраструктуры. Надеюсь, компания когда-нибудь придет и к таким продуктам.
К сожалению, сейчас отслеживание состояния комплектующих выделенных серверов — задача пользователя. Для тех, кому не хотелось бы дополнительно организовывать мониторинг и следить за состоянием комплектующих, предлагаются облачные решения. Существуют кейсы, когда все-таки нужно развернуть инфраструктуру на полноценном железе, но их меньше и здесь уже непосредственно можно задуматься о собственном мониторинге.
Можете поделиться, как вы видите реализацию автоматического модуля к Zabbix?
Далеко не на всех МП различных поколений IPMI (IMC, iDRAC, iLO, SIM, ASMB, Intel ME) / BMC дает возможность считывать данные по дискам. А в случаях, где возможность есть, дело ограничивается статусом (для случая iLO чтением через hpasm, хотя я могу ошибаться).
Думаю, для создания такого полноценного продукта, как мониторинг информации через IPMI, нужно еще какое-то время. Это связанно как с обновлением модулей BMC со стороны производителей, так и с полноценным обновлением парка серверов на последние поколения МП.
В компании рассматривается концепция отображения данных IMPI в панели управления. Однако когда можно будет это потрогать, на данный момент неизвестно.
Пока такая идея не рассматривалась, поинтересуюсь у коллег и дам знать. А вам было бы интересно настроить event'ы о достижении порогов для своевременных замен или вы хотели бы как-то иначе использовать?
С одной стороны, да, в каждом тикете еще необходимо потвердеть действия, к которым мог бы приступить инженер. С другой, все зависит от количества арендуемых серверов и количества затраченных ресурсов. Для тех, у кого парк из десятков серверов, довольно длительно разбирать каждый. При правильно настроенном процессе на своевременную замену несправной комплектующей (блок питания, CPU, ОЗУ, диски, оптические трансиверы) риск возникновения проблем снижается.
К сожалению, услуги по администрированию сейчас не предоставляются. Техническая поддержка старается предлагать помощь партнеров.
Ради искусства. Вы еще не видели, что способен сотворить инженер из пачкордов.
Спойлер
Например, плетку.
Как я писал в комментарии выше, в компании также используется Zabbix. Из идей: можно было бы клиентам услуг Selectel добавлять интеграции с тикет системой. Например, по API создавать тикеты о планировании замены дисков или других комплектующих.
В компании существует отдел, занимающийся внутренними сервисами и вспомогательными инструментами. Думаю, в какой-то момент вся эта история перейдет в общий web-сервис со множеством вспомогательных инструментоа. Ну а пока боты, созданные инженерами в Телеграме, являются быстрым решением их задач.
В компании для внутренних сервисов и облачной инфраструктуры активно используется Zabbix. Он интегрирован с пользователем alertManager в Jira, что позволяет автоматически создавать задачи. Далее, эти задачи дублируются в проекте инженеров для согласования и оперативных действий с дежурной сменой. Это позволяет довольно быстро и эффективно реагировать на проблемы и производить замены комплектующих даже в выходные и праздничные дни. Этот процесс также распространен на другие компоненты инфраструктуры.
Смотрите, бот — это инструмент инженеров, придуманный для локальной оптимизации процессов.
Если смотреть с точки зрения компании, то мы больше специализируемся в сторону предоставления инфраструктурной части.
Для создания zabbix модуля нужно продумать много процессов: разработка модулей к клиенту zabbix, включение данных модулей в автоматическую установку различных ОС по умолчанию, принудительное (по умолчанию) подключение к мониторингу в виде серверной части zabbix, отслеживание и уведомление пользователей арендуемого сервера, своевременное обновление, изменение внутренних регламентов по отслеживанию. Все они содержат достаточно много нюансов и касаются по большей части разработки ПО для поддержания инфраструктуры. Надеюсь, компания когда-нибудь придет и к таким продуктам.
К сожалению, сейчас отслеживание состояния комплектующих выделенных серверов — задача пользователя. Для тех, кому не хотелось бы дополнительно организовывать мониторинг и следить за состоянием комплектующих, предлагаются облачные решения. Существуют кейсы, когда все-таки нужно развернуть инфраструктуру на полноценном железе, но их меньше и здесь уже непосредственно можно задуматься о собственном мониторинге.
Можете поделиться, как вы видите реализацию автоматического модуля к Zabbix?
Далеко не на всех МП различных поколений IPMI (IMC, iDRAC, iLO, SIM, ASMB, Intel ME) / BMC дает возможность считывать данные по дискам. А в случаях, где возможность есть, дело ограничивается статусом (для случая iLO чтением через hpasm, хотя я могу ошибаться).
Думаю, для создания такого полноценного продукта, как мониторинг информации через IPMI, нужно еще какое-то время. Это связанно как с обновлением модулей BMC со стороны производителей, так и с полноценным обновлением парка серверов на последние поколения МП.
В компании рассматривается концепция отображения данных IMPI в панели управления. Однако когда можно будет это потрогать, на данный момент неизвестно.
Пока такая идея не рассматривалась, поинтересуюсь у коллег и дам знать. А вам было бы интересно настроить event'ы о достижении порогов для своевременных замен или вы хотели бы как-то иначе использовать?