dmitrii_maksimov_develop6 апр в 09:16

Как я за 15 лет устал диагностировать серверы руками и сделал инструмент, который делает это за 60 секунд

5 мин

12K

DevOps * IT-инфраструктура *

Из песочницы

+37

Комментарии 9

aamonster 6 апр в 09:52

Дело хорошее, но сразу вылезает вопрос безопасности (sudo скрипту, который получает инструкции от AI – "что может пойти не так?")
Хорошо бы понимать все уровни изоляции, которые есть в скрипте.

dmitrii_maksimov_develop 6 апр в 11:14

С этим могут быть вопросы да. Поэтому кроме режима MCP можно и просто собирать json и потом его уже закидывать в AI на анализ.

aamonster 6 апр в 11:22

Это один из слоёв. Но для сбора, я так понимаю, всё ещё требуется скрипт с sudo. Т.е. как минимум надо этот скрипт сделать минимальным и предельно прозрачным, чтобы проверить как следует (а то окажется чисто случайно, что при определённых условиях он накладывает патч Бармина).

dmitrii_maksimov_develop 6 апр в 11:29

Для BPF тулз, да, требуется sudo. Без них к сожалению можно собрать минимальный пакет данных, но там мало интересного будет.

В целом я буду очень рад если кого то заинтересует до такой степени что бы поучаствовать в проекте и сделать ревью по теме безопасности например.

exelens 7 апр в 17:29

Большое спасибо, шикарная штука =)

white_crow 7 апр в 18:09

ДЫк а что нащет постоянного автомаьического сбора метрик и логов в централизоыанную систему. А там уже аналитика и алармы. Автоматом. В том числе и агентов туда пускать уже не так опасно.

P.s. многие давно не ходят по ssh руками. И даже его не включают))

dmitrii_maksimov_develop 8 апр в 09:35

Фишка melisai в трейсинге системных вызовов ядра. Один нагруженный процесс это тысячи syscall'ов в секунду. Если это всё гнать в Loki или Elastic, они просто захлебнутся, да и смысла нет ценность в конкретной цепочке вызовов, стеке, таймингах между ними.

В целом она дает очень классный эффект в сочетание с классическими метриками и например с MCP для Виктории метрикс, когда агент смотрит на общие проблемы в метриках. И запускает уже этот бинарь на конкретные процессы и т.д.

lunarshade 9 апр в 05:10

А почему не использовать стандартные решения типа графаны и прометеуса? Прометеус вроде из коробки собирает много метрик, и можно дополнительные дополнительные плагины ставить. И по одному дашборду обычно можно быстро сориентироваться, где проблема

dmitrii_maksimov_develop 9 апр в 06:43

Это приложение для глубокого дебага, а не мониторинга. Обычные метрики могут показать, например, что у тебя забит CPU или диск. Но они скорее всего не покажут, что софт прерывания выполняются только на одном ядре и поэтому переполняется RX-буфер. Или что у тебя лаги из-за direct reclaim в памяти. Или что высокое латенси на AppArmor-хуках при пересылке пакетов между контейнерами. Или что процессы тротлятся из-за кривых настроек CPU-шедулера. А это всё реальные кейсы, которые я этим приложением ловил при оптимизации.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий