
Комментарии 9
Дело хорошее, но сразу вылезает вопрос безопасности (sudo скрипту, который получает инструкции от AI – "что может пойти не так?")
Хорошо бы понимать все уровни изоляции, которые есть в скрипте.
С этим могут быть вопросы да. Поэтому кроме режима MCP можно и просто собирать json и потом его уже закидывать в AI на анализ.
Это один из слоёв. Но для сбора, я так понимаю, всё ещё требуется скрипт с sudo. Т.е. как минимум надо этот скрипт сделать минимальным и предельно прозрачным, чтобы проверить как следует (а то окажется чисто случайно, что при определённых условиях он накладывает патч Бармина).
Большое спасибо, шикарная штука =)
ДЫк а что нащет постоянного автомаьического сбора метрик и логов в централизоыанную систему. А там уже аналитика и алармы. Автоматом. В том числе и агентов туда пускать уже не так опасно.
P.s. многие давно не ходят по ssh руками. И даже его не включают))
Фишка melisai в трейсинге системных вызовов ядра. Один нагруженный процесс это тысячи syscall'ов в секунду. Если это всё гнать в Loki или Elastic, они просто захлебнутся, да и смысла нет ценность в конкретной цепочке вызовов, стеке, таймингах между ними.
В целом она дает очень классный эффект в сочетание с классическими метриками и например с MCP для Виктории метрикс, когда агент смотрит на общие проблемы в метриках. И запускает уже этот бинарь на конкретные процессы и т.д.
А почему не использовать стандартные решения типа графаны и прометеуса? Прометеус вроде из коробки собирает много метрик, и можно дополнительные дополнительные плагины ставить. И по одному дашборду обычно можно быстро сориентироваться, где проблема
Это приложение для глубокого дебага, а не мониторинга. Обычные метрики могут показать, например, что у тебя забит CPU или диск. Но они скорее всего не покажут, что софт прерывания выполняются только на одном ядре и поэтому переполняется RX-буфер. Или что у тебя лаги из-за direct reclaim в памяти. Или что высокое латенси на AppArmor-хуках при пересылке пакетов между контейнерами. Или что процессы тротлятся из-за кривых настроек CPU-шедулера. А это всё реальные кейсы, которые я этим приложением ловил при оптимизации.
Как я за 15 лет устал диагностировать серверы руками и сделал инструмент, который делает это за 60 секунд