Как я внедрил AI в DevOps и перестал бояться ночных алертов / Песочница / Хабр

P.S. Это моя первая статья на Хабре. Если тема вас заинтересовала — буду рад фидбеку и предложениям: о чём вы хотите, чтобы я написал в следующий раз? Больше практики? Конкретные тулзы? Провальные кейсы? Пишите в комментах — всё читаю, на всё отвечаю.

Если бы пять лет назад мне сказали, что я буду использовать машинное обучение в проде — я бы рассмеялся. А потом проверил, не сгорел ли прод. Но сейчас — 2025, и AI уже не только в новостях, но и в моём ежедневнике. Расскажу, как мы внедряли AI в DevOps, чем он помог, и почему теперь я сдержанно оптимистичен, когда получаю алерт в 3:47 ночи.

Кто я и с чем работаю

Я DevOps-инженер в продуктовой компании среднего размера. У нас десятки микросервисов, GitLab CI/CD, Kubernetes, Prometheus, Grafana, Loki, ELK, Helm, Terraform и куча всякого добра, которое периодически падает, греется, шумит и требует внимания.

Классика. И всё бы ничего, но...

«Почему под умер в 4:23 утра?»
«Как мне пересобрать staging с новым Redis, но не сломать прод?»
«Опять пайплайн завис?»

Вы знаете эти вопросы. Я тоже. Поэтому однажды я решил попробовать AI. Не ради моды, а просто чтобы не ~~плакать в душе~~ делать одно и то же вручную по 20 раз в день.

Почему DevOps и AI — это не бред

Поначалу кажется, что AI — это про картинки, чат-ботов и стартапы, которые “используют GPT для доставки пиццы через блокчейн”. Но если копнуть, оказывается, что в DevOps уже десятки зон, где AI может помочь:

рутинная генерация кода,
анализ логов и аномалий,
автоматизация ответов на типовые вопросы,
предиктивный мониторинг.

Короче, всё то, что делает нас грустными после второго кофе.

GitHub Copilot — джун, которого не нужно онбордить

Первая и самая простая точка входа — Copilot. Интеграция в VSCode, подключил — и пошёл.

Что реально сработало:

Terraform: задаю имя ресурса — получаю почти готовый блок.
CI/CD пайплайны: шаблоны на GitLab и GitHub, от build до deploy, генерируются быстрее.
Bash и Python скрипты: очистка очередей, копирование данных между S3-бакетами — сэкономил часы.

Пример:
Написал # terraform module for redis in GCP, нажал Enter — Copilot дописал весь скелет с переменными, output’ами и даже best practices.

Что не понравилось:

Может подсунуть устаревший синтаксис.
Иногда слишком уверен в себе — добавляет “лишнее”.
И, конечно, требует ревью. Всё-таки не продовый сеньор.

Но в целом — мощная штука, особенно если вы часто пишете однотипные конфиги.

Логи и машинное обучение: когда они читают себя сами

Вот тут началась настоящая магия.

Сначала: ELK + Loki, терабайты логов. Потом: “Найдите, что пошло не так в 4 утра вчера”.
А теперь: модель сама подсказывает, что было странным и может повториться.

Что сделал:

Выгрузил логи за 6 месяцев.
Очистил и разметил данные (вручную — да, больно).
Обучил Isolation Forest на отклонения.
Запустил простое веб-приложение, которое сканит новые логи и помечает аномалии.

Пример алерта:

“Обнаружено необычное поведение в сервисе billing. Паттерн ранее не встречался. Напоминает сбой от 12.03.25 (95% сходства).”

Что пошло не так:

Модель сначала “шумела” — чуть что, уже аномалия.
Пришлось обучать на каждом сервисе отдельно.
Разработчики не сразу поверили: “AI говорит — и что дальше?”

Зато — через пару недель стало понятно, что ловим проблемы на подлёте. И это очень приятно.

Чат-бот в Slack — DevOps, который не уходит в отпуск

Мы сделали GPT-помощника, который читает наши документы, пайплайны, Helm-чарты и отвечает в Slack на вопросы разработчиков.

Выглядит как магия. Но магия на Python и FAISS.

Что он умеет:

Объяснить, как задеплоить фичу.
Подсказать, какой Helm chart у конкретного сервиса.
Сказать, в каком пайплайне что ломается и почему.

Пример диалога:

— Как задеплоить новый микросервис на staging?
— Используй helm upgrade, chart находится в infrastructure/helm/apps/your-service, namespace staging-dev.

Что не сработало:

Когда забыли обновить документацию — бот начинает "галлюцинировать".
Некоторые спрашивают в духе: “Ты кто вообще?”, “Ты уверен?”
Иногда хочется добавить: “Спроси нормально!” — но он терпит.

И что всё это дало?

Через 3 месяца:

-40% шумных алертов.
+1 свободная голова для архитектурных задач.
-∞ объяснений “куда деплоить staging”.
Джуны стали самостоятельнее.
Я начал спать. По-настоящему.

Что не получилось

Генерировать Helm-чарты целиком — слишком много нюансов.
Объяснять CI/CD пайплайны GPT-модели — она делает вид, что поняла, но нет.
Один раз чуть не откатили прод по “фальшивому” алерту от модели — теперь всё через “ручное подтверждение”.

Куда дальше

Хочу подключить GPT к Alertmanager: пусть пишет не “500 по latency”, а “Бэк cart-service даёт 500 из-за таймаута при обращении к Redis”.
Подключить LangChain и проанализировать нашу JIRA: вдруг найдётся “вечно повторяющийся баг”.
Сделать голосового помощника в Telegram для ночных дежурств: пусть он меня будит, а не PagerDuty.

(А потом — пусть и на алерт отвечает сам.)

Финалочка

AI — это не волшебство. Это набор инструментов. Где-то — скальпель, где-то — молоток. Но точно не костыль. Если вы в DevOps и устали от рутины — посмотрите, что из этого можно автоматизировать. Начните с малого.

А если уже используете — напишите в комментах, что вам реально помогло. Я собираю идеи, чтобы продолжить тему в следующей статье.

Telegram — подписывайтесь, буду постепенно выкладывать свои мысли

Спасибо, что дочитали. Надеюсь, было полезно и немножко весело. До встречи в следующей статье!