Search
Write a publication
Pull to refresh

Как я внедрил AI в DevOps и перестал бояться ночных алертов

Level of difficultyEasy

P.S. Это моя первая статья на Хабре. Если тема вас заинтересовала — буду рад фидбеку и предложениям: о чём вы хотите, чтобы я написал в следующий раз? Больше практики? Конкретные тулзы? Провальные кейсы? Пишите в комментах — всё читаю, на всё отвечаю.


Если бы пять лет назад мне сказали, что я буду использовать машинное обучение в проде — я бы рассмеялся. А потом проверил, не сгорел ли прод. Но сейчас — 2025, и AI уже не только в новостях, но и в моём ежедневнике. Расскажу, как мы внедряли AI в DevOps, чем он помог, и почему теперь я сдержанно оптимистичен, когда получаю алерт в 3:47 ночи.


Кто я и с чем работаю

Я DevOps-инженер в продуктовой компании среднего размера. У нас десятки микросервисов, GitLab CI/CD, Kubernetes, Prometheus, Grafana, Loki, ELK, Helm, Terraform и куча всякого добра, которое периодически падает, греется, шумит и требует внимания.

Классика. И всё бы ничего, но...

  • «Почему под умер в 4:23 утра?»

  • «Как мне пересобрать staging с новым Redis, но не сломать прод?»

  • «Опять пайплайн завис?»

Вы знаете эти вопросы. Я тоже. Поэтому однажды я решил попробовать AI. Не ради моды, а просто чтобы не плакать в душе делать одно и то же вручную по 20 раз в день.


Почему DevOps и AI — это не бред

Поначалу кажется, что AI — это про картинки, чат-ботов и стартапы, которые “используют GPT для доставки пиццы через блокчейн”. Но если копнуть, оказывается, что в DevOps уже десятки зон, где AI может помочь:

  • рутинная генерация кода,

  • анализ логов и аномалий,

  • автоматизация ответов на типовые вопросы,

  • предиктивный мониторинг.

Короче, всё то, что делает нас грустными после второго кофе.


GitHub Copilot — джун, которого не нужно онбордить

Первая и самая простая точка входа — Copilot. Интеграция в VSCode, подключил — и пошёл.

Что реально сработало:

  • Terraform: задаю имя ресурса — получаю почти готовый блок.

  • CI/CD пайплайны: шаблоны на GitLab и GitHub, от build до deploy, генерируются быстрее.

  • Bash и Python скрипты: очистка очередей, копирование данных между S3-бакетами — сэкономил часы.

Пример:
Написал # terraform module for redis in GCP, нажал Enter — Copilot дописал весь скелет с переменными, output’ами и даже best practices.

Что не понравилось:

  • Может подсунуть устаревший синтаксис.

  • Иногда слишком уверен в себе — добавляет “лишнее”.

  • И, конечно, требует ревью. Всё-таки не продовый сеньор.

Но в целом — мощная штука, особенно если вы часто пишете однотипные конфиги.


Логи и машинное обучение: когда они читают себя сами

Вот тут началась настоящая магия.

Сначала: ELK + Loki, терабайты логов. Потом: “Найдите, что пошло не так в 4 утра вчера”.
А теперь: модель сама подсказывает, что было странным и может повториться.

Что сделал:

  1. Выгрузил логи за 6 месяцев.

  2. Очистил и разметил данные (вручную — да, больно).

  3. Обучил Isolation Forest на отклонения.

  4. Запустил простое веб-приложение, которое сканит новые логи и помечает аномалии.

Пример алерта:

“Обнаружено необычное поведение в сервисе billing. Паттерн ранее не встречался. Напоминает сбой от 12.03.25 (95% сходства).”

Что пошло не так:

  • Модель сначала “шумела” — чуть что, уже аномалия.

  • Пришлось обучать на каждом сервисе отдельно.

  • Разработчики не сразу поверили: “AI говорит — и что дальше?”

Зато — через пару недель стало понятно, что ловим проблемы на подлёте. И это очень приятно.


Чат-бот в Slack — DevOps, который не уходит в отпуск

Мы сделали GPT-помощника, который читает наши документы, пайплайны, Helm-чарты и отвечает в Slack на вопросы разработчиков.

Выглядит как магия. Но магия на Python и FAISS.

Что он умеет:

  • Объяснить, как задеплоить фичу.

  • Подсказать, какой Helm chart у конкретного сервиса.

  • Сказать, в каком пайплайне что ломается и почему.

Пример диалога:

— Как задеплоить новый микросервис на staging?
— Используй helm upgrade, chart находится в infrastructure/helm/apps/your-service, namespace staging-dev.

Что не сработало:

  • Когда забыли обновить документацию — бот начинает "галлюцинировать".

  • Некоторые спрашивают в духе: “Ты кто вообще?”, “Ты уверен?”

  • Иногда хочется добавить: “Спроси нормально!” — но он терпит.


И что всё это дало?

Через 3 месяца:

  • -40% шумных алертов.

  • +1 свободная голова для архитектурных задач.

  • -∞ объяснений “куда деплоить staging”.

  • Джуны стали самостоятельнее.

  • Я начал спать. По-настоящему.


Что не получилось

  • Генерировать Helm-чарты целиком — слишком много нюансов.

  • Объяснять CI/CD пайплайны GPT-модели — она делает вид, что поняла, но нет.

  • Один раз чуть не откатили прод по “фальшивому” алерту от модели — теперь всё через “ручное подтверждение”.


Куда дальше

  • Хочу подключить GPT к Alertmanager: пусть пишет не “500 по latency”, а “Бэк cart-service даёт 500 из-за таймаута при обращении к Redis”.

  • Подключить LangChain и проанализировать нашу JIRA: вдруг найдётся “вечно повторяющийся баг”.

  • Сделать голосового помощника в Telegram для ночных дежурств: пусть он меня будит, а не PagerDuty.

(А потом — пусть и на алерт отвечает сам.)


Финалочка

AI — это не волшебство. Это набор инструментов. Где-то — скальпель, где-то — молоток. Но точно не костыль. Если вы в DevOps и устали от рутины — посмотрите, что из этого можно автоматизировать. Начните с малого.

А если уже используете — напишите в комментах, что вам реально помогло. Я собираю идеи, чтобы продолжить тему в следующей статье.


Telegram — подписывайтесь, буду постепенно выкладывать свои мысли

Спасибо, что дочитали. Надеюсь, было полезно и немножко весело. До встречи в следующей статье!

Tags:
Hubs:
You can’t comment this publication because its author is not yet a full member of the community. You will be able to contact the author only after he or she has been invited by someone in the community. Until then, author’s username will be hidden by an alias.