P.S. Это моя первая статья на Хабре. Если тема вас заинтересовала — буду рад фидбеку и предложениям: о чём вы хотите, чтобы я написал в следующий раз? Больше практики? Конкретные тулзы? Провальные кейсы? Пишите в комментах — всё читаю, на всё отвечаю.
Если бы пять лет назад мне сказали, что я буду использовать машинное обучение в проде — я бы рассмеялся. А потом проверил, не сгорел ли прод. Но сейчас — 2025, и AI уже не только в новостях, но и в моём ежедневнике. Расскажу, как мы внедряли AI в DevOps, чем он помог, и почему теперь я сдержанно оптимистичен, когда получаю алерт в 3:47 ночи.
Кто я и с чем работаю
Я DevOps-инженер в продуктовой компании среднего размера. У нас десятки микросервисов, GitLab CI/CD, Kubernetes, Prometheus, Grafana, Loki, ELK, Helm, Terraform и куча всякого добра, которое периодически падает, греется, шумит и требует внимания.
Классика. И всё бы ничего, но...
«Почему под умер в 4:23 утра?»
«Как мне пересобрать staging с новым Redis, но не сломать прод?»
«Опять пайплайн завис?»
Вы знаете эти вопросы. Я тоже. Поэтому однажды я решил попробовать AI. Не ради моды, а просто чтобы не плакать в душе делать одно и то же вручную по 20 раз в день.
Почему DevOps и AI — это не бред
Поначалу кажется, что AI — это про картинки, чат-ботов и стартапы, которые “используют GPT для доставки пиццы через блокчейн”. Но если копнуть, оказывается, что в DevOps уже десятки зон, где AI может помочь:
рутинная генерация кода,
анализ логов и аномалий,
автоматизация ответов на типовые вопросы,
предиктивный мониторинг.
Короче, всё то, что делает нас грустными после второго кофе.
GitHub Copilot — джун, которого не нужно онбордить
Первая и самая простая точка входа — Copilot. Интеграция в VSCode, подключил — и пошёл.
Что реально сработало:
Terraform: задаю имя ресурса — получаю почти готовый блок.
CI/CD пайплайны: шаблоны на GitLab и GitHub, от
build
доdeploy
, генерируются быстрее.Bash и Python скрипты: очистка очередей, копирование данных между S3-бакетами — сэкономил часы.
Пример:
Написал # terraform module for redis in GCP
, нажал Enter — Copilot дописал весь скелет с переменными, output’ами и даже best practices.
Что не понравилось:
Может подсунуть устаревший синтаксис.
Иногда слишком уверен в себе — добавляет “лишнее”.
И, конечно, требует ревью. Всё-таки не продовый сеньор.
Но в целом — мощная штука, особенно если вы часто пишете однотипные конфиги.
Логи и машинное обучение: когда они читают себя сами
Вот тут началась настоящая магия.
Сначала: ELK + Loki, терабайты логов. Потом: “Найдите, что пошло не так в 4 утра вчера”.
А теперь: модель сама подсказывает, что было странным и может повториться.
Что сделал:
Выгрузил логи за 6 месяцев.
Очистил и разметил данные (вручную — да, больно).
Обучил
Isolation Forest
на отклонения.Запустил простое веб-приложение, которое сканит новые логи и помечает аномалии.
Пример алерта:
“Обнаружено необычное поведение в сервисе
billing
. Паттерн ранее не встречался. Напоминает сбой от 12.03.25 (95% сходства).”
Что пошло не так:
Модель сначала “шумела” — чуть что, уже аномалия.
Пришлось обучать на каждом сервисе отдельно.
Разработчики не сразу поверили: “AI говорит — и что дальше?”
Зато — через пару недель стало понятно, что ловим проблемы на подлёте. И это очень приятно.
Чат-бот в Slack — DevOps, который не уходит в отпуск
Мы сделали GPT-помощника, который читает наши документы, пайплайны, Helm-чарты и отвечает в Slack на вопросы разработчиков.
Выглядит как магия. Но магия на Python и FAISS.
Что он умеет:
Объяснить, как задеплоить фичу.
Подсказать, какой Helm chart у конкретного сервиса.
Сказать, в каком пайплайне что ломается и почему.
Пример диалога:
— Как задеплоить новый микросервис на staging?
— Используйhelm upgrade
, chart находится вinfrastructure/helm/apps/your-service
, namespacestaging-dev
.
Что не сработало:
Когда забыли обновить документацию — бот начинает "галлюцинировать".
Некоторые спрашивают в духе: “Ты кто вообще?”, “Ты уверен?”
Иногда хочется добавить: “Спроси нормально!” — но он терпит.
И что всё это дало?
Через 3 месяца:
-40% шумных алертов.
+1 свободная голова для архитектурных задач.
-∞ объяснений “куда деплоить staging”.
Джуны стали самостоятельнее.
Я начал спать. По-настоящему.
Что не получилось
Генерировать Helm-чарты целиком — слишком много нюансов.
Объяснять CI/CD пайплайны GPT-модели — она делает вид, что поняла, но нет.
Один раз чуть не откатили прод по “фальшивому” алерту от модели — теперь всё через “ручное подтверждение”.
Куда дальше
Хочу подключить GPT к Alertmanager: пусть пишет не “500 по latency”, а “Бэк
cart-service
даёт 500 из-за таймаута при обращении к Redis”.Подключить LangChain и проанализировать нашу JIRA: вдруг найдётся “вечно повторяющийся баг”.
Сделать голосового помощника в Telegram для ночных дежурств: пусть он меня будит, а не PagerDuty.
(А потом — пусть и на алерт отвечает сам.)
Финалочка
AI — это не волшебство. Это набор инструментов. Где-то — скальпель, где-то — молоток. Но точно не костыль. Если вы в DevOps и устали от рутины — посмотрите, что из этого можно автоматизировать. Начните с малого.
А если уже используете — напишите в комментах, что вам реально помогло. Я собираю идеи, чтобы продолжить тему в следующей статье.
Telegram — подписывайтесь, буду постепенно выкладывать свои мысли
Спасибо, что дочитали. Надеюсь, было полезно и немножко весело. До встречи в следующей статье!