P.S. Это моя первая статья на Хабре. Если тема вас заинтересовала — буду рад фидбеку и предложениям: о чём вы хотите, чтобы я написал в следующий раз? Больше практики? Конкретные тулзы? Провальные кейсы? Пишите в комментах — всё читаю, на всё отвечаю.


Если бы пять лет назад мне сказали, что я буду использовать машинное обучение в проде — я бы рассмеялся. А потом проверил, не сгорел ли прод. Но сейчас — 2025, и AI уже не только в новостях, но и в моём ежедневнике. Расскажу, как мы внедряли AI в DevOps, чем он помог, и почему теперь я сдержанно оптимистичен, когда получаю алерт в 3:47 ночи.


Кто я и с чем работаю

Я DevOps-инженер в продуктовой компании среднего размера. У нас десятки микросервисов, GitLab CI/CD, Kubernetes, Prometheus, Grafana, Loki, ELK, Helm, Terraform и куча всякого добра, которое периодически падает, греется, шумит и требует внимания.

Классика. И всё бы ничего, но...

  • «Почему под умер в 4:23 утра?»

  • «Как мне пересобрать staging с новым Redis, но не сломать прод?»

  • «Опять пайплайн завис?»

Вы знаете эти вопросы. Я тоже. Поэтому однажды я решил попробовать AI. Не ради моды, а просто чтобы не плакать в душе делать одно и то же вручную по 20 раз в день.


Почему DevOps и AI — это не бред

Поначалу кажется, что AI — это про картинки, чат-ботов и стартапы, которые “используют GPT для доставки пиццы через блокчейн”. Но если копнуть, оказывается, что в DevOps уже десятки зон, где AI может помочь:

  • рутинная генерация кода,

  • анализ логов и аномалий,

  • автоматизация ответов на типовые вопросы,

  • предиктивный мониторинг.

Короче, всё то, что делает нас грустными после второго кофе.


GitHub Copilot — джун, которого не нужно онбордить

Первая и самая простая точка входа — Copilot. Интеграция в VSCode, подключил — и пошёл.

Что реально сработало:

  • Terraform: задаю имя ресурса — получаю почти готовый блок.

  • CI/CD пайплайны: шаблоны на GitLab и GitHub, от build до deploy, генерируются быстрее.

  • Bash и Python скрипты: очистка очередей, копирование данных между S3-бакетами — сэкономил часы.

Пример:
Написал # terraform module for redis in GCP, нажал Enter — Copilot дописал весь скелет с переменными, output’ами и даже best practices.

Что не понравилось:

  • Может подсунуть устаревший синтаксис.

  • Иногда слишком уверен в себе — добавляет “лишнее”.

  • И, конечно, требует ревью. Всё-таки не продовый сеньор.

Но в целом — мощная штука, особенно если вы часто пишете однотипные конфиги.


Логи и машинное обучение: когда они читают себя сами

Вот тут началась настоящая магия.

Сначала: ELK + Loki, терабайты логов. Потом: “Найдите, что пошло не так в 4 утра вчера”.
А теперь: модель сама подсказывает, что было странным и может повториться.

Что сделал:

  1. Выгрузил логи за 6 месяцев.

  2. Очистил и разметил данные (вручную — да, больно).

  3. Обучил Isolation Forest на отклонения.

  4. Запустил простое веб-приложение, которое сканит новые логи и помечает аномалии.

Пример алерта:

“Обнаружено необычное поведение в сервисе billing. Паттерн ранее не встречался. Напоминает сбой от 12.03.25 (95% сходства).”

Что пошло не так:

  • Модель сначала “шумела” — чуть что, уже аномалия.

  • Пришлось обучать на каждом сервисе отдельно.

  • Разработчики не сразу поверили: “AI говорит — и что дальше?”

Зато — через пару недель стало понятно, что ловим проблемы на подлёте. И это очень приятно.


Чат-бот в Slack — DevOps, который не уходит в отпуск

Мы сделали GPT-помощника, который читает наши документы, пайплайны, Helm-чарты и отвечает в Slack на вопросы разработчиков.

Выглядит как магия. Но магия на Python и FAISS.

Что он умеет:

  • Объяснить, как задеплоить фичу.

  • Подсказать, какой Helm chart у конкретного сервиса.

  • Сказать, в каком пайплайне что ломается и почему.

Пример диалога:

— Как задеплоить новый микросервис на staging?
— Используй helm upgrade, chart находится в infrastructure/helm/apps/your-service, namespace staging-dev.

Что не сработало:

  • Когда забыли обновить документацию — бот начинает "галлюцинировать".

  • Некоторые спрашивают в духе: “Ты кто вообще?”, “Ты уверен?”

  • Иногда хочется добавить: “Спроси нормально!” — но он терпит.


И что всё это дало?

Через 3 месяца:

  • -40% шумных алертов.

  • +1 свободная голова для архитектурных задач.

  • -∞ объяснений “куда деплоить staging”.

  • Джуны стали самостоятельнее.

  • Я начал спать. По-настоящему.


Что не получилось

  • Генерировать Helm-чарты целиком — слишком много нюансов.

  • Объяснять CI/CD пайплайны GPT-модели — она делает вид, что поняла, но нет.

  • Один раз чуть не откатили прод по “фальшивому” алерту от модели — теперь всё через “ручное подтверждение”.


Куда дальше

  • Хочу подключить GPT к Alertmanager: пусть пишет не “500 по latency”, а “Бэк cart-service даёт 500 из-за таймаута при обращении к Redis”.

  • Подключить LangChain и проанализировать нашу JIRA: вдруг найдётся “вечно повторяющийся баг”.

  • Сделать голосового помощника в Telegram для ночных дежурств: пусть он меня будит, а не PagerDuty.

(А потом — пусть и на алерт отвечает сам.)


Финалочка

AI — это не волшебство. Это набор инструментов. Где-то — скальпель, где-то — молоток. Но точно не костыль. Если вы в DevOps и устали от рутины — посмотрите, что из этого можно автоматизировать. Начните с малого.

А если уже используете — напишите в комментах, что вам реально помогло. Я собираю идеи, чтобы продолжить тему в следующей статье.


Telegram — подписывайтесь, буду постепенно выкладывать свои мысли

Спасибо, что дочитали. Надеюсь, было полезно и немножко весело. До встречи в следующей статье!