Скрытая деградация продакшена: когда система работает, но уже больна / Хабр

Многие думают о продакшене как о бинарной системе: либо «работает», либо «упала». На практике почти все сложные сервисы живут в режиме постепенной деградации. Сервис вроде отвечает на запросы, пользователи вроде ничего не замечают, но внутри уже происходят скрытые сбои, которые со временем могут стать критичными.

В этой статье я хочу поделиться наблюдениями из реального продакшена, где несколько лет развивался backend-сервис и проявились такие скрытые проблемы.

Что такое скрытая деградация

Скрытая деградация — это состояние, когда система:

отвечает на запросы, но время отклика растет;
ошибки проявляются только на части данных;
показатели мониторинга остаются в норме, а бизнес-логика начинает сбоить.

Другими словами, сервис работает, но уже не полностью исправно. На первый взгляд все выглядит идеально, но при увеличении нагрузки или изменении окружения эти «мелкие» сбои превращаются в серьёзные проблемы.

Пример из практики: Python и неожиданные данные

def process_order(order):
    # order — словарь с данными
    total = order.get("price", 0) * order.get("count", 0)
    if total > 10000:
        apply_discount(order)
    return total

На первый взгляд код выглядит корректно. Проблема проявилась, когда:

часть заказов поступала от внешней системы с "count" как строкой "2";
результат order.get("price", 0) * order.get("count", 0) становился "100010001000" вместо 2000;
исключений не было — Python считал всё валидным.

Проблема проявлялась только на небольшой части заказов, и тесты её не ловили.

Симптомы скрытой деградации

На протяжении роста проекта начали проявляться тревожные сигналы:

Рост latency на отдельных эндпоинтах — среднее время ответа было нормальным, но редкие запросы зависали.
Редкие таймауты и ошибки данных — сложно воспроизвести локально.
Защитные проверки внутри функций — if type(x) != int: .... Признак того, что код пытается компенсировать нестабильные данные.
Неожиданное поведение бизнес-логики — например, скидки применялись к неправильным заказам.

Такие проблемы могут оставаться незамеченными месяцами, пока не произойдёт цепочка событий, которая сделает их видимыми.

Почему это опасно

Сервис кажется стабильным: HTTP 200, алерты не срабатывают, мониторинг зелёный.
Пользователь получает неправильный результат, даже если интерфейс не показывает ошибку.
Когда начинаются изменения или рост нагрузки, эти скрытые проблемы проявляются мощным всплеском ошибок.

Реальные кейсы

1. Рост базы данных

Индексы устарели, запросы стали медленными.
В тестах всё быстро, а в проде время отклика растёт до нескольких секунд для редких комбинаций параметров.
Симптомы: sporadic latency spikes, которые сложно поймать на тестах.

2. Внешние API начинают присылать новые поля

Старый код игнорирует их — вроде всё работает.
На практике ломается часть логики, которая рассчитывает значения по «старым» полям.
Редко кто замечает, пока не появится негативный кейс с клиентом.

3. Технический долг

Старые методы и костыли остались.
Разработчики боятся трогать «старый стабильный код».
Рефакторинг часто приводит к тому, что скрытая деградация проявляется на старых участках кода.

Код, который иллюстрирует проблему

def calculate_total(items):
    total = 0
    for item in items:
        price = item.get("price", 0)
        count = item.get("count", 1)
        total += price * count
    return total

orders = [
    {"price": 100, "count": 2},
    {"price": 200, "count": "3"},  # <-- строка вместо числа
]

print(calculate_total(orders))  # 100*2 + "200"*3 = 200 + '200200200' -> неожиданный результат

На первый взгляд код валиден. Но бизнес-логика уже нарушена. Такой баг может месяцами гулять в продакшене.

Как распознавать скрытую деградацию (наблюдения)

Логируйте бизнес-результаты, а не только статус кода.
Прогоняйте реальные сценарии, а не только искусственные тесты.
Смотрите на latency и таймауты не только средние, но и пиковые.
Обратите внимание на мелкие защитные проверки — это сигнал того, что данные приходят нестандартные.

Скрытая деградация не зависит от языка

Python, Go, Java, C# — система будет деградировать, если:

увеличивается нагрузка;
появляются новые интеграции;
накапливается технический долг.

Говорить «это Python» или «это Go» неверно. Это природа сложных систем.

Вывод

Скрытая деградация — это когда сервис вроде работает, но уже больной.

Статус 200 не равен стабильности.
Проблемы проявляются постепенно и редко очевидны.
Понимание скрытой деградации помогает вовремя выявлять слабые места и предотвращать масштабные инциденты.

Иногда самым ценным инструментом инженера становится наблюдательность и опыт, а не мониторинг или тесты.