Heartbeat-мониторинг cron-job'ов: dead-man-switch на FastAPI / Хабр

Привет, Хабр!

Обычный uptime-мониторинг проверяет, отвечает ли сервис на запросы. Cron-job ничего не отвечает — он запускается раз в N часов, делает работу и молча завершается. Если cron перестал запускаться (uptime daemon упал, машина в read-only mode после fsck, disk full) — обычный мониторинг этого не видит.

Решение известно с 70-х — паттерн dead-man-switch (он же heartbeat). Я недавно делал heartbeat-эндпоинты для Valpero. Здесь разберу серверную часть на FastAPI + клиентский bash-pattern, и edge-кейсы которые их ломают.

В конце готовый код, который можно адаптировать под свой стек.

Концепция

Обычный uptime-чек: «спроси у сервиса, всё ли в порядке».

Dead-man-switch: «жди что сервис сам скажет всё в порядке, и если перестал говорить — алёрт».

Применимо к:

cron-job’ам (0 4 * * * backup.sh)
background workers (Celery, Sidekiq, RQ)
scheduled lambda
любой задаче, которая должна выполниться по расписанию, но не имеет HTTP-endpoint’а

Job делает curl на уникальный URL после успешного завершения:

0 4 * * * /opt/scripts/backup.sh && \ curl -fsS https://example.com/heartbeat/abc123 > /dev/null

Сервер запоминает время последнего ping’а. Если ping не приходит в ожидаемое окно — открывается incident. Окно = interval + grace_period. Для daily-job окно ~25 часов. Если в 5:00 следующего дня после 4:00 ping не пришёл — alert.

Серверная часть на FastAPI

Базовая модель:

from sqlalchemy import Column, Integer, String, Boolean, DateTime from app.database import Base

class HeartbeatMonitor(Base): tablename = “heartbeat_monitors” id = Column(Integer, primary_key=True) user_id = Column(Integer, nullable=False, index=True) name = Column(String(120), nullable=False) token = Column(String(40), unique=True, nullable=False, index=True) interval_sec = Column(Integer, nullable=False) # 24*3600 для daily grace_sec = Column(Integer, nullable=False) # 3600 = 1h допуск last_ping_at = Column(DateTime, nullable=True) state = Column(String(20), default=“pending”) # pending/up/down

interval_sec + grace_sec — это окно, в которое должен прийти ping. Если не пришёл — state = down.

Endpoint для приёма ping’а:

from fastapi import APIRouter, Request, Depends from fastapi.responses import Response from datetime import datetime, UTC from sqlalchemy import select from app.database import get_db

router = APIRouter()

@router.post(“/heartbeat/{token}”) @router.get(“/heartbeat/{token}”) # дублируем для curl без --data async def heartbeat(token: str, request: Request, db = Depends(get_db)): monitor = (await db.execute( select(HeartbeatMonitor).where(HeartbeatMonitor.token == token) )).scalar_one_or_none() if not monitor: return Response(status_code=404)

now = datetime.now(UTC)
exit_code = int(request.query_params.get("exit", 0))

# Запись пинга
ping = HeartbeatPing(
    monitor_id=monitor.id,
    received_at=now,
    exit_code=exit_code,
)
db.add(ping)

monitor.last_ping_at = now
if exit_code != 0:
    # Job завершился с ошибкой — алёрт сразу
    await open_incident(db, monitor, f"Heartbeat exit code {exit_code}")
    monitor.state = "down"
else:
    # Job ОК — закрываем incident если был открыт
    if monitor.state == "down":
        await close_incident(db, monitor)
    monitor.state = "up"

await db.commit()
return Response(status_code=200)

Background-таска проверяет overdue heartbeats каждую минуту:

from celery import shared_task from datetime import timedelta

@shared_task async def check_overdue_heartbeats(): now = datetime.now(UTC) async with async_session_factory() as db: result = await db.execute(select(HeartbeatMonitor).where( HeartbeatMonitor.last_ping_at.isnot(None), HeartbeatMonitor.state != “down”, )) for monitor in result.scalars(): deadline = monitor.last_ping_at + timedelta( seconds=monitor.interval_sec + monitor.grace_sec ) if now > deadline: await open_incident( db, monitor, f"Heartbeat overdue by {(now-deadline).total_seconds():.0f}s" ) monitor.state = “down” await db.commit()

В Celery beat: check_overdue_heartbeats.s().apply_async(countdown=60) каждую минуту.

Клиентский pattern

Простейший case — curl после успеха:

0 4 * * * /opt/scripts/backup.sh && \ curl -fsS --retry 3 --retry-delay 10 \ "https://example.com/heartbeat/abc123" > /dev/null

--retry 3 --retry-delay 10 — на случай если ваш monitoring-сервер недоступен в момент пинга. Лучше повторить, чем потерять heartbeat.

С exit-code reporting:

0 4 * * * /opt/scripts/backup.sh; \ curl -fsS "https://example.com/heartbeat/abc123?exit=$?" > /dev/null

Точка с запятой вместо && — чтобы curl выполнился даже если job упал. $? подставит exit code предыдущей команды.

Start + end pings — если важно поймать «job запустился но завис»:

0 4 * * * curl -fsS "https://example.com/heartbeat/abc123/start" > /dev/null && \ /opt/scripts/backup.sh && \ curl -fsS "https://example.com/heartbeat/abc123/end" > /dev/null

Сервер ждёт пару start+end в течение max_duration. Если только start без end — алёрт.

Heartbeat-as-pipe через wrapper-утилиту:

0 4 * * * /usr/local/bin/heartbeat backup-prod -- /opt/scripts/backup.sh

Утилита сама делает start, запускает команду, ловит exit-code и логи stdout/stderr, посылает end с метаданными. Это самый чистый вариант для production.

Edge-кейсы которые ломают heartbeat

Cron jitter. Job на 0 4 * * * запускается в 04:00:00 — но реально может пускаться в 04:00:08-04:00:15 если у вас одновременно много scheduled tasks. Если grace_period = 30 секунд — false-positive. Минимум для daily-job: 5 минут. Для hourly: 2 минуты. Для каждые-5-минут: 30 секунд.

Время работы job скачет. Backup растущей базы — сегодня 10 минут, через месяц 18 минут. Если max_duration = 15 минут — false-positive после роста базы. Ставить max_duration минимум 3× от среднего и пересматривать раз в квартал.

Network outage между job и monitor. Job отработал, но curl на heartbeat не дошёл из-за DNS-проблем или network issue. Решение: --retry 5 --retry-delay 10 --retry-connrefused чтобы curl сам повторил. Плюс — игнорировать первый missed heartbeat, алёртить только на второй подряд.

Timezone drift. Cron работает в локальной TZ системы. Если ваш VPS в US-East, job на 0 4 * * * запускается в 4 утра US-East. Если monitor ждёт ping в 04:00 UTC — 5-часовой gap → false-positive. Решение: CRON_TZ=UTC в crontab или в самом scheduler если возможно.

Disk full на машине с job’ом. Job не может писать stdout/stderr — может зависнуть или упасть без exit-code. Идея: heartbeat-утилита должна иметь fallback на in-memory log если disk full.

Что в итоге

Heartbeat-мониторинг — классический паттерн который должен быть у каждого, кто запускает cron в продакшне. Серверная часть пишется за полдня на FastAPI + Postgres. Клиентский pattern — одна строчка curl в конце job’а.

Если запиливаешь свой мониторинг, добавь heartbeat-endpoint раньше, чем красивый дашборд. Heartbeat ловит классы проблем, которые обычный uptime не видит — а это значимая часть всех «у нас тут что-то не так».

Ссылки

Сайт: valpero.com — у меня в Valpero heartbeat доступен на free плане, 1 монитор без карты