Trace Points в C++: диагностика production-систем без перезапуска / Хабр

Одна из самых неприятных особенностей production-проблем заключается в том, что они почти никогда не происходят тогда, когда разработчик готов их исследовать.

Во время разработки всё работает. На тестовом стенде тоже всё выглядит нормально. Логи кажутся вполне достаточными, а диагностическая информация — продуманной и аккуратно организованной. Но затем в production внезапно появляется странная проблема: соединение иногда сбрасывается без видимой причины, один запрос из нескольких тысяч начинает вести себя иначе, сервер под высокой нагрузкой неожиданно входит в reconnect loop или где-то глубоко внутри системы начинает происходить что-то, что невозможно воспроизвести локально.

И почти всегда в этот момент выясняется одна и та же неприятная вещь: логов, которые уже есть в системе, недостаточно.

Именно здесь традиционное логирование начинает постепенно ломаться.

Большинство систем логирования до сих пор построены вокруг довольно простой идеи: заранее решить, какие сообщения должны писаться постоянно. Разработчик добавляет INFO, WARNING, DEBUG, иногда каналы или категории, после чего приложение отправляется в production с надеждой, что этих логов когда-нибудь хватит для диагностики.

Иногда действительно хватает.

Но реальные production-системы имеют неприятную привычку ломаться не там и не так, как ожидалось. Более того, проблемы часто возникают именно в тех участках кода, которые казались совершенно неинтересными во время разработки.

Первой реакцией обычно становится мысль: “давайте включим DEBUG logging”. На небольших проектах это ещё может работать вполне нормально. Однако в больших системах DEBUG-логи очень быстро превращаются в проблему сами по себе. Они начинают занимать гигабайты, полезная информация тонет в шуме, растёт нагрузка на диск, а иногда и само логирование начинает заметно влиять на производительность и тайминги приложения.

Но самое важное даже не это.

В большинстве случаев разработчику не нужны дополнительные логи вообще везде. Ему нужна дополнительная диагностика в одном конкретном месте: в подозрительной функции, в одном обработчике, в одном редком кодовом пути, который активируется только при определённом наборе условий.

Именно эту проблему trace points и пытаются решить.

На первый взгляд trace point выглядит почти как обычный лог:

LogmeTPt("received packet size=%zu", size);

Но ведёт себя он принципиально иначе.

Обычный DEBUG-лог либо пишет сообщения постоянно, либо полностью отключён. Trace point существует всегда. Даже если он выключен, система всё равно знает о его существовании, счётчик hits продолжает увеличиваться, а саму точку можно обнаружить и активировать через runtime-инструменты. При этом реальные лог-сообщения не пишутся до тех пор, пока trace point не будет явно включён.

По сути trace point — это не просто ещё один DEBUG macro, а заранее встроенная диагностическая точка, которая большую часть времени остаётся “спящей” и практически никак не влияет на production-логи.

Именно это полностью меняет подход к runtime-диагностике.

Представим вполне типичную ситуацию. Есть высоконагруженный сервер, внутри которого где-то глубоко в HTTP parser иногда происходит странное поведение. Воспроизвести проблему локально не получается. На тестовом стенде всё работает идеально. Ошибка появляется только на реальном трафике клиента и только под определённой нагрузкой.

Классический сценарий в такой ситуации выглядит довольно знакомо: разработчик добавляет временные DEBUG-логи, собирает специальную build-версию, перезапускает сервис, ждёт воспроизведения проблемы, после чего внезапно понимает, что нужной информации всё равно недостаточно. Затем цикл повторяется ещё раз.

Любой разработчик backend-систем сталкивался с этим десятки раз.

Trace points позволяют работать совершенно иначе. Диагностика уже встроена в production binary заранее. Нужно лишь активировать интересующий участок.

Например, внутри HTTP parser заранее могли быть оставлены такие trace points:

bool HttpParser::ParseHeaders(Connection* connection, Buffer& buffer)
{
  LogmeTPt(
    "begin header parsing: client=%s bytes=%zu"
    , connection->GetIp().c_str()
    , buffer.Size()
  );

  while (ReadNextHeader(buffer))
  {
    LogmeTPt(
      "header parsed: name='%s' value='%s'"
      , headerName.c_str()
      , headerValue.c_str()
    );

    if (headerName == "Content-Length")
    {
      LogmeTPt(
        "content-length detected: %s"
        , headerValue.c_str()
      );
    }
  }

  if (invalidHeaderDetected)
  {
    LogmeE_TPt(
      "invalid header detected from client=%s"
      , connection->GetIp().c_str()
    );
  }

  return true;
}

Каждый trace point автоматически регистрируется внутри runtime control system. Имя модуля, класса или функции становится частью runtime-идентификатора trace point, поэтому команда:

trace enable "*HttpParser*"

включает только trace points, относящиеся к HTTP parser.

После этого в production-логах начинают появляться только нужные диагностические сообщения:

2026-05-12 02:31:56:212 [:1276] HttpParser::ParseHeaders(): begin header parsing: client=192.168.71.150 bytes=742

2026-05-12 02:31:56:212 [:1276] HttpParser::ParseHeaders(): header parsed: name=‘Host’ value=‘api.example.com’

2026-05-12 02:31:56:212 [:1276] HttpParser::ParseHeaders(): header parsed: name=‘Content-Length’ value=‘5242880’

2026-05-12 02:31:56:212 [:1276] HttpParser::ParseHeaders(): content-length detected: 5242880

Формат сообщений при этом остаётся полностью обычным для logme. Trace points не создают отдельную систему логирования — они лишь позволяют динамически “разбудить” заранее встроенные диагностические точки внутри уже работающего production-процесса.

При этом приложение начинает писать только ту диагностику, которая действительно нужна в данный момент. Никакого глобального DEBUG-level, никаких гигантских логов и никакого перезапуска процесса.

Когда расследование закончено, trace points можно снова выключить.

На практике это очень сильно меняет само ощущение от production debugging. Вместо подхода “сначала соберём новую build-версию и попробуем снова” появляется возможность исследовать уже работающую систему практически в реальном времени.

Интересно, что подобные механизмы до сих пор довольно редки в мире C++ logging libraries. И дело здесь вовсе не в бесполезности идеи, а скорее наоборот — в сложности реализации.

Чтобы trace points действительно были пригодны для production, библиотеке приходится решать довольно неприятные инженерные задачи. Нужно регистрировать точки, поддерживать runtime discovery, wildcard matching, counters, потокобезопасность, удалённое управление и при этом обеспечивать минимальный overhead, чтобы разработчики не боялись оставлять trace points внутри production-кода постоянно.

Многие библиотеки просто останавливаются раньше, потому что обычное логирование уже закрывает большинство повседневных задач. Но trace points решают совершенно другую проблему. Речь здесь идёт уже не о “красивом выводе логов”, а о runtime-диагностике живой production-системы.

В этом смысле trace points гораздо ближе по философии к DTrace, eBPF или ETW, чем к традиционному DEBUG logging.

Когда trace points в приложении становится много, довольно быстро появляется следующая проблема: управлять ими через консоль начинает становиться неудобно.

Именно поэтому в logme появился logmeweb — web-интерфейс для runtime control server.

Управление trace points, найденными по подстроке WorkerLoop

Через браузер можно просматривать channels и subsystems, включать и выключать trace points, смотреть hit counters, фильтровать точки, сбрасывать статистику и выполнять runtime-команды без перезапуска приложения.

Особенно хорошо преимущества такого подхода начинают ощущаться на больших проектах, где количество trace points уже измеряется сотнями. В этот момент CLI-команды постепенно перестают быть удобным инструментом, а визуальный runtime diagnostics UI начинает экономить огромное количество времени.

При этом важно понимать, что logmeweb — это не отдельная observability-платформа и не внешний агент. Вся диагностика уже находится внутри самого приложения. Web-интерфейс лишь предоставляет более удобный способ взаимодействия со встроенным control server.

Есть ещё один интересный эффект, который становится заметен со временем.

Обычно разработчики избегают добавлять слишком подробную диагностику заранее, потому что постоянный DEBUG logging кажется слишком дорогим и шумным. В результате огромное количество потенциально полезной информации вообще никогда не попадает в код.

Trace points постепенно меняют сам подход к диагностике. Разработчик может позволить себе оставить “спящие” диагностические точки в потенциально сложных местах, понимая, что они не будут постоянно засорять production-логи и не потребуют держать DEBUG-level включённым постоянно.

А значит, когда проблема действительно возникнет, нужная диагностика уже окажется встроена в систему заранее.

Традиционное логирование отвечает на вопрос:

“Что приложение должно писать всегда?”

Trace points отвечают на гораздо более интересный вопрос:

“Какая информация может внезапно понадобиться потом?”

Для современных production-систем второй вопрос очень часто оказывается намного важнее первого.