Comments / Profile of andrey_chuyan / Habr

Андрей Чуян @andrey_chuyan

DevOps / Системный инженер

Habr Career Habr Experts

ProfileArticles7Posts1NewsComments46

Наблюдаемость “по-взрослому”: опыт внедрения OpenTelemetry

andrey_chuyan Jun 26 at 09:42

А вот это проблема которую, проще всего действительно решать на уровне приложения через логгеры. filelog коллектор тоже не умеет правильно "склеивать" json/xml, если Docker уже разбил их на части. Так что грамотное инструментирование для вывода цельного json - лучшее решение.

0

Наблюдаемость “по-взрослому”: опыт внедрения OpenTelemetry

andrey_chuyan Jun 25 at 10:11

Конечно. В каждом микросервисе есть модуль (с библиотеками pythonjsonlogger , opentelemetry, prometheus_fastapi_instrumentator), который задает кастомизацию логирования в json формате и интегрируется с OpenTelemetry. В частности в каждый лог я кладу trace_id и span_id, чтобы можно было легко связать логи с распределёнными трейсовыми событиями. Также, как уже сказано в статье автоматически добавляю метаданные (container, label’ы для Loki).
Вот, например, что генерирует у меня микросевис отвечающий за BFF:

{"message": "172.18.0.3:33948 - "GET /merch/clothing HTTP/1.1" 200", "container_name": "front0ui", "trace_id": "41b59ec943b6cadfd8ab1cd117437983", "span_id": "30e1c2d0de328a4b", "time": "2025-06-25T10:00:39.309Z", "level": "info", "container": "front0ui", "msg": "172.18.0.3:33948 - "GET /merch/clothing HTTP/1.1" 200", "labels": {"container": "front0ui", "level": "info"}}

Такой лог позволяет искать логи по trace_id и span_id и быстро находить всю цепочку вызовов между сервисами, а также анализировать ответы на внешние запросы. Пока работает так, в перспективе планирую наращивать корреляцию логов и метрик для сбора более прозрачной картины.

0

Наблюдаемость “по-взрослому”: опыт внедрения OpenTelemetry

andrey_chuyan Jun 24 at 18:49

Спасибо за вопрос.
Резкий переход на универсальное решение сопряжен с определёнными рисками. Лично я предпочитаю вносить изменения в инфраструктуру последовательно, чтобы изучить компоненты под рабочими нагрузками и принять соответствующие выводы и меры.

Кроме того, привязка к одному решению OpenTelemetry в перспективе может лишить нас преимуществ классических, специализированных инструментов. Обычно хорошие инструменты выполняют свою задачу эффективнее чем комплексное решение "все в одном".

В перспективе я буду пробовать новые компоненты OpenTelemery, но делать это постепенно, следя за возможными проблемами, так как этот инструментарий мне нравится.

0

Наблюдаемость “по-взрослому”: опыт внедрения OpenTelemetry

andrey_chuyan Jun 24 at 04:14

Спасибо за дополнение!

0

Ansible-pull и GitLab CI/CD: когда лучше тянуть, чем толкать

andrey_chuyan Mar 17 at 15:18

стоит изучить, полезный труд

0

Ansible-pull и GitLab CI/CD: когда лучше тянуть, чем толкать

andrey_chuyan Mar 17 at 14:57

Сделали своего агента для Ansible? Круто, хоть и трудозатратнее.

0

Ansible-pull и GitLab CI/CD: когда лучше тянуть, чем толкать

andrey_chuyan Mar 16 at 06:20

Всё зависит от масштабов и условий. Если речь идёт о нескольких серверах в стабильной сети, использование GitLab Runner действительно может быть удобнее. Однако в случае сотен узлов, разбросанных географически, где некоторые элементы инфраструктуры могут быть временно недоступны, гитлаб раннер уже не будет таким надёжным.

Кроме того, при большом количестве раннеров возможна высокая нагрузка на GitLab, что приведёт к снижению его производительности или даже сбоям

0

Ansible-pull и GitLab CI/CD: когда лучше тянуть, чем толкать

andrey_chuyan Mar 15 at 15:23

Не совсем, созданным нами пользователем ansible он забирает через ssh плейбук с ролями из GitLab, доступ к которому настроен через rsa ключ. После локальной загрузки запускает его на узле для localhost.

0

Ansible-pull и GitLab CI/CD: когда лучше тянуть, чем толкать

andrey_chuyan Mar 15 at 09:33

Согласен, падение джобы узла без доработок незаметно. Нужны системы сбора и анализа логов, с кредами надо думать.

0

Ansible-pull и GitLab CI/CD: когда лучше тянуть, чем толкать

andrey_chuyan Mar 15 at 09:11

Использовал их, чтобы проиллюстрировать все разнообразие парка машин. Статистика показывает, как ни странно, что Centos 7 еще часто встречается в legacy системах

+2

Кто «ест» трафик в организации? Готовим пользовательский экспортер для Prometheus, мониторим сеть

andrey_chuyan Jan 1 at 16:09

тогда определенно стоит посмотреть, может ли это текущая прошивка, либо альтернативная. Благодарю.

Если этот вариант сработает, тогда децентрализованные экспортеры будут нужны для проверки качества сети на различных участках, и, как следствие, поиска "узких мест", где трафик замедляется из-за некачественного сетевого оборудования.

+1

Кто «ест» трафик в организации? Готовим пользовательский экспортер для Prometheus, мониторим сеть

andrey_chuyan Dec 31 2024 at 09:27

Проблема, что в качестве роутера выступал старенький D-Link, поэтому зеркалирование трафика было единственным быстрым решением. А ELK это хорошо, лишним точно не будет.

0

Кто «ест» трафик в организации? Готовим пользовательский экспортер для Prometheus, мониторим сеть

andrey_chuyan Dec 31 2024 at 08:10

Второе, телевизор работал фоном.

0

Кто «ест» трафик в организации? Готовим пользовательский экспортер для Prometheus, мониторим сеть

andrey_chuyan Dec 31 2024 at 06:40

Да, в комнату. Обычно у них телевизоры ставят с коаксиальным кабелем, поэтому на этот факт изначально никто не обратил внимания.

0

Карманный Ansible и защита от брутфорс-атак

andrey_chuyan Nov 7 2024 at 05:17

В перспективе да, но хотелось не усложнять. За ссылку спасибо, хорошая статья.

0

Киберпанк не по Гибсону! Чем и почему реальность 2020-х не похожа на классические киберпанковые образы?

andrey_chuyan Nov 2 2024 at 16:06

Особенно если в режиме 24/7 не инвазивные носимые датчики в виде браслетов буду мониторить организм. А служба доставки еды будет автоматически подстраивать рацион питания для поддержания организма в норме.

+1

Киберпанк не по Гибсону! Чем и почему реальность 2020-х не похожа на классические киберпанковые образы?

andrey_chuyan Nov 2 2024 at 11:15

Тенденции к тому что нейросети окружат каждого и предоставят ему персональные услуги. Люди будут чуть более социально разделены. Услуги живого психолога или доктора буду привилегией обеспеченных людей.

0

Студия Ninsar Games выпустила в VK Play и Steam бесплатную научно-фантастическую ролевую игру «Сатурн»

andrey_chuyan Oct 29 2024 at 11:11

Любопытно. Смесь Horizen и Грани будущего?) Есть кто уже играл?

0

Автоматизация деплоя React-приложения на VPS с помощью Jenkins и Nginx: Пошаговое руководство

andrey_chuyan Oct 29 2024 at 10:58

Спасибо за статью, будет здорово если в подобных статьях вы буде использовать тестовое приложение с открытого репозитория, чтобы каждый мог повторить все настройки и убедиться в их работоспособности. Подпишусь и надеюсь на продолжение!

0

Zabbix vs Prometheus. Что выбрать для гетерогенной инфраструктуры?

andrey_chuyan Oct 25 2024 at 17:09

То есть Prometheus на инстансах создают изолированные базы метрик и высылают их корневому серверу в http запросах?

0

1