true_engineering 1 фев 2018 в 10:46

Как мы адаптировали стек ELK для мониторинга и анализа ошибок на Java и .NET проектах

5 мин

18K

Блог компании True EngineeringСистемное администрирование *

+15

Комментарии 13

vba 1 фев 2018 в 18:09

В сторону Seq не смотрели? Раз уж вы с Serilog работаете.

true_engineering 2 фев 2018 в 04:06

Мы серьёзно рассматривали Seq, но в итоге отказались от него. У нас уже построена инфраструктура, и инженерам техподдержки удобнее работать с этим инструментом (ELK). Держать два инструмента с дублирующимся функциями кажется бессмысленным. И всё перетачивать не Seq не видим смысла. Гораздо удобнее, когда и на Java, и на .NET-проектах используется один и тот же стек ELK.

vba 2 фев 2018 в 09:29

Ну как сказано ниже у Serilog и ES есть свои изъяны. Хотя если вам нужно хостить логи и из java и из .net окружений то тогда да, ибо порт Serilog на java архи плох.

rumatavz 1 фев 2018 в 20:24

Durable mode elastic синка не работает! Не делайте так!

Я терял сообщения с тремя разными симптомами:
1) Отправка сообщений зависла до перезагрузки сервиса(три дня без мониторинга). В текстовых буферах сообщения есть, а в эластике нет.
2) Иногда одиночные сообщения есть в текстовых буферах но нет в эластике. github.com/serilog/serilog-sinks-elasticsearch/issues/125
3) Если у вас сервис падает при старте и даже если вы корректно деалете диспоуз то при определенных условиях вы ничего не получите в эластике github.com/serilog/serilog-sinks-elasticsearch/issues/130

true_engineering 2 фев 2018 в 03:56

Спасибо за наводку! Слышали про подобные вещи, но сами не встречали. Будем мониторить и исследовать.

Alghazanth 2 фев 2018 в 03:11

> настроили Excel-таблицу с макросами, которые умеют забирать из Kibana данные за сутки, выбирать из них ошибки и распределить их по существующим категориям
А почему не используете визуализации и дашборды в самой Кибане? Судя по вашем описанию, нужные вам метрики можно нарисовать и там.

true_engineering 2 фев 2018 в 03:27

По регламенту нашего клиента логи в ELK хранятся 2 недели, а мы хотим накапливать данные для анализа за более длительный срок, чтобы иметь возможность, например, сравнивать общую статистику с прошлым годом.

alhel 2 фев 2018 в 03:12

Что такое ELK?
Расшифруйте аббревиатуру

true_engineering 2 фев 2018 в 03:22

ELK расшифровывается как Elasticsearch, Logstash и Kibana.

НЛО прилетело и опубликовало эту надпись здесь

true_engineering 2 фев 2018 в 03:21

Используем Excel, который в составе пакета MS Office 2016.

zip-imp 4 фев 2018 в 13:21

>Мы видим, где ошибка, её место в коде, когда она возникла, условия окружения. У нас есть один ID, который связывает все системы воедино и может проследить полный путь ошибки.

Как создаётся TraceId? И как Вы место в коде и окружение собираете?

Не уловил роль Zabbix?

true_engineering 5 фев 2018 в 06:51

На одном проекте мы запускали WebApi через Owin. Там есть возможность обогатить контекст логера любыми данными, в данном случае это был просто Guid. Эти данные автоматом прицепляются ко всем сообщениям логгера (обращение к других API в рамках исходного запроса), как только исходный запрос завершается — контекст логера уничтожается.

Про Zabbix: мы создаем периодическую проверку — последовательно выполнять определенные цепочки запросов, это имитирует какой-то из бизнес-процессов. Замеряем успешность и время выполнения. Сбои на каком-то из этапов служат поводом для оповещения специалистов поддержки.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий