Комментарии 6
В условия ограниченного доступа к платным версиям Elasticsearch не смотрели в сторону Loki + Grafana?
Мы раньше тоже работали ровно в такой схеме как вы сейчас, только у нас был filebeat на нодах кубера и конечно намного меньше логов в сутки (200gb не более), но из за проблем с покупкой лицензий вынуждены были уйти с их продуктов.
Куда ушли?
В моменте ушли в классический стек Promtail + Loki + Grafana. Просто чтобы не оказаться в сложной ситуации. Очень долго тюнили скорость, сейчас вроде нормально, но все равно есть опасение, что ростом будут проблемы.
Прямо сейчас тестируем схему: fluentbit + Yandex Data Streams + Yandex Query (и бекап логов через Yandex Transfer в S3)
Может расскажите что и как тюнили Promtail + Loki + Grafana?
Мы допустили все ошибки какие могли:
Сразу не настроили отправку метрики с Promtail и Loki в prometheus, чтобы сразу увидеть, где проблема
Не настроили сразу кеширование, лимиты и чанки
Выбрали обычные ssd вместо не реплицируемых (нужна была макс скорость)
Перегнули с количеством лейблов
Не использовали драйвер Loki для контейнеров
Сразу не угадали с количество реплик всех частей
Даже не уверен что все вспомню. Мы с этими инструментами до этого не работали вполне возможно кто-то сделал бы это быстрей. Плюс у нас не было проблем с разным видом логов от сервисов потому что у нас в беке только джава и пакет у всех один, поэтому структура сообщения у всех одна и максимально плоская.
Вот было бы интереснее, если бы вы оставили graylog, а логи отправляли используя gelf.
Vector именно в грейлог отправлять не умеет и по ходу разработчики так не случайно решили. Самое главное отличие vector от fluentd - это то, что все модули - они по сути встроены, а в fluentd разные модули разрабатывают разные люди и с тем же плагином elasticsearch постоянно какие то проблемы, что ruby перестает нравится.
Наверное, следующий этап у вас будет - это долговременное хранение логов, для этих функций elasticsearch не очень хороший инструмент, как и все наверное будете смотреть в сторону колоночных баз данных.
И честно сказать, немного удивлен, что сбермегамаркет с дорогой разработкой не запилила свои агенты отправки с кафками и прочее.
Как мы искали свой Vector в построении высоконагруженной системы логирования