PYXRU Jul 26 2020 at 11:54

Squzy — бесплатная open-source self-host система мониторинга с инцидентами и уведомлениями

6 min

12K

DevOps * Go * Open source * Programming * System administration *

Comments 36

rzerda Jul 26 2020 at 12:43

Расскажите, чем это решение лучше Prometheus/TICK и чего-нибудь, основанного на OpenTracing? Почему отказались от версионируемой текстовой конфигурации и discovery в пользу API? Кто целевая аудитория?

PYXRU Jul 26 2020 at 12:55

Prometheus — не поддерживает транзакции, также инциденты. Сейчас все можно налипить на всем. Мы писали из идеи: сделать все из коробки и удобные инциденты, которые вы можете сделать как угодно(мы про правила). Яб сказал наша система больше всего похожа на newrelic self-host бесплатная версия. Плюс своя система инцидентов которые вы можете написать как угодно только ориентируюясь на данные сбора. Целевая аудитория: мы писали в расчете на среднии компании, которым нужен мониторинг из коробки + не хотят платить деньги большие.

Конфигурация текстовая будет в дальнейшем, сейчас было сделано через API по той причине что Dashboard нужен был больше чем тектовая концигурация.

amarao Jul 26 2020 at 18:34

Ох, вы опять? Олдскульный — есть nagios, есть shinken, есть icinga, есть zabbix.
Новое поколение — Prom (и проигравшие, типа kapacitor'а).

Как только вы пишите "своих агентов", мониторинг можно заканчивать.
Например, не поддерживает пром инцидентов. Ну, напишите. Принимает алерты из прома, делает над ними бизнес-логику. Но зачем изобретать велосипед целиком, если вам отсутствие корзинки сзади мешало? Мешало? Приделайте.

PYXRU Jul 26 2020 at 18:44

Вы смешиваите все в кучу. Каждая система должна приносить что то новое. Если судить как Вы, то фактически можно остановить развитие на первой появившейся системе. И получить велосипед с автомобильным рулем, кузовом КАМАЗа, двигателем Феррари и все тем же педальным управлением.

gecube Jul 26 2020 at 21:01

Попытка хорошая, но это скорее для саморазвития.
Для продакшена — лучше взять проверенное решение типа прометеуса или graphite (clickhouse) + moira.
Потому что иначе залипнете на традиционных вопросах по реализации мониторинга — например, как обеспечить правильную доливку данных (скажем, агент не выходил на связь неделю и пошел наливать данные с самых старых — новые метрики очевидно в наивном алгоритме можете не получить никогда), как обеспечить оптимальность скорости вычисления алертов (потому что для них нужно держать в памяти определенное "окно" с актуальными метриками) и прочее-прочее-прочее

PYXRU Jul 26 2020 at 21:12

Спасибо за отзыв!
Второй вопрос у нас решен: check в памяти занимает 2-3кб. За первый вопрос спасибо! Но вообще, если агент пропал на неделю, скорее всего это уже внештатная ситуация. Однако над обработкой подобных ситуаций подумаем.

Любое решение вначале не проверенное

Vilos Jul 27 2020 at 06:52

Чем бы дитя не тешалось…
В чем Zabbix-то неустроил?

PYXRU Jul 27 2020 at 07:58

Zabbix покрывает только агентов и external/internal чеки, нет мониторинга приложений, нет инцидентов, уведомлений, мониторинга web приложений

specter_x Jul 27 2020 at 08:27

Что, простите?
Вот www.zabbix.com/documentation/current/ru/manual/acknowledges инциденты
Вот www.zabbix.com/documentation/current/ru/manual/config/notifications уведомления
Вот www.zabbix.com/documentation/current/ru/manual/web_monitoring мониторинг веб-приложений
Что такое мониторинг приложений в вашем понимании?

PYXRU Jul 27 2020 at 08:32

www.zabbix.com/documentation/current/ru/manual/web_monitoring — это не мониторинг веб приложений это мониторинг веб ответов, в мониторинг веб приложений входит: routing, painting, first touch action как минимум.
www.zabbix.com/documentation/current/ru/manual/acknowledges — где тут инциденты? тут. ложных срабатываний будет очень много, по факту у вас допустим загрузка CPU 80%, но почему это вдруг инцидент
www.zabbix.com/documentation/current/ru/manual/config/notifications — с ними согласен проглядел.

Мониторинг приложений в нашей понимании: resource usage + transaction + metric + tracing

maksasila Jul 27 2020 at 08:46

Написать плагин, который делает это, я думаю, легче, чем писать новую систему. Но, наверное, не так круто… ;)

тут. ложных срабатываний будет очень много, по факту у вас допустим загрузка CPU 80%, но почему это вдруг инцидент

Во-первых, с чего вы взяли, что у вас не будет ложных срабатываний. Во-вторых, такие вещи можно и нужно настраивать под себя.

PYXRU Jul 27 2020 at 08:56

Ложные срабатывания будут всегда, но чем правильнее ты можешь описать инциденты тем меньше их будет, допустим нагрузка на ЦП за последние 7 подряд измерений 80% плюс, допустим выросло количество памяти

maksasila Jul 27 2020 at 10:05

Это уже всё есть в Icinga, и даже больше.

PYXRU Jul 27 2020 at 10:42

Да наверное, не смотрел детально, там нет мониторинга приложений при первом рассмотрении

maksasila Jul 27 2020 at 10:51

Это конструктор, есть готовые плагины. Если нету готового, нужно написать свой. С помощью вашей системы, например, я не могу мониторить моё «хозяйство». Только, может быть, какие-то части связанные с веб, и то не все. А с Icinga, дописав пару плагинов, это возможно.

PYXRU Jul 27 2020 at 10:55

Так у нас тоже конструктор, API открыть, надо плагины пишите. Я согласен с тем что некоторых вещей нехватка есть. Если можно конкретнее.

моё «хозяйство»

— это очень большое понятие

maksasila Jul 27 2020 at 11:55

Моё «хозяйство»: какое-то количество устройств, к которым нет прямого подкючения, все данные о них находятся в базе данных. А мониторить нужно, как будто есть прямое подключение. Плюс обычные серверы…

Не в обиду, но если вам кажется, что в такой системе, как Icinga, чего-то нет, оно либо там есть, либо это можно довольно просто добавить через плагины, корректную конфигурацию (RTFM) или API. Это по поводу статуса (инцидентов).

А по поводу нагрузок и графиков, InfluxDB + Grafana или другие аналоги, решают эту часть.

К тому-же, у вас свой агент. Вы бы сэкономили кучу времени использовав NRPE, к примеру. Он готов уже, в нем есть практически всё, что нужно, и есть в любом Линукс дистрибутиве и в Windows. Тоже самое про нагрузки. Есть, к примеру, collectd, в котором многое уже есть.

Но это, опять же, моё личное мнение. Вам виднее, если вы решили делать свою систему.

PYXRU Jul 27 2020 at 12:45

Ну мое мнение система мониторинга служит для того чтобы добавить устойчивость системе, и чем больше задач она решает тем лучше, по факту принципе не важно что как и что сделал. Главное чтоб она улучшала время реакции на инциденты. Мы когда начинали писать тоже думали по факту все можно сделать прикрутив уже готов, но тем не менее с момента первой строчки кода я уже 3 новых видел. Мне кажется причин несколько:
1. Кусочничество (большинство делают солянку из нескольких, но качество получается разное)
2. Комплексы NewRelic/sentry платные
3. Ограниченность функционала, поскольку комплексы почти все закрытые, то все ищут новые куски(маленькие системы с интеграцией к большой).

Вот эти задачи мы и пытаемся решить, open-source потому что мы пишешь большой комплекс, в котором стараемся покрыть все, но пока понемножку, но open-source в теории дает коммьюнити развивать. Self-host — никто не должен хранить ваши внутренние данные, даже о инфраструктуре(а без исходного кода понять что он собирает не слишком легко), я так считаю.

gecube Jul 27 2020 at 12:58

Комплексы NewRelic/sentry платные

это недостоверная информация — раз. Два — сентри решает ДРУГУЮ задачу. Не мониторинг, а уведомление разработчиков об эксепшенах (багах) в софте. Повторю тезис, что аналог сентри можно построить на бесплатном ELK стеке, но усилий придется приложить… И, да, он-премис инсталляции сентри бесплатнa

PYXRU Jul 27 2020 at 13:31

По sentry, не верно, оно решает задачи мониторинга приложения а то что вы описали частный его случай, в сентри есть те же транзакции/метрики.

Но то что сентри не комплекс, да datatog комплекс тогда уж. Думаю суть понятно

maksasila Jul 27 2020 at 14:13

А теперь, такой вопрос. Как я понимаю, конфигурация делается через веб интерфей. То есть, для хостов и инцидетов никаких файлов конфигурации нет? Это значит, что бэкапить всё нужно из базы данных. И хранить конфигурацию в гите никак не получится…
А шаблоны хостов и инцидентов есть?

PYXRU Jul 27 2020 at 14:22

Шаблоны инцидентов есть, конечно. Конфигурацию уже в ближайшее время сделаем через json/yml

maksasila Jul 27 2020 at 14:32

А группы есть?

PYXRU Jul 27 2020 at 14:57

В нашей реализации они не нужны, вы можете написать правила с многими map/reduce функциями поэтому нам группы не нужны, плюс так же есть временные функции такие как n измерений подарят итд.

maksasila Jul 27 2020 at 15:30

Короче, удачи вам в вашем не лёгком труде… :) Но в таком виде пока это пока система для вашего внутреннего пользования. Для применения в организациях нужно, как минимум, LDAP + AD. Хороший плюс SSO и 2-х факторная аутентификация. Опять же, сугубо моё личное мнение.

PYXRU Jul 27 2020 at 16:41

Спасибо, а зачем вам SSO во внутренней системе?

maksasila Jul 27 2020 at 17:36

Чтобы пароли не вводить по 100 раз.

specter_x Jul 27 2020 at 10:12

инциденты тем меньше их будет, допустим нагрузка на ЦП за последние 7 подряд измерений 80% плюс, допустим выросло количество памяти

Вы не поверите, но это прекрасно описывается в настройках триггеров. Более того, есть даже эскалация и зависимости.

specter_x Jul 27 2020 at 10:17

в мониторинг веб приложений входит: routing, painting, first touch action как минимум.

А вы в описаниях веб-мониторинга до вкладки «Шаги» домотали?

PYXRU Jul 27 2020 at 10:36

Да конечно, ничего похожего там нет

maksasila Jul 27 2020 at 08:38

Посмотрел демо. Я лично знаком с Icinga. Всё в Icinga есть, а если нету, нужно просто написать плагин.

Для графиков, InfluxDB + Grafana + CollectD. Если чего-то не хватает… пишу свой плагин.

Из статьи не понятно можно ли делать свои плагины, например. Выглядит так, как будто, мониторить нужно только хосты с web приложением. А ведь есть ещё сетевое оборудование, системы хранения и т.д.

PYXRU Jul 27 2020 at 08:52

Спасибо за отзыв, да у нас будет возможность создавать плагины; да у нас это ближайших планах

greendog Jul 27 2020 at 21:56

Не понимаю, откуда столько претензий «зачем, когда уже есть»
Вспоминается история, когда Лари Пейджу (основателю гугла) говорили: зачем ещё один поисковик, когда есть яху?! Что из этого получилось знают все.

Авторам желаю успехов. Выбор и конкуренция — это всегда хорошо.

PYXRU Jul 27 2020 at 22:03

Спасибо больше!

atkrv Nov 11 2022 at 13:10

@PYXRU как успехи?

чот демка сломана, а сайт отжал какой-то ресторан

PYXRU Feb 25 2023 at 22:57

У нас есть один постоянный клиент(который использует уже в течение года), но с остальными ничего не получилось, демку мы переводим на новый домен, скоро будет