granite_shield 12 ноя 2024 в 13:10

Как мы в МКБ обновляли Zabbix с 4.4 до 6.0 — проблемы и подводные камни

Средний

5 мин

5.3K

Блог компании Московский кредитный банкIT-инфраструктура*Серверное администрирование*

Ретроспектива

+11

Комментарии 19

Killan50 12 ноя 2024 в 13:37

"Была проблема, мы её решили, мы молодцы, конец" - Какая-то предыстория без самой статьи.

Мне как человеку который перетаскивал весьма жирную базу на тысячи узлов с 3 версии забикса на седьмую, было бы интересно как ещё можно было решить эту задачу, через какие костыли вы пересобрали темплейты и т.д. Но у вас в статье только констатация факта что вы это сделали и никаких технических подробностей. Для кого/чего она написана?

Abyss777 12 ноя 2024 в 14:52

Да кстати, обновление сервера это не такая уж боль, а вот обновление шаблонов... Потому что даже стандартные естественно дописаны. Сижу ручками в n++ сравниваю и переношу куски из старого в новый и так с каждым шаблоном...

Какие есть костыли?

Кстати вчера переехали с 6.4 на 7.0 и оказалось сломано наследование тегов с уровня шаблона в проблему. Всех завалило не их событиями...

granite_shield 12 ноя 2024 в 16:52

Большое спасибо, протестируем при планировании переезда

granite_shield 12 ноя 2024 в 16:51

Мы настолько долго готовились к этому обновлению..Вначале планировали на 5 версию версию, пока готовились, вышла 6. Затем тестировали до 6.0.7. Эта версия оказалась достаточно удачной. Большие проблемы мы огребли при обновление на 6.0.27, когда у нас стал падать ha cluster zabbix (это баг). В итоге мы перешли на 6.0.31. В связи с этим мы теперь очень внимательно следим за багами конкретных версий.

С темплейтами мы не огребли проблем, потому что мы не используем вложенные шаблоны. Мы предпочитаем создавать много мелких шаблонов для конкретных задач.

Все технические подробности указаны в статье, их действительно немного.

Ranckont 12 ноя 2024 в 13:37

Интересно, объём/соотношение бд забикса к другим бд

granite_shield 12 ноя 2024 в 16:54

Объем БД заббикс 1ТБ . Объем регулируется за счет партиционирования.

Ranckont 13 ноя 2024 в 06:17

К такому объёму просится ИИ. Планируете?

Lazhu 12 ноя 2024 в 13:42

Что реально раздражает в 4, это пароли в макросах открытым текстом. Но ~~жаба~~ лень пока не задавлена

Linkusik 12 ноя 2024 в 13:55

Мониторинг разве не является объектом КИИ особенно в банкинге? По идеи там должна быть сертификация... Опенсорс вряд ли подходит.

granite_shield 12 ноя 2024 в 16:56

Банкинг бывает государственный и частный. Пока нас это не коснулось, но мы рассматриваем разные варианты для импортозамещения и будем выбирать вариант наиболее похожий на заббикс.

cahbeua 12 ноя 2024 в 15:15

Больше похоже на описание девочки из ХР как мальчики в свитерах из соседнего кабинета неделю не выходили, а что там творилось она услышала мельком в курилке в первый день, когда мальчики ещё выходили курить...

Пили чай, кушали печеньку, а тут сущьность aplication tag с плитками графаны как вжух!

Кто, шо, де, на каком этапе, чем лечили? Но все в ожидании 7. Держите в курсе.

denaspireone 13 ноя 2024 в 08:48

Zabbix Agent 2.0, позволяющий делать дополнительные проверки по k8s и Docker прямо из коробки.

Для такиз штук был изобретен prometheus, а потом и VictoriaMetrics. Т.к. метрики и наполнение k8s полами может менятся постоянно, то рост количества метрик в zabbix не избежен, а это нагрузка на базу данных и размер хранилища.

Но если у вас все нормально при таких раскладах, то это конечно можно.

melkorus 13 ноя 2024 в 10:22

Категорически согласен. Из коробки не из коробки, Docker и Zabbix agent 2, это нормально отрабатывает. А вот с k8s придется повозиться, да и динамическая среда, которая своими интерфейсами и подами засрет все. До следующего удаления. (https://habr.com/ru/articles/852394/ - хорошая статья показывающая сравнение, что и где лучше использовать).

denaspireone 13 ноя 2024 в 10:55

Мне не нужны статьи, что бы сказать по-опыту следующее: пока под капотом zabbix не появится clickhouse из коробки, то это все гемор при большом кол-ве хостов и метрик. СУБД, а особенно софт вроде elastiсsearch не предназначены для такого рода хранения и обновления по задумке своей. То, что mysql/postgresql можно оптимизировать велосипедами это понятно, но легче от этого не становится. С апреля 2019 до декабря 2022 у меня было около 4000 узлов в zabbix (glaber.io) и под капотом mysql+clickhouse, при этом размер базы данных для истории в clickhouse занимал до 200гб за 3 года и retention там не было. Я боюсь представить размер в ТБ в mysql/etc за такой срок. По-этому, я и советую сразу использовать то, что cloud/kubernetes ready - VictoriaMetrics Single/Cluster, Grafana Mimir или что-то из нового и трендового вроде openobserve/signoz. Последний имеет под капотом тоже clickhouse=)

melkorus 13 ноя 2024 в 13:55

Какое количество метрик было/какие метрики ? - "С апреля 2019 до декабря 2022 у меня было около 4000 узлов в zabbix (glaber.io) и под капотом mysql+clickhouse".

Сколько хранилась история и тренды ?

denaspireone 13 ноя 2024 в 14:01

Дефолтно для zabbix и шаблонов которые я нашел или переделал из готовых. Много данных с камер/маршрутизаторов/роутеров по SNMP - конкретики не помню ибо оно умерло в как раз таки в декабре того года - его просто удалили и перевели на другую контору в которой был ванильный zabbix на mysql, а что там и как сейчас - без понятия. Но сервер ubuntu 19.10 в 4 цпу и 8 озу вывозил без проблем. Можете уточнить в https://t.me/glaber_group что так и как сейчас

melkorus 13 ноя 2024 в 10:18

Статья сумбурная, какой то полезной информации не несет. Весь посыл в основном - "Мама, смотри, как я могу". Ни подробностей, не подводных камней с чем столкнулись, нормально не расписано.

MikhailKricki 13 ноя 2024 в 22:01

Спасибо за статью. Используйте ли функционал Scheduled reports в Zabbix? Если да, то как он работает при наличии двух Zabbix Web? Нет ли дублирования при рассылке отчётов?

werter_l 17 ноя 2024 в 15:03

>4. Отказоустойчивость Zabbix-proxy осуществляется за счет холодного резерва. Раз в неделю все Zabbix-proxy бекапятся и восстанавливаются в другом ЦОДе в выключенном состоянии. Система рабочая! При отказе прокси мы просто поднимаем его копию в другом ЦОДе
На proxmox-е такое настраивается в 5 кликов из коробки простой zfs-репликацией. Никакой магии. И синхроньте по крону автоматом хоть каждые 15 мин.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий