Zabbix обладает достаточно большими возможностями из коробки, но этого иногда может не хватать, и на этот случай есть возможность использовать сторонний скрипт для обработки событий(Report problems to script). К самому скрипту вернемся чуть позже, пока опишу только основную мысль, чтобы было понятно, что и зачем мы добавляем в description триггеров. Скрипт парсит тело письма и ищет строчку MYparsBLOCK:funcname: если находит, то выполняет funcname(), если не находит, — то просто отправляет оповещение. Разумнее всего добавлять это в описание триггеров, поэтому в Actions-Event source –Triggers-operations необходимо добавить в default message — {TRIGGER.DESCRIPTION}.
Необходимо создать шаблон для мониторинга, который будет прикрепляться к новым хостам, с помощью правила авторегистрации. (Action-> Event Source->Auto registration->Link to templates: Win_monitor) Я взял за основу стандартный шаблон zabbix для windows, а также APC Smart UPS Monitoring откуда-то с просторов, выкинул из них все лишнее и добавил то, что нужно мне.
Я уже писал, что реализация затеи с мониторингом упсов оказалась не такой гладкой, как хотелось бы. Упсы постоянно отваливаются, помогает перезапуск драйвера с помощью утилиты devcon, поэтому добавляем в триггер(в description) «robot_ Не приходят данные с ИБП {HOST.NAME}» наш блок с функцией nutp. Ну и никому не нужны мертвые хосты в мониторинге, потому в триггер «Zabbix agent on {HOST.NAME} is unreachable for 7 days» добавляем функцию remove_offline, которая будет удалять хосты из zabbix:
Что касается смартов, то обычные Items и Triggers нам не подойдут, т. к. на разных машинах может быть разное количество смартов. В zabbix есть возможность сделать item и trigger prototype, которые будут создаваться для списка объектов, полученных с помощью low-level discovery rules, подробнее можно почитать здесь. Чтобы правило работало, нам нужно написать скрипт/приложение, которое будет при запуске выдавать список хардов в специальном JSON формате. Сначала я сделал скрипт на powershell, но на части машин скрипт периодически не успевал выполниться за 30 секунд, из-за того, что сам powershell очень долго инициализируется. Пришлось отказаться от powershell и сделать exe приложение на c#(я его не знаю, но он показался достаточно простым, чтобы переписать скрипт). Приложение с помощью smartctl получает список hdd, убирает дублирующиеся(по серийникам) и выводит в нужном нам формате.
Да, на некоторых машинах смарт может быть отключен, поэтому добавим еще одну функцию firstrun, и разместим ее в сообщение правила авторегистрации Action-> Event Source->Auto registration добавляем пункт Send message to ...via script, в тело размещаем:
В шаблоне создаем discovey rule — smart.discovery.
В description прототипов добавляем функцию hddsmart, она будет добавлять модель HDD в тело сообщения триггера, чтобы было понятно, о каком именно харде идет речь, т. к. smartctl использует в качестве имени sda, sdb и т. п.
Большинство параметров агент не понимает, поэтому в конфигурации клиента обязательно нужно прописать все UserParameter.
Собственно сам скрипт, который будет отправлять письма и выполнять наши функции:
Имейте в виду, что если получателей несколько, то и функция выполнится несколько раз. Для чего-то это актуально(например модель HDD), а для чего то может быть даже вредным, поэтому это обязательно надо учесть при настройке Actions.
Для работы скрипта нужен аккаунт с правами на удаление машин. Я запускаю скрипт по крону под другим аккаунтом, т. к. здесь хранится пароль в открытом виде.
По дефолту агенты регистрируются так, что zabbix подключается к ним по ip. Меня это не устраивает, поэтому пишем скрипт, который это поправит, а заодно и сообщит о проблемах lookup. За основу взял какой-то скрипт из примеров pyzabbix и немного переделал.
» Все скрипты, шаблон и прочие необходимые файлы выложены на github.
» Мониторим клиентские ПК в Microsoft AD с помощью Zabbix. Часть 1 — Автоустановка
Готовим template
Необходимо создать шаблон для мониторинга, который будет прикрепляться к новым хостам, с помощью правила авторегистрации. (Action-> Event Source->Auto registration->Link to templates: Win_monitor) Я взял за основу стандартный шаблон zabbix для windows, а также APC Smart UPS Monitoring откуда-то с просторов, выкинул из них все лишнее и добавил то, что нужно мне.
Items
Agent ping
agent.ping
Average disk queue length
perf_counter[\234(_Total)\1400]
Average disk read queue length
perf_counter[\234(_Total)\1402]
Average disk write queue length
perf_counter[\234(_Total)\1404]
CPU Model
wmi.get[ROOT\cimv2,SELECT Name FROM Win32_Processor]
CPU Utilization
perf_counter[\238(_Total)\6]
APC Smart UPS Monitoring: Driver Caption
wmi.get[ROOT\cimv2,SELECT Caption FROM Win32_PNPEntity WHERE PNPDeviceID LIKE '%VID_051D&PID_0002%' OR Service LIKE '%hidbatt%']
Free disk space on C:
vfs.fs.size[c:,free]
Free disk space on C: (percentage)
vfs.fs.size[c:,pfree]
Free memory
vm.memory.size[free]
Host name of zabbix_agentd running
agent.hostname
Mainboard Model
wmi.get[ROOT\cimv2,SELECT Product FROM Win32_BaseBoard]
System information
system.uname
System uptime
system.uptime
Total disk space on C:
vfs.fs.size[c:,total]
Total memory
vm.memory.size[total]
Used disk space on C:
vfs.fs.size[c:,used]
APC Smart UPS Monitoring: Время работы от батареи
battery.runtime
APC Smart UPS Monitoring: Дата замены батареи
battery.mfr.date
APC Smart UPS Monitoring: Заряд батареи
battery.charge
APC Smart UPS Monitoring: Модель UPS
ups.model
APC Smart UPS Monitoring: Нагрузка
ups.load
APC Smart UPS Monitoring: Напряжение (на вход)
input.voltage
APC Smart UPS Monitoring: Напряжение (на выход)
output.voltage
APC Smart UPS Monitoring: Статус UPS
ups.status
APC Smart UPS Monitoring: Статус бипера
ups.beeper.status
APC Smart UPS Monitoring: Температура батареи
battery.temperature
agent.ping
Average disk queue length
perf_counter[\234(_Total)\1400]
Average disk read queue length
perf_counter[\234(_Total)\1402]
Average disk write queue length
perf_counter[\234(_Total)\1404]
CPU Model
wmi.get[ROOT\cimv2,SELECT Name FROM Win32_Processor]
CPU Utilization
perf_counter[\238(_Total)\6]
APC Smart UPS Monitoring: Driver Caption
wmi.get[ROOT\cimv2,SELECT Caption FROM Win32_PNPEntity WHERE PNPDeviceID LIKE '%VID_051D&PID_0002%' OR Service LIKE '%hidbatt%']
Free disk space on C:
vfs.fs.size[c:,free]
Free disk space on C: (percentage)
vfs.fs.size[c:,pfree]
Free memory
vm.memory.size[free]
Host name of zabbix_agentd running
agent.hostname
Mainboard Model
wmi.get[ROOT\cimv2,SELECT Product FROM Win32_BaseBoard]
System information
system.uname
System uptime
system.uptime
Total disk space on C:
vfs.fs.size[c:,total]
Total memory
vm.memory.size[total]
Used disk space on C:
vfs.fs.size[c:,used]
APC Smart UPS Monitoring: Время работы от батареи
battery.runtime
APC Smart UPS Monitoring: Дата замены батареи
battery.mfr.date
APC Smart UPS Monitoring: Заряд батареи
battery.charge
APC Smart UPS Monitoring: Модель UPS
ups.model
APC Smart UPS Monitoring: Нагрузка
ups.load
APC Smart UPS Monitoring: Напряжение (на вход)
input.voltage
APC Smart UPS Monitoring: Напряжение (на выход)
output.voltage
APC Smart UPS Monitoring: Статус UPS
ups.status
APC Smart UPS Monitoring: Статус бипера
ups.beeper.status
APC Smart UPS Monitoring: Температура батареи
battery.temperature
Triggers
Free disk space is less than 1GB on volume C: {HOST.NAME}
{Win_monitor:vfs.fs.size[c:,free].last(0)}<1073741824
Lack of free memory on {HOST.NAME}
{Win_monitor:vm.memory.size[free].avg(30m)}<10000000
APC Smart UPS Monitoring: robot_ Не приходят данные с ИБП {HOST.NAME}
{Win_monitor:ups.status.str(Error)}=1 and {Win_monitor:wmi.get[ROOT\cimv2,SELECT Caption FROM Win32_PNPEntity WHERE PNPDeviceID LIKE '%VID_051D&PID_0002%' OR Service LIKE '%hidbatt%'].strlen()}>1
Zabbix agent on {HOST.NAME} is unreachable for 7 days
{Win_monitor:agent.ping.nodata(7d)}=1
APC Smart UPS Monitoring: Батарея не заряжается на {HOST.NAME}
{Win_monitor:battery.charge.max(#120)}<90
APC Smart UPS Monitoring: Выключен бипер на {HOST.NAME}
{Win_monitor:ups.beeper.status.str(disabled)}=1
APC Smart UPS Monitoring: Низкое время работы от батареи на {HOST.NAME}
{Win_monitor:battery.runtime.last(0)}<5 and {Win_monitor:ups.model.str(Smart)}=1
{Win_monitor:vfs.fs.size[c:,free].last(0)}<1073741824
Lack of free memory on {HOST.NAME}
{Win_monitor:vm.memory.size[free].avg(30m)}<10000000
APC Smart UPS Monitoring: robot_ Не приходят данные с ИБП {HOST.NAME}
{Win_monitor:ups.status.str(Error)}=1 and {Win_monitor:wmi.get[ROOT\cimv2,SELECT Caption FROM Win32_PNPEntity WHERE PNPDeviceID LIKE '%VID_051D&PID_0002%' OR Service LIKE '%hidbatt%'].strlen()}>1
Zabbix agent on {HOST.NAME} is unreachable for 7 days
{Win_monitor:agent.ping.nodata(7d)}=1
APC Smart UPS Monitoring: Батарея не заряжается на {HOST.NAME}
{Win_monitor:battery.charge.max(#120)}<90
APC Smart UPS Monitoring: Выключен бипер на {HOST.NAME}
{Win_monitor:ups.beeper.status.str(disabled)}=1
APC Smart UPS Monitoring: Низкое время работы от батареи на {HOST.NAME}
{Win_monitor:battery.runtime.last(0)}<5 and {Win_monitor:ups.model.str(Smart)}=1
Я уже писал, что реализация затеи с мониторингом упсов оказалась не такой гладкой, как хотелось бы. Упсы постоянно отваливаются, помогает перезапуск драйвера с помощью утилиты devcon, поэтому добавляем в триггер(в description) «robot_ Не приходят данные с ИБП {HOST.NAME}» наш блок с функцией nutp. Ну и никому не нужны мертвые хосты в мониторинге, потому в триггер «Zabbix agent on {HOST.NAME} is unreachable for 7 days» добавляем функцию remove_offline, которая будет удалять хосты из zabbix:
MYparsBLOCK:nutpt:
HIP:{HOST.DNS}
MYparsBLOCK:remove_offline:
HID:{HOST.NAME}
Low-level discovery
Что касается смартов, то обычные Items и Triggers нам не подойдут, т. к. на разных машинах может быть разное количество смартов. В zabbix есть возможность сделать item и trigger prototype, которые будут создаваться для списка объектов, полученных с помощью low-level discovery rules, подробнее можно почитать здесь. Чтобы правило работало, нам нужно написать скрипт/приложение, которое будет при запуске выдавать список хардов в специальном JSON формате. Сначала я сделал скрипт на powershell, но на части машин скрипт периодически не успевал выполниться за 30 секунд, из-за того, что сам powershell очень долго инициализируется. Пришлось отказаться от powershell и сделать exe приложение на c#(я его не знаю, но он показался достаточно простым, чтобы переписать скрипт). Приложение с помощью smartctl получает список hdd, убирает дублирующиеся(по серийникам) и выводит в нужном нам формате.
hddscan.cs
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Diagnostics;
using System.Text.RegularExpressions;
namespace hdd_scan
{
class Program
{
static string[] smartctl(string arg)
{
Process p = new Process();
p.StartInfo.FileName = "C:\\Program Files\\Zabbix\\extra\\smart\\smartctl.exe";
p.StartInfo.Arguments = arg;
p.StartInfo.UseShellExecute = false;
p.StartInfo.RedirectStandardOutput = true;
p.Start();
string output = p.StandardOutput.ReadToEnd();
string[] list = output.Split('\n');
p.WaitForExit();
return list;
}
static void Main(string[] args)
{
try
{
string[] hddlist = smartctl("--scan");
Dictionary<string, string> psarr = new Dictionary<string, string>();
string pattern = @"^(?<1>\/[\w]+)\/(?<xer>[\S]+)\s";
foreach (string hdd in hddlist)
{
var match = Regex.Match(hdd, pattern);
if (match.Success)
{
string shdd = match.Groups["xer"].Value;
string[] tmp = smartctl("-a " + shdd);
foreach (string line in tmp)
{
if (line.Contains("Serial") == true)
{
string[] serials = Regex.Split(line, @"^Serial\sNumber\:\s+");
if (serials.Length < 2) continue;
string serial = serials[1];
if (!psarr.ContainsValue(serial))
{
psarr.Add(shdd, serial);
}
}
}
}
}
//Starting output
int cnt = 0;
Console.WriteLine("{\n");
Console.WriteLine("\t\"data\":[\n\n");
foreach (KeyValuePair<string, string> kvp in psarr)
{
string[] flist = smartctl("-a "+kvp.Key);
string checkstring = "A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.";
//
bool test= false;
for (int i = 0; i < flist.Length; i++)
{
if (flist[i].Contains(checkstring))
{
test = true;
}
}
if (!test)
{
cnt++;
if (cnt > 1)
{
Console.WriteLine("\t,\n");
}
Console.WriteLine("\t{\n");
Console.WriteLine("\t\t\"{{#HDDNAME}}\":\"{0}\"\n", kvp.Key);
Console.WriteLine("\t}\n");
}
}
Console.WriteLine("\n\t]\n");
Console.WriteLine("}\n");
}
catch (Exception ex)
{
Console.WriteLine(ex.Message);
}
}
}
}
Да, на некоторых машинах смарт может быть отключен, поэтому добавим еще одну функцию firstrun, и разместим ее в сообщение правила авторегистрации Action-> Event Source->Auto registration добавляем пункт Send message to ...via script, в тело размещаем:
MYparsBLOCK:firstrun:
HIP:{HOST.IP}
В шаблоне создаем discovey rule — smart.discovery.
Item prototypes
smart_{#HDDNAME}_CRC_Error_Count
smart[{#HDDNAME},crc]
smart_{#HDDNAME}_Current_Pending_Sector
smart[{#HDDNAME},pend]
smart_{#HDDNAME}_Health_Status
smart[{#HDDNAME},health]
smart_{#HDDNAME}_Model
smart[{#HDDNAME},model]
smart_{#HDDNAME}_Reallocated_Sector_Ct
smart[{#HDDNAME},realloc]
smart_{#HDDNAME}_Temperature
smart[{#HDDNAME},temp]
smart[{#HDDNAME},crc]
smart_{#HDDNAME}_Current_Pending_Sector
smart[{#HDDNAME},pend]
smart_{#HDDNAME}_Health_Status
smart[{#HDDNAME},health]
smart_{#HDDNAME}_Model
smart[{#HDDNAME},model]
smart_{#HDDNAME}_Reallocated_Sector_Ct
smart[{#HDDNAME},realloc]
smart_{#HDDNAME}_Temperature
smart[{#HDDNAME},temp]
Triggers prototypes
HDD: Current_Pending_Sector на {#HDDNAME} {HOST.NAME} больше 5
{Win_monitor:smart[{#HDDNAME},pend].last()}>5
HDD: Reallocated_Sector_Ct на {#HDDNAME} {HOST.NAME} больше 5
{Win_monitor:smart[{#HDDNAME},realloc].last()}>5
HDD: Температура жесткого диска выше 55 градусов на {#HDDNAME} {HOST.NAME}
{Win_monitor:smart[{#HDDNAME},temp].last()}>55
HDD: зафиксирован рост CRC_Error_Count на {#HDDNAME} {HOST.NAME}
{Win_monitor:smart[{#HDDNAME},crc].change()}>0
HDD: зафиксирован рост Current_Pending_Sector на {#HDDNAME} {HOST.NAME}
{Win_monitor:smart[{#HDDNAME},pend].change()}>0 and {Win_monitor:smart[{#HDDNAME},pend].last()}>6
HDD: зафиксирован рост Reallocated_Sector_Ct на {#HDDNAME} {HOST.NAME}
{Win_monitor:smart[{#HDDNAME},realloc].change()}>0 and {Win_monitor:smart[{#HDDNAME},realloc].last()}>6
{Win_monitor:smart[{#HDDNAME},pend].last()}>5
HDD: Reallocated_Sector_Ct на {#HDDNAME} {HOST.NAME} больше 5
{Win_monitor:smart[{#HDDNAME},realloc].last()}>5
HDD: Температура жесткого диска выше 55 градусов на {#HDDNAME} {HOST.NAME}
{Win_monitor:smart[{#HDDNAME},temp].last()}>55
HDD: зафиксирован рост CRC_Error_Count на {#HDDNAME} {HOST.NAME}
{Win_monitor:smart[{#HDDNAME},crc].change()}>0
HDD: зафиксирован рост Current_Pending_Sector на {#HDDNAME} {HOST.NAME}
{Win_monitor:smart[{#HDDNAME},pend].change()}>0 and {Win_monitor:smart[{#HDDNAME},pend].last()}>6
HDD: зафиксирован рост Reallocated_Sector_Ct на {#HDDNAME} {HOST.NAME}
{Win_monitor:smart[{#HDDNAME},realloc].change()}>0 and {Win_monitor:smart[{#HDDNAME},realloc].last()}>6
В description прототипов добавляем функцию hddsmart, она будет добавлять модель HDD в тело сообщения триггера, чтобы было понятно, о каком именно харде идет речь, т. к. smartctl использует в качестве имени sda, sdb и т. п.
MYparsBLOCK:hddsmart:
HIP:{HOST.DNS}:KKEY:smart[{#HDDNAME},model]
Большинство параметров агент не понимает, поэтому в конфигурации клиента обязательно нужно прописать все UserParameter.
UserParameter
UserParameter=battery.charge,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost battery.charge
UserParameter=battery.charge.low,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost battery.charge.low
UserParameter=battery.charge.warning,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost battery.charge.warning
UserParameter=battery.mfr.date,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost battery.mfr.date
UserParameter=battery.runtime,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost battery.runtime
UserParameter=battery.runtime.low,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost battery.runtime.low
UserParameter=battery.temperature,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost battery.temperature
UserParameter=battery.type,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost battery.type
UserParameter=battery.voltage,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost battery.voltage
UserParameter=battery.voltage.nominal,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost battery.voltage.nominal
UserParameter=input.sensitivity,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost input.sensitivity
UserParameter=input.transfer.high,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost input.transfer.high
UserParameter=input.transfer.low,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost input.transfer.low
UserParameter=input.voltage,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost input.voltage
UserParameter=output.current,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost output.current
UserParameter=output.frequency,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost output.frequency
UserParameter=output.voltage,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost output.voltage
UserParameter=output.voltage.nominal,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost output.voltage.nominal
UserParameter=ups.beeper.status,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.beeper.status
UserParameter=ups.delay.shutdown,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.delay.shutdown
UserParameter=ups.delay.start,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.delay.start
UserParameter=ups.firmware,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.firmware
UserParameter=ups.firmware.aux,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.firmware.aux
UserParameter=ups.load,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.load
UserParameter=ups.mfr,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.mfr
UserParameter=ups.mfr.date,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.mfr.date
UserParameter=ups.model,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.model
UserParameter=ups.productid,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.productid
UserParameter=ups.serial,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.serial
UserParameter=ups.status,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.status
UserParameter=ups.test.result,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.test.result
UserParameter=ups.timer.reboot,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.timer.reboot
UserParameter=ups.timer.shutdown,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.timer.shutdown
UserParameter=ups.timer.start,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.timer.start
UserParameter=ups.vendorid,"c:\Program Files (x86)\NUT\bin\upsc.exe" primary@localhost ups.timer.vendorid
UserParameter=smart[*],"C:\Program Files\Zabbix\cmd\smart.cmd" "$1" $2
UserParameter=smart.discovery, "C:\Program Files\Zabbix\cmd\hdd_scan.exe"
smart.cmd
@echo off
rem use smart.cmd <disk> < parameter> smart.cmd sda health
cd "C:\Program Files\Zabbix\cmd"
if %2==health ("C:\Program Files\Zabbix\extra\smart\smartctl.exe" -H %1 | grep result | awk "{print $6}")
if %2==model ("C:\Program Files\Zabbix\extra\smart\smartctl.exe" -i %1 | grep "Device Model" | awk -F"Device Model:" "{print $2}")
if %2==realloc ("C:\Program Files\Zabbix\extra\smart\smartctl.exe" --attributes %1 | grep Reallocated_S | awk "{print $10}")
if %2==crc ("C:\Program Files\Zabbix\extra\smart\smartctl.exe" --attributes %1 | grep CRC | awk "{print $10}")
if %2==pend ("C:\Program Files\Zabbix\extra\smart\smartctl.exe" --attributes %1 | grep Pend | awk "{print $10}")
if %2==temp ("C:\Program Files\Zabbix\extra\smart\smartctl.exe" --attributes %1 | grep Temperature_Celsius | awk "{print $10}")
Alert скрипт
Собственно сам скрипт, который будет отправлять письма и выполнять наши функции:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
#/var/lib/zabbixsrv/alertscripts/mail.py
import string
import re
import subprocess
import sys
import time
import os
# функция для отправки писем, ищем готовую, переделываем для себя
def send_mail(recipient, subject, body):
import smtplib
from email.MIMEText import MIMEText
from email.Header import Header
from email.Utils import formatdate
encoding='utf-8'
SMTP_SERVER = 'smtp'
SENDER_NAME = u'Zabbix Alert'
session = None
msg = MIMEText(body, 'plain', encoding)
msg['Subject'] = Header(subject, encoding)
msg['From'] = Header(SENDER_NAME, encoding)
msg['To'] = recipient
msg['Date'] = formatdate()
try:
session = smtplib.SMTP(SMTP_SERVER)
session.sendmail(SENDER_NAME, recipient, msg.as_string())
except Exception as e:
raise e
finally:
# close session
if session:
session.quit()
# Zabbix не должен ждать выполнения скрипта, поэтому делаем так, чтобы скрипт работал в фоне.(ищем готовый пример, переделываем для себя)
def daemonize (stdin='/dev/null', stdout='/dev/null', stderr='/dev/null'):
try:
pid = os.fork()
if pid > 0:
sys.exit(0)
except OSError, e:
sys.stderr.write("fork #1 failed: (%d) %s\n" % (e.errno, e.strerror))
sys.exit(1)
os.chdir("/")
os.umask(0)
os.setsid()
try:
pid = os.fork()
if pid > 0:
sys.exit(0)
except OSError, e:
sys.stderr.write("fork #2 failed: (%d) %s\n" % (e.errno, e.strerror))
sys.exit(1)
for f in sys.stdout, sys.stderr: f.flush()
si = file(stdin, 'r')
so = file(stdout, 'a+')
se = file(stderr, 'a+', 0)
os.dup2(si.fileno(), sys.stdin.fileno())
os.dup2(so.fileno(), sys.stdout.fileno())
os.dup2(se.fileno(), sys.stderr.fileno())
#Добавляем в оповещение модель харда
def hddsmart():
m=re.search('MYparsBLOCK\:\S+\:\s+HIP\:(?P<hostip>\S+)\:KKEY\:(?P<kkey>\S+)',a3)
hostip,kkey= m.group('hostip'),m.group('kkey')
p = subprocess.Popen('zabbix_get -s '+hostip+' -k '+kkey, shell=True,stdout=subprocess.PIPE)
bb = a3[0:string.find(a3,'MYparsBLOCK')] + 'HDD: ' + p.stdout.read()
send_mail(sys.argv[1],a2,bb)
#Подготовка списка машин на удаление. Удалять будем через api в отдельном скрипте
def remove_offline():
if 'PROBLEM:' in a2:
m=re.search('MYparsBLOCK\:\S+\:\s+HID\:(?P<hostid>\S+)',a3)
hostid = m.group('hostid') + '\n'
hidf=open('/var/log/zabbixsrv/2del_ids', 'a')
hidf.write(hostid)
hidf.close
send_mail(sys.argv[1],a2,a3[0:string.find(a3,'MYparsBLOCK')])
# Костыль, который возвращает к жизни драйвер для упса. Перезапускаем девайс с помощью утилиты microsoft devcon.
def nutpt():
if 'PROBLEM:' in a2:
m=re.search('MYparsBLOCK\:\S+\:\s+HIP\:(?P<hostip>\S+)',a3)
hostip = m.group('hostip')
log = ''
i = 0
while i < 5:
p = subprocess.Popen("""zabbix_get -s %s -k 'system.run[net stop "Network UPS Tools"]'"""%(hostip), shell=True,stdout=subprocess.PIPE)
log +=p.stdout.read()
time.sleep(10)
p = subprocess.Popen("""zabbix_get -s %s -k system.run['cd "C:\Program Files\Zabbix\cmd\"&devcon.exe restart USB\VID_051D*']"""%(hostip), shell=True,stdout=subprocess.PIPE)
log +=p.stdout.read()
time.sleep(30)
p = subprocess.Popen("""zabbix_get -s %s -k 'system.run[net start "Network UPS Tools"]'"""%(hostip), shell=True,stdout=subprocess.PIPE)
log +=p.stdout.read()
i += 1
p = subprocess.Popen("""zabbix_get -s %s -k 'ups.status'"""%(hostip), shell=True,stdout=subprocess.PIPE)
if 'Error' not in p.stdout.read():
i = 8
if i <> 8:
send_mail(sys.argv[1],a2,log)
#набор действий при авторегистрации клиента. Пока это только включение smart с помощью smartctl.exe --scan-open
def firstrun():
m=re.search('MYparsBLOCK\:\S+\:\s+HIP\:(?P<hostip>\S+)',a3)
hostip = m.group('hostip')
p = subprocess.Popen("""zabbix_get -s %s -k system.run['cd "C:\Program Files\Zabbix\extra\smart\"&smartctl.exe --scan-open']"""%(hostip), shell=True,stdout=subprocess.PIPE)
log = p.stdout.read()
send_mail(sys.argv[1],a2,log)
daemonize(stdout='/var/log/zabbixsrv/script_out.log', stderr='/var/log/zabbixsrv/script_err.log')
try:
a1,a2,a3 = sys.argv[1],sys.argv[2],sys.argv[3]
#debug(строчку ниже при необходимости можно раскомментировать )
#os.system('echo "' + a1+' '+a2+' '+a3 +'" >> /var/log/zabbixsrv/script_dbg.log')
if 'MYparsBLOCK' in a3:
eval(re.search('MYparsBLOCK\:(?P<myfunc>\S+)\:',a3).group('myfunc'))() # запуск функции полученной из триггера
else:
send_mail(sys.argv[1],a2,a3)
except:
#print sys.exc_info()
send_mail('admin@domain.local', 'Error in script', str(sys.exc_info()))
Имейте в виду, что если получателей несколько, то и функция выполнится несколько раз. Для чего-то это актуально(например модель HDD), а для чего то может быть даже вредным, поэтому это обязательно надо учесть при настройке Actions.
Скрипт для удаления неактивных хостов
#!/usr/bin/python
#
import os
from pyzabbix import ZabbixAPI, ZabbixAPIException
try:
os.rename ('/var/log/zabbixsrv/2del_ids','/var/log/zabbixsrv/klist_pr')
except:
pass
user='apirobot'
pwd='*******'
url = 'https://127.0.0.1/zabbix/'
zh = ZabbixAPI(url)
zh.session.verify = False
zh.login(user=user, password=pwd)
f = open('/var/log/zabbixsrv/klist_pr')
for hnm in f:
try:
hid = zh.host.get(filter={"host":hnm.replace('\n','')},output=['hostid'])[0]['hostid']
#zh.host.delete(hostid = hid) - API change
zh.host.delete(int(hid))
except:
pass
f.close()
os.remove('/var/log/zabbixsrv/klist_pr')
Для работы скрипта нужен аккаунт с правами на удаление машин. Я запускаю скрипт по крону под другим аккаунтом, т. к. здесь хранится пароль в открытом виде.
Подключаем агенты по dns-имени
По дефолту агенты регистрируются так, что zabbix подключается к ним по ip. Меня это не устраивает, поэтому пишем скрипт, который это поправит, а заодно и сообщит о проблемах lookup. За основу взял какой-то скрипт из примеров pyzabbix и немного переделал.
use_fqdn.py
#!/usr/bin/python
#
# -*- coding: utf-8 -*-
import socket
from getpass import getpass
from pyzabbix import ZabbixAPI, ZabbixAPIException
zapi = ZabbixAPI(server='https://127.0.0.1/zabbix/')
zapi.session.verify = False
zapi.login('apirobot', '*******')
body = ''
err = ''
def send_mail(recipient, subject, body):
import smtplib
from email.MIMEText import MIMEText
from email.Header import Header
from email.Utils import formatdate
encoding='utf-8'
SMTP_SERVER = 'smtp'
SENDER_NAME = u'zabbix@domain.local'
MAIL_ACCOUNT = 'zabbix@domain.local'
session = None
msg = MIMEText(body, 'plain', encoding)
msg['Subject'] = Header(subject, encoding)
msg['From'] = Header(SENDER_NAME, encoding)
msg['To'] = recipient
msg['Date'] = formatdate()
try:
session = smtplib.SMTP(SMTP_SERVER)
session.sendmail(MAIL_ACCOUNT, recipient, msg.as_string())
except Exception as e:
raise e
finally:
# close session
if session:
session.quit()
# Loop through all hosts interfaces, getting only "main" interfaces of type "agent"
for h in zapi.hostinterface.get(output=["dns","ip","useip"],selectHosts=["host"],filter={"main":1,"type":1}):
#print h
# Make sure the hosts are named according to their FQDN
#
if len(h['dns']) == 0:
try:
zapi.hostinterface.update(interfaceid=h['interfaceid'], dns = socket.gethostbyaddr(h['hosts'][0]['host'])[0])
except:
body += ('FQDN_UPD_ERR: ' + h['hosts'][0]['host']) + '\n'
try:
a = socket.gethostbyaddr(h['hosts'][0]['host'])[2][0]
b = socket.gethostbyaddr(h['dns'])[2][0]
if (a != b):
body += ('Warning: %s has dns "%s"' % (h['hosts'][0]['host'], h['dns'])) + '\n'
except:
body += ('DNS_LOOKUP_ERR: ' + h['hosts'][0]['host']) + '\n'
# Make sure they are using hostnames to connect rather than IPs (could be also filtered in the get request)
if h['useip'] == '1':
body += ('%s is using IP instead of hostname. Fixing.' % h['hosts'][0]['host']) + '\n'
try:
zapi.hostinterface.update(interfaceid=h['interfaceid'], useip=0)
except ZabbixAPIException as e:
#print(e)
err += str(e)+'\n'
err += '\n'
continue
body += '\nZabbix Errors:' + err
if len(body) > 16:
send_mail('admin@domain.local','check agents',body)
Постскриптум
» Все скрипты, шаблон и прочие необходимые файлы выложены на github.
» Мониторим клиентские ПК в Microsoft AD с помощью Zabbix. Часть 1 — Автоустановка