All streams
Search
Write a publication
Pull to refresh
10
0
Олег Клещук @xenozauros

User

Send message
iowait может быть по множеству причин. Не факт, что винт там будет на первом месте. И не факт, что для всех 20% это правильный порог.
Вопрос в том, что синтетический тест чтения с диска — это для сферических коней в сжиженном вакууме может пригодится. Но автору виднее, может для него это важная метрика ))
Без систем управления конфигурациями на серьезных проектах все равно не обойтись. И, проще все делать из одной точки.
Никто не мешает сделать так, например…
В конфиге заббикс агента:
Include=/etc/zabbix/zabbix_agentd.conf.d/
Потом прописываете в puppet, например, в манифесте, который ставит nginx, чтоб он
  • положил в этот каталог файлик с необходимыми пользовательскими параметрами
  • в sites-enabled nginx положил конфиг сервера, который будет отдавать nginx_stats на 127.0.0.1
  • запустил скрипт, который через zabbix API добавит необходимый шаблон к вашему хосту
  • при необходимости — положил нужные скрипты, добавил в крон
  • перезапустил заббикс агент

После этого вся установка nginx вместе с мониторингом будет занимать ровно одну строчку в описании ноды.
Да я же не говорю, что это плохо. Просто у них так принято, а у нас — нет. В целом — крайности плохи, истина где-то между ))
Конечно, параметр -c
Не проснулся с утра )))
Я бы порекомендовал пойти чуть дальше и генерировать из шаблонов и распространять все конфиги и скрипты мониторинга автоматически через любую удобную систему управления конфигурациями — puppet/chef/ansible и т.п. Тогда не надо будет ни о стандартах думать внутренних, ни переживать на тему «не забыл ли я скопировать какой-то скрипт, открыть порт в фаерволе, настроить status-page на веб-сервере». Впрочем, это тема для отдельного большого разговора ))
Ох. На западе там в этом плане очень не как у нас. У них принято жаловаться и не делить ответственность. То есть — не мы вместе просрали задачу, а я молодец, а Боб — все просрал. Это, наверное, самое главное отличние западных команд от наших по менталитету.
На самом деле, если вы не отправляется с хоста данные «за того парня», то чем указывать zabbix_sender руками имя хоста и сервера, проще и правильнее указать через опцию -z путь к конфигу заббикс агента на машине. Оттуда sender прекрасно заберет и отправителя и адресата.
В таком случае, вы можете менять эти параметры в одном месте и не бегать по куче скриптов, разыскивая, где осталась зарытая собака.
У нас что-то подобное. Вполне работает.
Спасибо за r10k, надо посмотреть.
Все на эти грабли наступали.
А просто надо устраивать тренировки по восстановлению. Ну хотя бы раз в квартал.
Согласен. А лучше использовать внешние сервисы проверок совместно с заббиксом. Он приглядывает изнутри за здоровьем. А сервисы — снаружи, глазами пользователя. Ну или/и за заббиксом.
Но, кстати, надо сказать, что система черевата следующим факапом — когда у нас изза DDOS атаки лег свитч и заббикс потерял 100 серверов, то он нагенерировал 300 колл файлов (по одному на сервак и каждому админу). И, ввиду легшего свитча, не смог отдать файлы астериску. А когда, через час сеть появилась, мы получили 300 исходящих звонков и (не говоря уже про мат озверевших админов, отбивающихся от астериска) долгие разборки с SIP провайдером на тему, что нам якобы поломали астериск и отключили, на всякий случай.
Сообщения через SIP — это не работает.
А звонки — легко.

Ну как-то так, например (там вначале регулярка — вырезает текст из нашего шаблона, у вас, скорее всего чуть по другому будет, но суть та же):

#!/bin/bash
cd /tmp
PHONE=$1
TEXT=`echo "${*:2}"| sed 's/\[//' | sed 's/\]//'`
FILE=`echo "$PHONE$(date +%s)" | md5sum | cut -f1 -d ' '`
echo $TEXT | /usr/bin/text2wave -o /tmp/$FILE.ulaw -otype ulaw -eval "(voice_cmu_us_slt_arctic_hts)" >> /tmp/$FILE.debug.txt 2>&1
cat <<EOF > /tmp/$FILE.call
Channel: SIP/Sipnet-Out-1/011$PHONE
MaxRetries: 2
RetryTime: 30
WaitTime: 60
Priority: 1
Application: Playback
Data: "alerts/$FILE"
EOF
cp /tmp/$FILE.ulaw /usr/share/asterisk/sounds/alerts > /dev/null 2>&1
cp /tmp/$FILE.call /var/spool/asterisk/outgoing > /dev/null 2>&1
rm /tmp/$FILE.ulaw
rm /tmp/$FILE.call

А это зависит от того, как дежурства построены (если они есть). Если есть внутренее SLA, в котором прописано время реакции на SMS, то это проблема админа, как он просыпаться будет )))
Что именно привести?
Доку по настройке астериска? Или как реализовать звонки с алертами через него?
Мне правда не жалко, просто надо понять масштаб катастрофы )))
В целом согласен. Скайп, в любом слуаче, не лучший инструмент для оповещений.
А если сервера в Гонолулу стоят каком в датацентре?
Ну я бы сказал, что SMS и живые звонки — хороши в качестве эскалации по disaster событиям. По высокому северити можно и так, например.
Так а астериск чем плох?
call файлы в спулер. И фестивалем алерт проговаривать — у нас прекрасно работает.

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Date of birth
Registered
Activity