Albertum17 сен 2012 в 17:09

7 очевидных правил безопасного системного администрирования физических серверов

1 мин

74K

Системное администрирование *

+51

Комментарии 70

drakmail 17 сен 2012 в 17:14

На одном из серверов у меня установлен вот такой забавный баннер и $PS1 показывает, где и под каким пользователем я нахожусь: ascii.io/a/1166. Но на других серверах также сделать всё руки не доходят.

Albertum 17 сен 2012 в 17:19

Мы тоже «раскрашиваем» сервера (вот так habrahabr.ru/post/107038/), но и это помогает не всегда :)

deniszh 18 сен 2012 в 09:34

Не поделитесь рецептиком случайно? Спасибо заранее. :)

drakmail 18 сен 2012 в 10:14

gist.github.com/3742409

Собственно, .bashrc давно где-то подсмотрел, немного адаптировав под свои нужды, баннер сделал через figlet :)

deniszh 18 сен 2012 в 10:23

Благодарствую, поковыряем. :)

iscsi 18 сен 2012 в 17:44

sudo su? sudo -i

drakmail 18 сен 2012 в 18:13

Знаю, просто как-то уже привык, да и набирать sudo su удобнее.

JDima 17 сен 2012 в 17:20

0. Помнить законы Мерфи. Всё, что может упасть, непременно упадет. Обязательно исходить из худшего при планировании работ.
8. Заранее согласовать maintenance window и убедиться, что отключение сервера не вызовет катастрофы у коллег. Возможно, имеет смысл заранее остановить другие системы, которым может поплохеть от внезапного исчезновения пациента из сети.
9. Постараться организовать инфраструктуру так, чтобы отключение одного сервера не вызывало отказа всего сервиса.
10. Если п.9 выполнен, то перед любыми мало-мальски опасными действиями следует штатно вывести сервер из экспуатации. Это легко реализовать так, чтобы ни один пользователь и ни одна сторонняя система этого не заметили. А потом пусть он хоть сутки лежит — в худшем случае снижаются производительность сервиса и степень резервированности.

НЛО прилетело и опубликовало эту надпись здесь

foxmuldercp 17 сен 2012 в 18:13

А почему именно физических?
Моё мнение, что это в полной мере относится и к виртуальным машинам, в общем, разве что исключая некоторые ньюансы.

Albertum 17 сен 2012 в 18:24

Вы правы. Первоначально в заголовке было и про виртуалки. В процессе редактирования подсократил.
Но с виртуалками чуть проще — часто к ним есть прямой «терминальный» доступ.

foxmuldercp 17 сен 2012 в 18:27

Там кстати хватает ньюансов, например хост-машина, обращающаяся за авторизацией пользователя на виртуалку — DC, которая живёт на ней, которая внезапно умерла — проходили, мозги админу промывали…

Вообще еще вот сильно хорошо и правильно это документирование — L1,L2,L3, L>4…
Что, где, почём, как настраивалось…

Envek 18 сен 2012 в 01:25

например хост-машина, обращающаяся за авторизацией пользователя на виртуалку, которая живёт на ней, которая внезапно умерла

OH, SHI--

AterCattus 17 сен 2012 в 18:48

0) Работать в screen.
1) Если вносятся изменения в ssh-server, то заранее поднять ssh-server на альтернативном порту. При разрыве соединения поможет вести себя адекватно :)

foxmuldercp 17 сен 2012 в 19:00

еще можно по таймауту сделать рестарт сервиса/сервера, например

AterCattus 17 сен 2012 в 19:01

Если конфиг испорчен — не поможет. А вообще да, job/cron на ближайшее будущее со скриптом отката — хорошая практика.

foxmuldercp 17 сен 2012 в 19:03

по таймауту восстановить конфиг из бекапа и рестар сервиса/сервера еще туда же.

AterCattus 17 сен 2012 в 19:04

Да, точно.

gkir 18 сен 2012 в 07:37

тут главное не забыть его потом отключить ;)

inkvizitor68sl 17 сен 2012 в 18:50

Сочуствую вашей работе, ей богу)
У меня так:
1. сделай в тестинге
2. сделай на паре машин продакшна.
3. сделай на первой половине кластера
4. сделай на оставшемся кластере.

aectann001 19 сен 2012 в 20:57

Как минимум, для этого нужно, чтобы все четыре перечисленные тобой понятия имели смысл (:

inkvizitor68sl 19 сен 2012 в 21:11

Ы. Мы тут все соберемся так скоро)

Я думаю, для тех, у кого есть что-то вроде кластера (или хотя бы 1-2 стадии тестинга) — имеет смысл, даже если слова непонятны. А админам, у кого dev == testing == production, можно кол на голове тесать — не поможет. Впрочем, для девелоперов тоже актуально.

hyperwolf 17 сен 2012 в 18:53

Раскрашено приветствие сервера в .bashrc. Помогает в частности то, что хостнэйм у машин разный, и он ярко выделен.

AterCattus 17 сен 2012 в 18:59

Еще помогает не наломать дров, да и вообще экономит время, на машинах с разных хостерских площадок — у каждого хостера свой цвет.

lair 17 сен 2012 в 19:12

Правило 0: сделай снимок виртуальной машины.

foxmuldercp 17 сен 2012 в 19:15

я бы сказал — установи виртуалку, накати гостевые дополнения, обнови по максимуму, слделай снапшот, накати нужный софт, в процессе документируй что где и как, после чего еще один снапшот, после чего шатдаун и тест включения на другом физическом сервере виртуализации.
Что, в общем не мешает бекапу

lair 17 сен 2012 в 19:28

Ну, я исхожу из того, что мы обновляем что-то, а не ставим с нуля.

strib 17 сен 2012 в 19:24

0. Проведи работы на тестовом сервере и подожди сутки;
7. Веди отдельный лог команд во время проведения работ, чтобы потом судорожно не рыться в history;
8. Работать надо в здравом уме и светлом разуме, а не работать день-вечер и ночью накатвать обновления;
9. Разноси аппаратные, состемные и прикладные обновления как минимум на сутки;

eafanasov 17 сен 2012 в 20:19

Не выполняй несколько критичных, требующих внимательности работ параллельно. Закончил с одной — приступай к другой.

hyperwolf 17 сен 2012 в 21:08

Добавлю еще — если не выспался или там отвлекают — лучше вообще сделать logout на сервере. Пару раз в конце дня, сонный и с задуренной головой, едва-едва не выключил удаленный сервер. В принципе у меня в каждом сервере стоит своя kvm, но все равно минут 5-10 простоя критичны, и обидны, когда сделаны из-за глупости. После этого кстати и стал я раскрашивать hostname у серверов — во первых, яркий цвет сразу в глаза бросается, во-вторых при выводе больших сообщений на экран четко видна разница к примеру между двумя выводами сообщений.

От себя еще добавлю пару моментов. К сожалению, screen-ом я не пользуюсь по ряду причин, но пользуюсь tmux, он тоже умеет функции screen. По вечерам и в пятницу никаких обновлений, мне дороги выходные. То есть обновления лучше накатить в районе полуночи, чтобы чуть что — была ночь времени. Обязательно бэкап всех конфигов и прочих важных файлов.

Masamasa 18 сен 2012 в 08:32

Ну тогда ещё одно правило, убрать из пуска shutdown\reboot

JDima 18 сен 2012 в 10:34

А из «безопасного извлечения» — сетевуху. А то один раз коллеги таким вот образом умудрились потерять сервер.

egorF 17 сен 2012 в 20:52

x. Сложи все сервисы на этом сервере за несколько десятков минут до начала работ. В случае, если окажется, что этот сервер нес что-то критическое, о чем забыли — ты сможешь мгновенно это что-то запустить и отложить maintenance.

strib 18 сен 2012 в 04:57

А потом объясняйся перед руководством, службой мониторинга, финансами, почему начал работы невовремя и все занервничали…

foxmuldercp 18 сен 2012 в 06:28

не всегда. клгда-то у знакомого тоже отвалился сервер, а на нём оказалась достаточно критичная забытая до полной автоматизации штука, нужная раз в день… ночью она, понятное дело не отработала…

charliez 17 сен 2012 в 20:54

У нас еще есть сервер, на котором поднята загрузка по сети. В случае факапа, пострадавший сервер пускается в перезагрузку, загружается по сети, на него можно зайти по ssh, примонтировать разделы и откатить изменения.

foxmuldercp 17 сен 2012 в 20:55

я выше описал: бекап конфигов и если что-то пошло не так в планировщике восстановление конфигов из бекапов и рестарт нужных сервисов/сервера.
загрузка по сети — да, тоже, в общем позитивно.

НЛО прилетело и опубликовало эту надпись здесь

inkvizitor68sl 19 сен 2012 в 21:15

Ещё есть кошмарный прикол на эту тему. Большие мониторы, переключение активного окна курсором мыши (а не кликом). Периодически такое переключение залипает. В итоге админы тащат мышь, тянут её в консоль и пишут reboot. А потом радостно наблюдают сообщение вида system will be rebooted now в соседней консоли)

Себя в этом месте полечил двумя моментами:
1) ноут никогда не выключать, а усыплять.
2) если нужен ребут локальной машине (ноуту) — делать из ctrl-alt-f1 или по кнопке.

Vinchi 17 сен 2012 в 22:46

Как завещал великий Админ — «Бэкап, бэкап и еще раз бэкап».

Pilat 17 сен 2012 в 23:41

1) У меня в планах написать программу, которая сканирует сеть nmap'ом и запоминает открытые порты, с тем чтобы после изменений/перезагрузок проверить не потерялось ли что-то (актуально при перезагрузки сервера виртуализации с кучей виртуалок).

2) Наверно стоит netstat перед изменением запускать и сравнивать после изменений — это всё к тому, что некоторые сервисы имеют тенденцию быть запущены вручную год назад, про них все забыли, и в автозагрузку не включили.

3) перед изменениями стоит сделать перезагрузку без внесения каких либо изменений, чтобы убедиться что сервер вообще рабочий. Некоторые ошибки незаметны во время работы, но проявляются при загрузке — например такое бывает у grub при переходе от 1 к 2-й версии, или в некоторых дистрибутивах-сборках типа turnkey, при смене ядра.

4) посмотреть что в логах пишется, отфильтровав сообщения мусорящих сервисов типо cron, postfix

5) убедиться что на сервере достаточно свободного места

6) посмотреть насчёт работающих сессий screen

danfe 18 сен 2012 в 00:48

Не правило, но примета: настраиваешь firewall на удаленном сервере — к дороге.

Newbilius 18 сен 2012 в 03:37

Как выше верно подметили, cron с откатом конфига может спасти от дальней дороги :)

litos 18 сен 2012 в 04:37

Во FreeBSD есть скрипт /usr/share/examples/ipfw/change_rules.sh который помогает избежать данной ситуации, там если отвалился shell, то происходит возврат правил обратно.
Для iptables возможно тоже есть подобное, если кто знает — подскажите, пожалуйста.

netmaniac 18 сен 2012 в 06:52

выше уже несколько раз писали про крон
пишем скрипт с дефолтными правилами + обязательно с открытым портом ссх
прописываем скрипт в крон, начинаем работать с фаером
закончили работать, проверили, убрали скрипт
еще главное не забыть убрать)

лет 10 назад ночью наступил на эту «мину», благо правила применял в живую, а не писал в конфиг
попросил сотрудников ткнуть ресет сервера по приходу в офис:)

vasilisc 18 сен 2012 в 04:10

Прочёл что большинство техногенных катастроф были в понедельник. Люди за субботу, воскресенье настроят планов и с утра понедельника начинают слишком ретиво всё внедрять.
Взял за правило, в понедельник ничего серьёзного не внедряется, только текущие задачи.
К вторнику обычно все затеи критически переосмысливаются.
То есть на критические изменения в понедельник и в пятницу — табу!

Madmutalisk 18 сен 2012 в 06:30

Понедельник день тяжелый. Наученный горьким опытом я все делаю в выходные. Желательно в субботу с утра, чтобы был запас времени на устранение внезапно случившегося факапа.
Основное правило — забэкапь всё, с чем будешь работать. При работе с базами (наша весит 600гб и ее простой недопустим в принципе) всегда проверяю возможность восстановления из бэкапа. Заранее минимум день-два предупреждаю всех пользователей о недоступности сервиса, чтобы не сорвать какую-нибудь отчетность у бухгалтерии или другого департамента.
Как уже писали, никогда не вношу изменений если буду отсутствовать в офисе на следующий день. Обновления стараюсь ставить только критичные, в этом вопросе руководствуюсь пословицей «не было печали, апдейтов накачали».

timukas 18 сен 2012 в 06:57

ИМХО, в субботу с утра не самый хороший вариант.
1. Если что-то пошло не так, то возможно придётся поднимать/искать других адимнов. В субботу это сделать сложнее, чем в середине недели, так как админы могут уехать на дачу, напиться и что-то подобное.
2. В субботу обычно не полная нагрузка на системы, как в рабочие дни. Тяжело будет понять, всё ли работает как надо с меньшей нагрузкой.

Madmutalisk 18 сен 2012 в 07:15

Я начальник отдела, по этому полагаюсь только на себя ))

AterCattus 18 сен 2012 в 07:25

1. Хорошо, когда админы работают посменно 7 дней в неделю.
2. В выходные не всегда падение, есть проекты, где наоборот значительный рост.

Colobock 18 сен 2012 в 04:32

Не забываем одно из главных правил: не крути две ручки сразу. То есть: сделал одно изменение — проверь последствия. Только потом меняй что-то еще.

НЛО прилетело и опубликовало эту надпись здесь

foxmuldercp 18 сен 2012 в 06:31

Некоторые вещи таки делаются исключительно в небизнес тайм и требуют большого промежутка времени — например очень толстые бекапы, когда ресурс должен быть полностью отключен.

НЛО прилетело и опубликовало эту надпись здесь

lair 18 сен 2012 в 07:02

Ну вот у нас есть конкретный такой «бизнес», где единственный продолжительный даунтайм — новогодние праздники.

НЛО прилетело и опубликовало эту надпись здесь

lair 18 сен 2012 в 08:16

Сверхурочными, очевидно. Чего тут скрывать.

RUVATA 18 сен 2012 в 09:26

Не всегда толковая мотивация… особенно в НГ

lair 18 сен 2012 в 09:53

А не надо ничего в сам НГ делать, есть же еще каникулы.

AlexSelivanoff 18 сен 2012 в 09:31

Хорошие сверхурочные, видимо

RUVATA 18 сен 2012 в 09:37

Осталось понять сопоставимы ли эти «хорошие сверхурочные» и срочность/объемы необходимых работ… а то и «хорошие сверхурочные» знаете ли :)

RUVATA 18 сен 2012 в 09:24

Правила правилами, мы их все мастера составлять :) Видно-же, что грабельки-то затоптанные…
Судя по «своим» и своему опыту, кажется мне, что таки только ~~сафари по долине Серенгети, пешком, голышом, со свежей говяжей вырезкой намертво прилепленной к спине~~ «экскурсия через семь кругов ада» вызванная факапом собственного производства, включает тот самый режим осторожности, спланированности и обдуманности действий, и лишь в этом случае имеют практическую пользу такие вот советы.
Мы вот взяли за практику новичкам стресс-тест устраивать (и весело и полезно, главное потом не спалиться, что факап подстроен, ну и естественно быть в боеготовности все сделать самим если пациент облажается)

merlin-vrn 18 сен 2012 в 12:41

lvm --snapshot /dev/vg/root -L 50G -n tmp-root

после этого правка конфига grub: default saved, в пункте 0 — savedefault 1, а пункт 1 — это старый, рабочий конфиг со старым, рабочим томом root

после этого, даже в случае проблем с загрузкой сервера с нового переделанного рута, после физического ребута он по-любому будет «как раньше».

Если через неделю, скажем, всё ОК — можно сносить снэпшот.

Albertum 18 сен 2012 в 18:29

Хорошая подстраховка. Но никак руки не дойдут этот вариант оттестировать.

milar 18 сен 2012 в 16:10

Правила безопасности всегда составляются индивидуально. Обжигаются когда их было недостаточно, замедляют время работы когда они избыточны. Поэтому всегда разговор об идеальной схеме работы заканчивается решением руководствоваться только здравым смыслом.

Аппроксимируя мысль в целом можно сказать, что основная идея безопасной схемы — продуманная архитектура. Когда весь сервис будет доступен в полном или ограниченном режиме всегда. И если все таки не будет доступен, то сможет сказать о проблемах сам или с помощью наблюдающих.

amarao 18 сен 2012 в 17:42

А что такого плохого, если сервер не поднимется? Ну попросить инженеров перезагрузить, ну в крайнем случае утром в понедельник переустановить. (хорошо, когда облако).

Albertum 18 сен 2012 в 18:27

Если кратко, то «время — деньги».

amarao 18 сен 2012 в 20:33

Время человека или время машины?

Время машины деньги, только если есть кто-то, кто готов за это время платить. Так как всегда есть резерв по серверам, то нет никакой разницы, кто из них будет выключенным.

ЗЫ Я ещё раз намекаю, что в хорошей архитектуре выключение сервера не влияет на функциональность системы.

anthony2005 20 сен 2012 в 08:28

В первую очередь нужно прикрыть собственную жопу необходимым количеством служебок. В идеале — получить от руководства приказ на выполнение такого рода работ, в ответ на который написать рапорт с подробным изложением причин «почему это сделать невозможно, но я попытаюсь».

JDima 20 сен 2012 в 17:58

написать рапорт с подробным изложением причин «почему это сделать невозможно, но я попытаюсь».

При каждом потенциально опасном действии? Это будет минимум пара рапортов уже на первый рабочий день, а дальше закономерное увольнение.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий