Search
Write a publication
Pull to refresh

Коллапс

В прошедший вторник приказал долго жить почтовый сервер на базе SBS 2008, по совместительству выполняющий роль основного контроллера домена, DNS сервера, DHCP, sharepoint сервера и файловой помойки (когда пишу это, сам просто в не понимаю, как можно было все это свалить на один сервер). В итоге процесс восстановления функционирования предприятия затянулся на четыре дня.

День первый.
В восемь часов утра сервер просто завис, при этом не успел записать логи Exchange, в итоге после перезагрузки все кроме почты поднялось. В процессе ее отлаживания сервер начал зависать. В итоге провозившись с ним до вечера, ни к чему не пришли. Вечером решили попробовать перенести RAID-контроллер с жесткими дисками на другой сервер, и попробовать завести все на нем. Завели, тестировали час и оставив проверяться логи и базу данных Exchange поехали домой (время было уже 10 часов вечера).

Добравшись до дома в 12, я уже не смог удаленно подключиться к серверу. Ну хоть выяснили в чем причина — RAID-контроллер. Почему то не спалось. В два часа ночи уже был на работе, перенес винты на старый сервер и продолжил попытки реанимации БД. До утра он у меня ни разу не завис, ох как я был рад. Но как только с утра начали подключаться клиенты — ситуация повторилась.

День второй.
С утра начали подымать пустую машину (Server 2008 R2), чтобы перенести на нее почту, а так же на резервном контроллере домена подняли DHCP и DNS сервера параллельно пытаясь восстановить работоспособность старого сервера. В итоге за этим восстановлением конкретно повредили рэйд (рэйд контроллер теперь вообще не определял какой на этих жестких дисках тип рэйд). У нас остался только винчестестер с резервной копией сервера. На пустую машину залили Exchange 2010, копию базы данных, и начали проверять. Этим я занимался впервые, и поэтому после часа работы проверку прервал, так как подумал что она зависла. При попытке подключить пользователей к базе данных, сервер мне сообщил, что БД может работать только на той версии сервера, на которой была создана (2007). Домой опять поехали в 10.

День третий.
За ночь скачал Exchange 2007, к восьми часам утра поставил. При подключении базы данных выяснилось, что зря я не дождался окончания проверки днем ранее — база не подключалась. На проверку базы ушло еще 5 часов. После этого выяснилось что нужно обновить Exchange, ну и параллельно узнал что 2008 R2 полноценно поддерживает Exchange только с SP3.
Часам к восьми вечера база была подключена и хоть как-то начала работать.

У семнадцати счастливчиков уже при отправке им писем — возвращалась ошибка. По ним было решено — заархивировать почту, сохранившуюся на компьютере и заново создать ящики.

День четвертый.
У 80% пользователей почта восстановлена. Не знаю уж где Exchange хранит коннекторы отправки и получения, настройки owa, но на новом сервере можно было увидеть настройки старого, поэтому почти все настройки были восстановлены.
Так же была восстановлена файловая помойка.

Итог.
В итоге, кроме того что автор — сказочный дебил, можно написать следующее:
1. Делать бэкапы больше и чаще.
2. Периодически проводить учения по восстановлению бэкапов.
3. Составить план действий при экстренных ситуациях с каждым из серверов (восстановить можно было бы гораздо быстрее, если бы сразу начали подымать чистый сервер для почты).
4. Почта, файловая помойка и контроллер домена (так же DNS, DHCP) должны находиться на разных серверах.
Tags:
Hubs:
You can’t comment this publication because its author is not yet a full member of the community. You will be able to contact the author only after he or she has been invited by someone in the community. Until then, author’s username will be hidden by an alias.