В прошедший вторник приказал долго жить почтовый сервер на базе SBS 2008, по совместительству выполняющий роль основного контроллера домена, DNS сервера, DHCP, sharepoint сервера и файловой помойки (когда пишу это, сам просто в не понимаю, как можно было все это свалить на один сервер). В итоге процесс восстановления функционирования предприятия затянулся на четыре дня.
День первый.
В восемь часов утра сервер просто завис, при этом не успел записать логи Exchange, в итоге после перезагрузки все кроме почты поднялось. В процессе ее отлаживания сервер начал зависать. В итоге провозившись с ним до вечера, ни к чему не пришли. Вечером решили попробовать перенести RAID-контроллер с жесткими дисками на другой сервер, и попробовать завести все на нем. Завели, тестировали час и оставив проверяться логи и базу данных Exchange поехали домой (время было уже 10 часов вечера).
Добравшись до дома в 12, я уже не смог удаленно подключиться к серверу. Ну хоть выяснили в чем причина — RAID-контроллер. Почему то не спалось. В два часа ночи уже был на работе, перенес винты на старый сервер и продолжил попытки реанимации БД. До утра он у меня ни разу не завис, ох как я был рад. Но как только с утра начали подключаться клиенты — ситуация повторилась.
День второй.
С утра начали подымать пустую машину (Server 2008 R2), чтобы перенести на нее почту, а так же на резервном контроллере домена подняли DHCP и DNS сервера параллельно пытаясь восстановить работоспособность старого сервера. В итоге за этим восстановлением конкретно повредили рэйд (рэйд контроллер теперь вообще не определял какой на этих жестких дисках тип рэйд). У нас остался только винчестестер с резервной копией сервера. На пустую машину залили Exchange 2010, копию базы данных, и начали проверять. Этим я занимался впервые, и поэтому после часа работы проверку прервал, так как подумал что она зависла. При попытке подключить пользователей к базе данных, сервер мне сообщил, что БД может работать только на той версии сервера, на которой была создана (2007). Домой опять поехали в 10.
День третий.
За ночь скачал Exchange 2007, к восьми часам утра поставил. При подключении базы данных выяснилось, что зря я не дождался окончания проверки днем ранее — база не подключалась. На проверку базы ушло еще 5 часов. После этого выяснилось что нужно обновить Exchange, ну и параллельно узнал что 2008 R2 полноценно поддерживает Exchange только с SP3.
Часам к восьми вечера база была подключена и хоть как-то начала работать.
У семнадцати счастливчиков уже при отправке им писем — возвращалась ошибка. По ним было решено — заархивировать почту, сохранившуюся на компьютере и заново создать ящики.
День четвертый.
У 80% пользователей почта восстановлена. Не знаю уж где Exchange хранит коннекторы отправки и получения, настройки owa, но на новом сервере можно было увидеть настройки старого, поэтому почти все настройки были восстановлены.
Так же была восстановлена файловая помойка.
Итог.
В итоге, кроме того что автор — сказочный дебил, можно написать следующее:
1. Делать бэкапы больше и чаще.
2. Периодически проводить учения по восстановлению бэкапов.
3. Составить план действий при экстренных ситуациях с каждым из серверов (восстановить можно было бы гораздо быстрее, если бы сразу начали подымать чистый сервер для почты).
4. Почта, файловая помойка и контроллер домена (так же DNS, DHCP) должны находиться на разных серверах.
День первый.
В восемь часов утра сервер просто завис, при этом не успел записать логи Exchange, в итоге после перезагрузки все кроме почты поднялось. В процессе ее отлаживания сервер начал зависать. В итоге провозившись с ним до вечера, ни к чему не пришли. Вечером решили попробовать перенести RAID-контроллер с жесткими дисками на другой сервер, и попробовать завести все на нем. Завели, тестировали час и оставив проверяться логи и базу данных Exchange поехали домой (время было уже 10 часов вечера).
Добравшись до дома в 12, я уже не смог удаленно подключиться к серверу. Ну хоть выяснили в чем причина — RAID-контроллер. Почему то не спалось. В два часа ночи уже был на работе, перенес винты на старый сервер и продолжил попытки реанимации БД. До утра он у меня ни разу не завис, ох как я был рад. Но как только с утра начали подключаться клиенты — ситуация повторилась.
День второй.
С утра начали подымать пустую машину (Server 2008 R2), чтобы перенести на нее почту, а так же на резервном контроллере домена подняли DHCP и DNS сервера параллельно пытаясь восстановить работоспособность старого сервера. В итоге за этим восстановлением конкретно повредили рэйд (рэйд контроллер теперь вообще не определял какой на этих жестких дисках тип рэйд). У нас остался только винчестестер с резервной копией сервера. На пустую машину залили Exchange 2010, копию базы данных, и начали проверять. Этим я занимался впервые, и поэтому после часа работы проверку прервал, так как подумал что она зависла. При попытке подключить пользователей к базе данных, сервер мне сообщил, что БД может работать только на той версии сервера, на которой была создана (2007). Домой опять поехали в 10.
День третий.
За ночь скачал Exchange 2007, к восьми часам утра поставил. При подключении базы данных выяснилось, что зря я не дождался окончания проверки днем ранее — база не подключалась. На проверку базы ушло еще 5 часов. После этого выяснилось что нужно обновить Exchange, ну и параллельно узнал что 2008 R2 полноценно поддерживает Exchange только с SP3.
Часам к восьми вечера база была подключена и хоть как-то начала работать.
У семнадцати счастливчиков уже при отправке им писем — возвращалась ошибка. По ним было решено — заархивировать почту, сохранившуюся на компьютере и заново создать ящики.
День четвертый.
У 80% пользователей почта восстановлена. Не знаю уж где Exchange хранит коннекторы отправки и получения, настройки owa, но на новом сервере можно было увидеть настройки старого, поэтому почти все настройки были восстановлены.
Так же была восстановлена файловая помойка.
Итог.
В итоге, кроме того что автор — сказочный дебил, можно написать следующее:
1. Делать бэкапы больше и чаще.
2. Периодически проводить учения по восстановлению бэкапов.
3. Составить план действий при экстренных ситуациях с каждым из серверов (восстановить можно было бы гораздо быстрее, если бы сразу начали подымать чистый сервер для почты).
4. Почта, файловая помойка и контроллер домена (так же DNS, DHCP) должны находиться на разных серверах.