easterism Aug 28 2010 at 11:24

Горький опыт, резервное копирование и качественная техподдержка

3 min

25K

Information Security *

+57

Comments 74

Screatch Aug 28 2010 at 11:28

Сочувствую Вам, вы стали очередной жертвой закона бутерброда.

В разных ситуациях используем разные средства, в некоторых случаях бекапы грузится на другой сервер, в некоторых на другой винчестер, а иногда для бекапов используется Dropbox.

Screatch Aug 28 2010 at 11:32

Хотя нет, в Вашем случае скорее применим Закон Мёрфи :)

isden Aug 28 2010 at 11:37

> P.S. Напишите в коментах, какие средства вы используете для резервного копирования?

для базы лучше всего делать тупо дамп средствами MySQL, жать его и хранить как есть. последующие бэкапы — это по сути диффы от начального состояния. раз, например, в неделю делать полный бэкап (и последующие ежедневные диффы уже от него).
файлы — аналогично. для файлов кстати, если они в основном текстовые (вебсайты например) может быть лучше подойдет использование VCS (с бэкапом его конечно же).

easterism Aug 28 2010 at 12:22

База да, согласен, после этого случая я примерно так и сделал.
Файлу не так актуальны, т.к. итак есть несколько копий у разработчиков и под версиями. Хотя… пойду-ка я проверю как у меня там.

Iv8 Aug 28 2010 at 14:11

Эту процедуру очень украшает много ядерный процессор.

База крутится на сервере с 2 4-х ядерными ксеонами, архив сразу пакуется в gzip, причем в темпе 200Мб/c.

После взятия архива мен отправляется письмо: " Резервная копия сделана, порядок ".

4 раза в сутки rsnapshot с бекап сервера забирает резервные копии важных файлов, дамы базы данных и.т.д.

По результату мне сваливается письмо в почту с похожим содержанием.

Просматривая почту проверяю наличие свежих отчетов и сильно не переживаю.

Раз в 3 месяца на тестовой машине проводится репитиция восстановления из бекапа.

easterism Aug 28 2010 at 14:15

Ну там блэйд тож ничего. 8 ядер (логических 16). 12 гиг оперативки.

UFO landed and left these words here

isden Aug 28 2010 at 11:39

бэкапы кстати (если они действительно важны) лучше хранить в двух и более удаленных друг от друга местах (локальный сервер, винт с еженедельными бэкапами в сейфе, месячный архив в криптоконтейнере на удаленном сервере, etc)

easterism Aug 28 2010 at 12:07

Это все понятно, но в моем случае ставка делалась именно на HP. Они кстати и правда не понимают как такое могло случиться.
К тому же дывает так, что данные не должны покидать серверную. Ну и представьте что основное устройство, контролирующее все процессы накрылось. Данные скорее всего целехоньки, вот только попробуй их достань теперь.

isden Aug 28 2010 at 12:20

> К тому же дывает так, что данные не должны покидать серверную.

а если пожар в серверной? как минимум тогда хотя-бы нужно регулярно скидывать бэкапы на переносной винт/ленты и хранить его в сейфе у начальника.

> Ну и представьте что основное устройство, контролирующее все процессы накрылось. Данные скорее всего целехоньки, вот только попробуй их достань теперь.

напомнило ситуацию с накрывшимся аппаратным RAID контроллером (из тех что хранят служебные данные во встроенной флешке). данные фактически есть на винтах, но их хрен восстановишь.

Gangsta Aug 28 2010 at 12:13

А я никогда не бэкаплю что-то отдельно, целиком жесткий диск. Места всегда хватает, если использовать Incremental backup, который по сути в случае бэкапа добавляет только те данные, которые изменились. Юзаю Acronis True Image.

Т.к. все это делается на бинарном уровне, то вопрос появления вопросиков просто исключен.

bondbig Aug 28 2010 at 12:22

LVM-снапшоты.

easterism Aug 28 2010 at 12:23

Да. Но там виндовс…

bondbig Aug 28 2010 at 12:26

Теневая копия тома? Хотя не знаю, как она дружит с SQL.

easterism Aug 28 2010 at 12:29

Если честно, не работал. Спасибо, почитаю.

UFO landed and left these words here

k4shik Aug 28 2010 at 12:34

Как я вас понимаю, у меня вот тут в пятницу рухнула система вся на серваке, а конкретно винт с виндой и файлохранилищем, абсолютно неожиданно, просто взяло все и рухнуло. Винт полетел, с трудом получилось восстановить файло. Бекапы системы не делалось оооочень давно, единственный бекап был двухгодичной давности с которого я и восстановил систему, щас вот сижу все привожу к нужному виду. Делайте бекапы всегда и всего что очень важно! Не ленитесь! Проверяйте состояние резервного копирования! Делайте копии ваших бекапов на другие носители!

bondbig Aug 28 2010 at 12:45

рейда не было, как я понимаю?
Не следует смешивать отказоустойчивость дисковой подсистемы (raid 1|5|6), бэкапы (копии файлов, образы систем, дампы баз, etc.) и архивирование (ленточные накопители, отдельный сервер в удаленном ДЦ, etc.) в одну кучу, это три разных составляющих доступности данных.

k4shik Aug 28 2010 at 12:55

Да я и не сравниваю вовсе, я рассказал о своей проблеме и о том, что я не снимал периодически образы системы, а сейчас мне предстоит настроить много чего заново, а если бы я снимал периодически образы системы, то я бы не сидел бы щас на работе и не выходил бы завтра на работу и в понедельник мне предстоит настраивать пользовательские компы когда они выйдут на работу.

RussianNeuroMancer Aug 28 2010 at 13:11

А как же RAID?

RussianNeuroMancer Aug 28 2010 at 13:44

Не обновил страницу перед отправкой.

sunnybear Aug 28 2010 at 12:38

Была ночь и я, без надежды на успех, написал в аську супорту Novosoft

У Novosoft 24/7 поддержка через ICQ? О_о

easterism Aug 28 2010 at 12:43

Нет. Но мне было не до того. Первый раз я написал совершенно отбалды.

nazarov Aug 28 2010 at 12:42

Я для бэкапов информации с компьютера использую DropBox.com, SugarSync.com, а для сайтов и всей остальной онлайн жизни (почты, твиттера, фоток) — Backupify.com

easterism Aug 28 2010 at 13:29

А как быть с бэкапом «онлайн жизни». Не подумайте что это плохо, важно что вы бэкапите впринципе. Куда — это уже второй вопрос.
Так вот в моем случае, это серверная с режимным доступом без выхода в интернет.

nazarov Aug 28 2010 at 13:55

ну тогда для бэкапа «онлайн жизни» используйте онлайн-сервисы, а для серверной с режимным доступом придется оффлайн утилитами пользоваться и переносным винтом. А если данные не должны покидать серверную, то пусть там стоит сейф, в который этот винт положить можно. Ну и конечно противопожарный сейф

kerrygun Aug 28 2010 at 12:42

rst Aug 28 2010 at 12:43

Один из этапов тестирования продукта у нас это тестирование бекапов при полной физической потере рабочих данных (датацентр с рабочими серверами взорвался:) ).
Берется человек, который ничего не знает о системе.
Ему даются ссылки на документацию по развертыванию системы, развертыванию бекапов. Запрещается общаться с админами которые систему админят и программистами которые систему программят. Он выставляет требования для восстановления: сервера, оси. Мы сетапим сервера. После сетапа замеряем сколько времени потребовалось для процедуры восстановления и удалась ли она вообще.
Если не удалась — определяем в чем дело — доки, отсутствие компонент и т.д.

В зависимости от нагруженности проекта, мы сервера держим либо в VZ-контейнерах на наших фермах, либо на выделенных серверах.
Соответственно бекапим сами контейнеры. Мускуль бекапим через репликацию: мастер -> слейв и со слейва уже либо пофайлово либо дамп.

kid Aug 28 2010 at 18:08

По моему очень профессиональный подход!
Если бы вы были моим сисадмином я бы на вас молился!

VolCh Aug 28 2010 at 18:11

Читал комменты и думал: «неужели никто не предложит тестировать бэкапы хотя бы после первого создания и серьёзных изменений». Сам так жестоко («человек, который ничего не знает», «запрещается общаться с админами» и т. п.) не тестировал, но уж на виртуалке прогнать полный цикл восстановления после «взрыва датацентра» обязан, по-моему, любой, кто процедуру резервного копирования организовал.

rst Aug 28 2010 at 19:02

Конечно, общаться мы напрямую не запрещаем. Это лишь моделирование ситуации.
Все знают о программисте, которого переехал автобус. Сисадминов почему-то все считают автобусоупорными :)

Одно из моих правил построения бизнеса — бизнес должен выживать при 100%-й ротации персонала. Лучше заранее заложить 10% времени на подобные риски, чем потом бегать с голой задницей. Спасало неоднократно.

Даже если у вас остались программисты, которые писали проект при падении системы, мало того, что вы тратите время(деньги) на восстановление, так еще и отвлекаете программистов (тратите деньги) на консультации. Если систему писали год назад, то им прийдется порядком пить кофе и вспоминать что же они там накодили.

VolCh Aug 28 2010 at 19:24

>бизнес должен выживать при 100%-й ротации персонала.

Надо будет запомнить, а то «незаменимых людей нет» как-то приелось, а некоторые ещё и обижаются :) Правильный подход, конечно, но в моем случае избыточный — без меня мои данные и восстанавливать некому будет.

Но раз уж я решил делать бэкапы, то время от времени проверяю, а смогу ли я из них восстановить всё что нужно с нуля. Я в виртуалке имитирую ситуацию «старый комп упал, причём со стола упал, и куплен новый». Часто обнаруживается, кстати, при таком подходе (это не для вас, а для читателей и автора топика, а отдельный коммент не хочется писать), что в первоначальной стратегии резервного копирования что-то упущено (конфиги сервера БД, например) или копируется не полностью (данные есть, а их структуры или хранимых процедур нет)

LuciferOverLondon Aug 30 2010 at 13:46

> бизнес должен выживать при 100%-й ротации персонала

Это, кстати, называется «сертификация по ISO 9001», и на эту тему есть куча книжек и правил (но там, правда, не выживаемость, а более — обеспечение качества). Самое базовое — надо выделять бизнес-процессы и документировать их.

timoor Aug 28 2010 at 19:38

> Если систему писали год назад, то им прийдется порядком пить кофе и вспоминать что же они там накодили.

Поэтому я всегда говорил — код надо документировать, а в идеале документировать комментами в коде, и свн вести, с подробным описаловом изменений.
И сам с некоторых пор стал документировать все настройки, которые делаю. Не то, чтоб под автобус собрался, но порой напрочь забываешь через несколько месяцев что и где ты нагуглил. Хоть конфиги и бэкаплю, но все-таки…

divanikus Aug 28 2010 at 13:47

Да уж, бэкапы тема такая. В свое время поимел кучу батхерта из-за повреждения базы сервера ленточной библиотеки. К счастью рекавери план предусматривал копирование базы на ленты.

vicnaum Aug 28 2010 at 14:02

Дочь сказала на картинку: «Мальчик утонул в ванне...»
:-D

sergeyki Aug 28 2010 at 14:15

Поздравляю от души. Вы реально молодец, и люди, которые с вами работают должны гордиться знакомством с вами! Вам может показаться, что слишком сильно похвалил… Но я помню себя в такой ситуации, помню своих коллег и знаю, очень был большой соблазн — «а ну их нафиг, с их данными», а вы их сохранили, и все работает как прежде. Спасибо, за честное отношение к работе и поднятие имиджа нашей профессии!

aseroth Aug 28 2010 at 15:12

Вы идиот? Признайтесь честно. Сис админа был бы нафиг не нужен никому ВООБЩЕ, если бы не давал гарантию на целостность аппаратно-информационной структуры. Автор не гений и не Боярский, просто записки эникея, о том: «Вот я второй месяц на должности сис админа», любой вменяемый человек тестирует свои бэкапы, ЛЮБОЙ!

easterism Aug 28 2010 at 15:17

А я не в должности сисадмина. Да и «записки» совсем не об этом и не для таких НЕэникеев как вы. Я написал этот топик для того, чтоб помочь кому-то научиться на моих ошибках.

aseroth Aug 28 2010 at 15:19

Поймите ваш пост из серии: «Пагни, сегодня я сунул две спицы в розетку, не делайте так никогда, серьезно»

sergeyki Aug 28 2010 at 15:25

Очень редко встречаешь людей, которые любят свою работу и своих клиентов. Я не сисадмин, я занимаюсь софтом, но почему вы так негативно отзываетесь на опыт молодых (и зацените, честных, заинтересованных в работе) сотрудников в своей же отрасли? Они работают так, чтобы вам за профессию стыдно не было… Пожалуйста, бросайте негатив, не знаю куда, дайте людям работать в удовольствие… и поддерживайте их.

aseroth Aug 28 2010 at 15:35

«Я занимаюсь софтом» — понятно. Почему я так отзываюсь? Потому что: "(и зацените, честных, заинтересованных в работе)" и «Быстренько сделав задачу на бэкап и настроив уведомления я забыл об этом на полгода.» — взаимоисключающие понятия, как видите все просто.

sergeyki Aug 28 2010 at 15:46

Блин. Ну нельзя понять на самом деле что ты делаешь на работе, не попробовав кого-то этому научить. И дай тебе бог, если тебе на работу придет такой стажер как автор статьи — ты его на ура всему научишь. А если реально дерево придет, что ты будешь делать, как ты ему обяснять будешь что и почему делать надо?

aseroth Aug 28 2010 at 15:54

Зачем мне стажер дерево? Мало головастых девок и парней?

sergeyki Aug 28 2010 at 16:07

Мало. Очень мало.

sergeyki Aug 28 2010 at 15:57

А «быстренько настроил бэкап и уведомления» через пару лет придут к другой стороне — клиент захочет кнопочку Backup на рабочем столе иметь, плюс уведомление по почте. А работает клиент на MS Windows. И где вы в этот момент со своими специальными знаниями по юникс и не желанием общаться с людьми окажетесь?

aseroth Aug 28 2010 at 16:16

Понятно же где, в серверной с бакулой, не?

sergeyki Aug 28 2010 at 16:35

:) Как всегда ты сидишь дома если фиговая погода, дома есть инет и ты бдишь (скрипты хоть замутил, чтоб звенело если че?).

aseroth Aug 28 2010 at 16:42

Нееее, жена в церковь ушла, сижу с ребенком, «красные глаза это не про меня», работаю головой а не руками.

sergeyki Aug 28 2010 at 16:59

Счастья тебе, ребёнку и жене! В Москве жаль вряд-ли получиться встретиться — обычно проездом там (с рейса на рейс пересадка). А поругаться немного стоило все же явно :)

aseroth Aug 28 2010 at 17:03

И тебе удачу. Ругань зло, ребенок орет, нервничаю просто, добра тебе =)

Patron Aug 28 2010 at 14:51

очень удобно по крону сливать дампы на Amazon R3. у нас хостинг аккаунты пакуются и каждую ночь льются туда, где-то 3ГБ за ночь. денег в месяц получается в районе 15 баксов всего.

VolCh Aug 28 2010 at 18:18

Пробовали хоть раз произвести восстановление данных с нуля (например на виртуалке)?

DenisO Aug 28 2010 at 17:34

А у нас свой скрипт, который сливает по ночам бэкапы на яндекс.диск. ) Там 10 гигов бесплатного места.

DenisO Aug 28 2010 at 17:35

Еще этот скрипт и в гуглодоксы умеет заливать — там место по моему еще дешевле чем в Amazon R3 стоит. Может оформлю чуть позже ввиде статьи. )

tmp0000 Aug 28 2010 at 21:05

Что за скрипт? Самописный?

DenisO Aug 28 2010 at 22:04

Да. BASH + CURL?

tmp0000 Aug 28 2010 at 22:12

Годнэ. Оформляйте в виде статьи :)

inkvizitor68sl Aug 28 2010 at 19:04

Поздравляю. Вы очередной человек, попавшийся на удочку «а какое бы ПО мне сегодня заюзать в продакшене для вполне себе обычной задачи».

Ошибка раз — не использовали стандартный Mysql клиент (вот только не говорите, что под рукой не было VDSки с самым примитивным Linux, который пускал бы этот скрипт в bash'e).
Ошибка два — вы не использовали стандартный Mysql клиент
Ошибка три — …

Поверьте, приложение, которое годами затачивалось под определенную задачу всегда будет работать лучше аналогичного кусочка из адского комбайна. Добро пожаловать, в мир идеологии UNIX, где всё очевидно и просто.

diky13 Aug 28 2010 at 19:18

Это злой рок — вы только в начале пути. У нас это уже было несколько раз и каждый раз мы пытались обезопасить себя новыми способами — но случалось именно то, что наносило наибольший урон.
Жизнь админа это кошмар — но тот кто остается и разгребает все и должен зваться админом.

easterism Aug 29 2010 at 23:58

Ну вы меня какбуд-то прокляли. Да и не админ я вобщем. У нас его нет, поэтому обязанности исполняет тот, кому не безразлично.

timoor Aug 28 2010 at 19:27

> P.S. Напишите в коментах, какие средства вы используете для резервного копирования?

Базы данных — стандартными средствами самих баз данных. Попросту говоря — дамплю, потом гзипую, и на сторэдж, который зеркалируется. На мой взгяд ничего лучше еще не придумано.

1С обычной выгрузкой по расписанию, и тоже на сторэдж зеркальный. Может умнее было бы дампить МСсикульную базу, но насколько я в курсе, там проблемы с восстановлением, 1С без бубна видеть восстановленную базу не будет, так что выгрузка проще, да и бывает нужно поднять локально, на определенную дату.

А для файлов — Symantec Backup Exec, очень приличное решение, только один минус — не умеет он никсовые фс ставить на континюс протекшн. За сим пришлось поднимать ФриНАС и цеплять его к к винде по iSCSI. Итого я получаю постоянный текущий бэкап и возможность восстановления на 64(если память не подводит) шага назад, с указанным временным промежутком. При этом скоращаю свое вмешательство, т.к. пользователь сам может восстановить свои файлы по версиям, если случайно накосячил =)

akshakirov Aug 28 2010 at 20:05

давным давно, когда я был маленьким и бедным, бакапы я делал так:

a=`date +%Y-%m-%d-`user_database.sql
mysqldump -uuser_database -pdb_pass -hmysql_server user_database > $a && gzip $a
echo «this is user_database database dump» | mutt shakirov@gmail.com -a $a.gz -s «database backup „$a

т.е. делал дампы по крону и отправлял их на gmail. штука эта работала на шаред хостинге обыкновенном.

Arceny Aug 29 2010 at 01:12

Какие знакомые строчки :-) У меня примерно так же!

romx Aug 29 2010 at 02:43

Поздравляю, вы совершили почти все мыслимые ошибки при защите данных, которые можно было совершить.
У вас есть шанс запомниь этот случай, и больше никогда так не делать.

Впрочем, увы, наивно было бы думать, что ваш опыт хоть кого-то чему-то научит. «История учит, что она ничему не учит».

easterism Aug 29 2010 at 23:54

Никто тем более не научится, если даже не пытаться учить.

Rostik Aug 29 2010 at 06:42

Важно не то, как ты делаешь бекап.
Важно, можешь ли ты сделать restore.

stmuxa Aug 29 2010 at 10:02

напомнило это
xmages.net/storage/10/1/0/5/2/upload/159fc15c.jpg

gluk Aug 29 2010 at 12:53

Я согласен с Rostik и другими комментаторами выше — ошибка в том, что вы ни разу не пробовали восстановить данные раньше, чем это реально понадобилось. Как писал Джоел Спольский, Let’s stop asking people if they’re doing backups, and start asking if they’re doing restores.Let’s stop asking people if they’re doing backups, and start asking if they’re doing restores.

easterism Aug 29 2010 at 23:53

Дык никтож и не спорит. Более того, я и раньше это знал. Надо было сделать срочно, а работы и без того была масса. Вот я и пишу для того, чтоб другие так не делали.
Да я и Handy Backup недаром вспомнил. Сколько он уже существует, а такой простой баг до сих пор есть. Это говорит о том, что за все это время никто не обращался с проблемой, а возможно мало у кого доходило до реального восстановления. Пусть не все его юзают, но всеже программа популярна.

VolCh Aug 30 2010 at 14:13

Так написали бы в посте самый главный вывод — разработайте и проверьте не только систему резервного копирования, но и систему восстановления с резервных копий и, желательно, задокументировать, хотя бы для себя, чтоб через полгода не вспоминать, а что это за файл, глядишь кому в память и врежется :)

UFO landed and left these words here

Nastradamus Aug 30 2010 at 10:51

1 бэкап файлов раз в месяц (24 бэкапа), 1 раз в неделю (4 бэкапа), 1 раз в день (24 бэкапа). Все с ротацией — при достижении макс. кол-ва файлов, все пишется в файл №1, потом в файл №2 и т.д.
С базой тоже самое, но еще идет репликация в другой ДЦ. Из-за репликации появляется возможность восстановить сайт за 5-10 минут на другом сервере. DNS переключается моментально из-за маленького TTL (юзаем платный DynDNS).

Все это дело бэкапится в 5 точек, находящихся в разных концах Москвы.

Когда-то бэкап шел на другой сервер в том же датацентре. Но скачек напряжения, вырубивший оба сервера, заставил пересмотреть подход к бэкапу.

Все на Perl + Shell.
Ах да, еще файлы хранятся в SVN, который имеет зеркало.

Осталось настроить отчеты и сделать страничку с общей статистикой.