Pull to refresh

Disaster Recovery Plan: Как правильно заваривать чай, когда горит серверная

Level of difficultyEasy
Reading time9 min
Views7.4K

Компания у нас на full-remote, поэтому заседание кружка параноиков мы проводим как-то так. Иногда под банджо в углу.

В жизни любого проекта наступает катастрофа. Мы не можем заранее знать, что именно это будет - короткое замыкание в серверной, инженер, дропнувший центральную БД или нашествие бобров. Тем не менее, оно обязательно случится, причем по предельно идиотской причине.

Насчет бобров, я, кстати, не шутил. В Канаде они перегрызли кабель и оставили целый район Tumbler Ridge без оптоволоконной связи. Причем, животные, как мне кажется, делают все для того, чтобы внезапно лишить вас доступа к вашим ресурсам:

Макаки жуют провода. Цикады принимают кабели за ветки, и расковыривают их, чтобы отложить внутрь яйца. Акулы жуют трансатлантические кабели Google. А в топе источника проблем для крупной телекоммуникационной компании Level 3 Communications вообще были белки.

Короче, рано или поздно, кто-то обязательно что-то сломает, уронит, или зальет неверный конфиг в самый неподходящий момент. И вот тут появляется то, что отличает компании, которые успешно переживают фатальную аварию от тех, кто бегает кругами и пытается восстановить рассыпавшуюся инфраструктуру - DRP. Вот о том, как правильно написать Disaster Recovery Plan я сегодня вам и расскажу.

Читать далее
Total votes 36: ↑36.5 and ↓-0.5+37
Comments43

Вебинар DataLine «Строим Disaster Recovery: чек-лист по процессам и инструментам» 18 марта

Reading time1 min
Views837

На вебинаре поговорим, с чего начать создание DR внутри компании, как это продавать бизнесу и выбрать адекватные инструменты.

Подробности и регистрация
Total votes 10: ↑10 and ↓0+10
Comments0

План аварийного восстановления — уверенность в завтрашнем дне для всей компании и спокойный сон ИТ-отдела

Reading time6 min
Views50K

Знакомая ситуация?

Есть такая штука – непрерывность бизнеcа. Эта сфера уже достаточно развита и подразумевает, что ваш бизнес может продолжить работу без происшествий даже после попадания метеорита в дата-центр или офис.

Интересно, что сейчас в России успешное внедрение планов аварийного восстановления бизнеса обладает побочным эффектом в виде быстрого карьерного роста предложившего и внедрившего.
Читать дальше →
Total votes 36: ↑33 and ↓3+30
Comments27

Business Continuity and Operation Resilience on paper vs. for real

Level of difficultyEasy
Reading time7 min
Views549

Hello, my reading friends!

My previous post (rus) on Habr was about how the Business Continuity Management function started, as well as about its relations with other corporate functions. In fact, it was quite theoretical.

This time, I’d like to tell you about some practical vectors of procedures and tools implementation as regards to Business Continuity Management, or BCM, along with Operational Resilience, or OpRes. Plus some real initiatives that can follow the BCM & OpRes implementation in a company and the associated with it investigation of the corporate landscape and procedures.

More about initiatives for integration
Rating0
Comments1

Disaster Recovery — быстро поднятое упавшим не считается

Reading time18 min
Views18K

Когда я собирал материал и писал эту статью, обстановка в мире была более-менее стабильна. После недавних событий часть информации потеряла актуальность, особенно в России, Беларуси и Украине: векторы сместились, настроения специалистов, да и простых людей — тоже. Цены растут, рубль слабеет, облачные сервисы останавливают работу, железо не купить, компании временно уходят, переставая продавать/продлевать лицензии и услуги.

Команда Servermall делает всё возможное, чтобы продолжать поставки серверов, адаптировать логистические цепочки к новым реалиям и осуществлять 5-летнее гарантийное обслуживание. Да, спрос огромный, срок доставок немного увеличился, но серверы есть и будут — это главное. И пускай обстановка изменилась, основной посыл статьи всё тот же — оценивайте любые риски и составляйте план действий до их наступления.

Читать далее
Total votes 2: ↑2 and ↓0+2
Comments2

Жизнь после катастрофы: нюансы организации Disaster Recovery на предприятии

Reading time10 min
Views2.6K

В нашем мире многое нестабильно: запланированный отпуск может сорваться, погода на выходные – испортиться, и технологии, которые нацелены на защиту информации, – не исключение. С первых строчек может показаться, что все тлен, но рисками можно и нужно управлять. Например, поездку можно перенести, а на пикник взять зонтик. Неопределенность порождают как внешние, так и внутренние факторы, а сама она влияет на поставленные нами или компанией цели. За долгие годы работы команда «ЛАНИТ-Интеграции» собрала портфель инструментов, которые могут в буквальном смысле спасти компанию, и с одним из них мы хотим вас сегодня познакомить.

В этой статье расскажу о непредвиденных происшествиях, которые могут случиться на любом предприятии, к каким последствиям это может привести, а главное – как нивелировать риски потери ценной информации.

Читать далее
Total votes 24: ↑23 and ↓1+22
Comments2

Business continuity & Operational resilience: вчера, сегодня, завтра. Откуда пришло и что дальше?

Level of difficultyEasy
Reading time11 min
Views1.4K

Недавно The BCI (один из лидирующих институтов ведущих свою деятельность в области организационной устойчивости и непрерывности деятельности) выпустил свой регулярный отчет «BCI Operational Resilience Report 2023» совместно с Riskonnect (решения в области риск-менеджмента).

Один из вопросов для респондентов был «Eсть ли разница между «организационной уcтойчивостью» и «операционной устойчивостью». Судя по ответам и достаточно ожидаемо - разницы для большинства респондентов и в большинстве организаций нет. А еще коллеги по итогу изучения отчета подняли тему того, что The BCI ввел еще один новый термин «организационная устойчивость» в дополнение к «непрерывность бизнеса» и «операционная устойчивость».

На Хабре по запросу «Непрерывность бизнеса», «DRP», «BCP», «BIA» найдется порядочное количество статей от моих коллег (с некоторыми коллегами знаком лично, а с некоторыми даже посчастливилось какое-то время поработать совместно) на тему восстановления информационных систем, тестирования ИС, отказоустойчивой инфраструктуры и еще несколько тем. Но нет ни одной статьи, в которой было бы своими словами написано «А откуда вообще это все пошло, как изменяется, куда идет и почему».

Я решил это исправить, написать статью и ответить на вопросы: «Откуда пошло обеспечение непрерывности деятельности и операционная устойчивость?», «Как изменяется?», «Куда идет и почему?».

И в этой статье поделиться своими мыслями о развитии отрасли и ее текущем де-факто состоянии при зрелом (и не очень) уровне внедрения, которые сформировал для себя.

Читать далее
Total votes 3: ↑2 and ↓1+1
Comments2

«Бумажная» VS. «Реальная» непрерывность бизнеса и операционная устойчивость

Level of difficultyEasy
Reading time6 min
Views1.4K

Здравствуйте, читатели!

Моя предыдущая статья на Хабре рассказывала о становлении функции обеспечения непрерывности бизнеса и об ее взаимодействии с другими корпоративными функциями, и носила в большей степени теоретический характер.

Сейчас же я хочу поделиться с вами практическими векторами внедрения процесса обеспечения непрерывности бизнеса (Business continuity management, BCM) и операционной устойчивости (Operational resilience, OpRes). А также реальными инициативами, которые могут последовать по итогам внедрения BCM & OpRes в компании и сопутствующего этому изучению ландшафта и процессов организации.

Далее я перечислю 10 (десять) практических шагов BCM&OpRes, которые при внедрении в ландшафт компании будут полезны, и они далеки от «бумажек». А также кратко укажу некоторые возможные цели и кейсы использования данных инициатив.

10 инициатив по итогу внедрения BCM&OpRes
Total votes 3: ↑3 and ↓0+3
Comments0

BCM & Operational resilience: yesterday, today, and tomorrow. Where has it come from and what comes next?

Level of difficultyEasy
Reading time11 min
Views572

Recently, The BCI, one of the leading institutes working in the field of organizational resilience and business continuity, issued its regular report BCI Operational Resilience Report 2023 in collaboration with Riskonnect, who work with risk management solutions.

One of the questions they asked the respondents was if there was a difference between organizational resilience and operational resilience. As the answers demonstrated, for most respondents (and in most companies) these terms were used as synonyms. Having studied the report, the colleagues brought up another matter – The BCI introduced the new term of "organizational resilience" in addition to "business continuity" and "operational resilience".

If we search Habr for "Business Continuity", "DRP", "BCP", or "BIA", we’ll find quite enough posts by my colleagues (I’ve met some of them face to face and worked with the others) about data system recovery, data system testing, fault-tolerant infrastructure, and some other things. Yet, hardly any of them explain where all of it has come from, how it is changing, where it is heading – and why.

I thought the time has come to change the situation for the better and answer some of the questions like where business continuity provisions and operational resilience has come from, how they are changing, and where this trend is heading and why. To share my thoughts about development of the industry and its current de-facto state in case of a mature (or not too mature) introduction level – some things I’ve stated for my own use.

Intersections BCM & corporate functions
Rating0
Comments0

Планирование аварийного восстановления. Вторая часть

Reading time6 min
Views30K

Готовимся к любым падениям




Это продолжение цикла публикаций, посвященных вопросам планирования аварийного восстановления. В предыдущей статье речь шла об определении зоны планирования и нахождении точек отказа, которые могут приводить к сбоям в работе пользовательских сервисов. Следующий шаг – опираясь на информацию о точках отказа определить минимально возможные сроки устранения инцидентов, которые могут обеспечить технические специалисты при наличии всех необходимых ресурсов.

Собственно, необходимые ресурсы будут в дальнейшем предметом торга с руководством компании, помогая найти баланс между инвестициями в информационные технологии, временем простоя и потерей данных в случае сбоя. Но это потом, а пока нам нужно определить какие сроки восстановления мы в принципе можем выжать из ИТ-инфраструктуры в случае сбоя. Поехали:
Читать дальше →
Total votes 16: ↑15 and ↓1+14
Comments11

Планирование аварийного восстановления. Часть третья — заключительная

Reading time6 min
Views18K

Соотносим потребности бизнеса с его возможностями




В предыдущих статьях (1,2), посвященных вопросам планирования аварийного восстановления, были описаны процедуры сбора и обработки информации об ИТ-инфраструктуре организации, позволяющие получить точную информацию о:

  • ИТ-сервисах, критичных для бизнеса компании,
  • Текущем времени восстановления их работы в случае сбоя,
  • Минимально достижимых сроках аварийного восстановления,
  • Необходимых ресурсах для их достижения.

И все бы ничего, если бы не ограниченные финансовые возможности организации, не позволяющие приобрести все необходимые резервы для оперативного восстановления. По этой причине заключительная задача планирования аварийного восстановления – поиск баланса между потребностями и финансовыми возможностями бизнеса, и закрепление его в виде соглашения об уровне обслуживания (Service Level Agreement – SLA) в части устранения возникающих инцидентов.

Данный этап полностью состоит из согласования с руководством компании следующих аспектов взаимодействия:
Читать дальше →
Total votes 24: ↑21 and ↓3+18
Comments0

Планирование аварийного восстановления. Часть первая

Reading time3 min
Views46K

Определяем места, где стоит подстелить соломку




Отказы в работе информационных систем – события, которые невозможно исключить полностью. Вне зависимости от причин случившегося сбоя, в момент его возникновения на системного администратора ложится груз ответственности по оперативному восстановлению работоспособности не только ИТ-систем, но и бизнеса в целом.

В цикле из трех коротких статей я постараюсь доступно описать процесс формирования плана аварийного восстановления, который позволяет перевести задачи по восстановлению работоспособности систем в разряд заранее согласованных с руководством мероприятий, имеющих свой график, ресурсы и бюджет.

В первой статье речь пойдет об определении зоны планирования, или поиске тех инфраструктурных элементов, отказ в работе которых негативно влияет на частоту пульса системного администратора. Итак, по порядку:
Читать дальше →
Total votes 20: ↑18 and ↓2+16
Comments32

AERODISK Engine: Катастрофоустойчивость. Часть 2. Метрокластер

Reading time11 min
Views8.9K


Привет, читатели Хабра! В прошлой статье мы рассказали о простом средстве катастрофоустойчивости в системах хранения AERODISK ENGINE – о репликации. В этой статье мы погрузимся в более сложную и интересную тему – метрокластер, то есть средство автоматизированной защиты от катастроф для двух ЦОД-ов, позволяющее работать ЦОД-ам в режиме active-active. Расскажем, покажем, сломаем и починим.

Читать дальше →
Total votes 7: ↑7 and ↓0+7
Comments7

AERODISK Engine: Катастрофоустойчивость. Часть 1

Reading time11 min
Views7.3K


Привет, читатели хабра! Темой этой статьи будет реализация средств катастрофоустойчивости в системах хранения AERODISK Engine. Изначально мы хотели написать в одной статье про оба средства: репликацию и метрокластер, но, к сожалению, статья получилась слишком большой, поэтому мы разбили статью на две части. Пойдем от простого к сложному. В этой статье мы настроим и протестируем синхронную репликацию – уроним один ЦОД, а также оборвем канал связи между ЦОД-ами и посмотрим, что из этого получится.

Читать дальше →
Total votes 11: ↑11 and ↓0+11
Comments12

Готовим DRP — не забудьте учесть метеорит

Reading time6 min
Views26K

Даже во время катастрофы всегда есть время на чашку чая

DRP (disaster recovery plan) — это штука, которая в идеале никогда не понадобится. Но если вдруг мигрирующие в брачный период бобры перегрызут магистральное оптоволокно или джуниор-админ дропнет продуктивную базу, вы точно хотите быть уверены, что у вас будет заранее составленный план, что с этим всем безобразием делать.

Пока клиенты в панике начинают обрывать телефоны техподдержки, джуниор ищет цианиды, вы с мудрым видом вскрываете красный конверт и начинаете приводить все в порядок.

В этом посте я хочу поделиться рекомендациями, как надо писать DRP и что он должен содержать. А еще мы рассмотрим следующие штуки:

  1. Научимся думать как злодей.
  2. Разберем пользу чашки чая во время апокалипсиса.
  3. Продумаем удобную структуру DRP
  4. Посмотрим, как нужно его тестировать
Читать дальше →
Total votes 35: ↑34 and ↓1+33
Comments16

Главное о цифровых рисках и топовом софте, который их ликвидирует

Reading time18 min
Views7.1K


Изучим цифровые риски, их виды и разберемся, как от них защищаться. Рассмотрим шестерку всемирно признанных DRP (Digital Risk Protection) решений, сравним их по функционалу и цене, опираясь на аналитическую таблицу ROI4CIO.
Читать дальше →
Total votes 4: ↑3 and ↓1+2
Comments0

Драйвер-паки и их индексы

Reading time7 min
Views21K
Раз уж в нашем предыдущем посте мы пригласили всех желающих поучаствовать в добровольной помощи в разработке очередных версий DRP, сегодня пришла пора рассказать о том, как именно мы создаем немаловажную вещь при работе с большими архивами драйверов (необходимые сис. админам и другим профессионалам, занимающимся «серийной» настройкой компьютеров) — индексы.

У каждого пользователя на локальном компьютере собирается индекс всех драйверов, присутствующих в системе – в том числе и самой операционной системой. Его наличие позволяет ускорять поиск драйверов для установленных устройств, а в дальнейшем – и для их обновления. Другими словами – без индекса нельзя, его создание и дальнейшие обновления критическим образом сказываются на скорости и эффективности работы нашего приложения.


Герои Silicon Valley работают над оптимизацией собственных алгоритмов
Читать дальше →
Total votes 21: ↑19 and ↓2+17
Comments6

Вежливое приглашение к разработке

Reading time4 min
Views18K

Критикуешь – предлагай


Нас нередко ругают на Хабрахабре за то, что статьи недостаточно технические, а описание работы программы плохо детализировано. Но на самом деле каждый читатель понимает, что описать в одном посте абсолютно все – просто невозможно, потому что несколько лет развитие DRP шло во множестве направлений.

Часть из них связана непосредственно с исполняемым файлом, пресловутым .exe'шником; другая – с созданием архива и, что немаловажно, индекса драйверов; третья – с тестированием приложения и отдельных версий драйверов для различного оборудования как на разных версиях ОС Windows, так и на железных стойках. Часть из этих решений мы отдаем в тестирование пользователям, проявившим особенный интерес.
Читать дальше →
Total votes 41: ↑30 and ↓11+19
Comments14

Обновленная и расширенная версия DriverPack Online – первая по значимости, 16 по номеру

Reading time4 min
Views115K
Когда ты поддерживаешь сотни офисных и домашних ПК, то без набора универсальных драйверов уже не обойтись. Без сомнений, самым популярным решением здесь является DriverPack Full, который имеет огромную базу драйверов, размером в 10 Gb! Это целых 910 000 драйверов собранных и протестированных вручную.

Если же нужно настроить только 1 компьютер, то качать 10 Gb — совсем не хочется, поэтому был сделан DriverPack Online. У него были свои недостатки, которые мы попробовали исправить в новом релизе. Так что остановимся подробнее на самых интересных моментах разработки.


Читать дальше →
Total votes 37: ↑27 and ↓10+17
Comments58

Отправка Nginx-логов в Google Analytics

Reading time5 min
Views20K
image

С наших Download-серверов каждый день скачивается несколько миллионов драйверов (статичных .exe и .zip файлов). Для анализа поведения пользователей перед нами встала задача посчитать следующие параметры: когда, сколько, как часто и даже кто именно скачивает драйверы.

Самым очевидным решением было бы использовать инструменты типа AWstat, GoAccess, ELK stack или Splunk, а в крайнем случае собирать логи Nginx.

Но у каждого варианта есть свои минусы: неудобный интерфейс, скудность данных, сложность настройки и, самое главное, отсутствие возможности строить сегменты в пользовательских отчётах.

И тогда мы решили заставить Nginx самостоятельно отправлять события в Google Analytics сразу же после скачивания файла. Мы также смогли передать в GA уникальный идентификатор пользователя ClientID.
В результате мы получили аналитику по статичным файлам, к которым раньше невозможно было привязать счетчик GA.

Под катом готовый конфиг и примеры работы нашей системы.
Читать дальше →
Total votes 38: ↑35 and ↓3+32
Comments14
1