Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Законы Мерфи в IT

Системное администрирование *IT-инфраструктура *Сетевые технологии *
Перевод
Не так давно мне довелось беседовать с разработчиком, не понимавшим, почему полностью резервированная связь между ЦОДами не может гарантировать 100% доступность сервиса.
Читать дальше →
Всего голосов 86: ↑81 и ↓5 +76
Просмотры 48K
Комментарии 82

Моя работа — ждать IT-катастрофы

Блог компании билайн бизнес Информационная безопасность *


Лучшее, что может случиться, — это если результаты того, что я делаю, никогда и никому не пригодятся.

Можно сказать, что я профессиональный параноик: моя задача — разрабатывать планы действий на случай чрезвычайных ситуаций и обучать людей грамотно реагировать в таких случаях. Зачем это нужно? Довольно просто — чтобы в случае непредвиденных ситуаций всегда была страховка.

Вот, например, знаете что будет, если землетрясение уничтожит основной московский ЦОД?


  1. Сработает автоматика и перебросит часть сервисов на другие ЦОДы. Всё то, что было active-active, продолжит работу (это базовые функции сети, вроде звонков и SMS).
  2. Затем включается базовый сценарий реакции. Сразу после происшествия формируются команды восстановления из специально обученных людей на объекте, имеющих подготовку по всем аспектам работы этого объекта. Например, из инженера на смене, охранника, системного администратора и так далее. Они бросают все свои текущие дела и занимаются только восстановлением.
  3. В течение первых 10 минут «бронзовая» команда восстановления анализирует ситуацию. На 11-й минуте руководитель команды докладывает команде более высокого уровня («серебряной», как правило, не присутствующей на объекте), например, главному инженеру и руководителю подразделения.
  4. «Серебряная» команда принимает решение на своём уровне. В нашем случае проблема явно особенно важная, поэтому команда связывается с «золотой» командой — руководителями самого высокого уровня. На принятие решения о том, что ситуация является чрезвычайной, уходит ещё 10 минут (это очень быстро). В течение ещё 5 минут активируются составленные нами планы аварийного восстановления.
  5. Руководители «бронзовых» команд собирают людей и идут восстанавливать, что могут, на месте. Параллельно собирается кризисный комитет, включающий известных специалистов, описанных в плане на этот случай.
  6. Далее кризисный комитет взаимодействует с HR, PR, безопасниками и другими службами. В частности, совершенно точно PR к этому моменту будет остро нуждаться в информации — абоненты уже полчаса без мобильного интернета, нужно выступить с данными о сроках восстановления.
  7. Разворачивается резервная точка. В течение 20-30 минут восстанавливается инфраструктурный слой. Затем идет восстановление СУБД и там, где надо, восстановление из архива с ленты. Далее — восстановление приложений (от получаса до дня).
  8. Параллельно в течение первого часа проверяется, как всё переехало.
  9. Затем появляются детальные отчёты. План аварийного восстановления заканчивается, и мы снова «засыпаем» до следующей ситуации.
Читать дальше →
Всего голосов 212: ↑201 и ↓11 +190
Просмотры 84K
Комментарии 73

Риски ЦОД: выбираем месторасположение

Блог компании Группа Компаний ХОСТ
Recovery mode
«Избежать катастрофы может только тот, кто считает ее возможной».
В. Швебель


Мы все больше зависим от достижений прогресса: читаем почту в кинотеатрах, отмечаем места своего присутствия в foursquare. И бизнес стал не менее зависим от технических достижений. И если для нас поломка телефона становится небольшим неудобством, то для компаний выход из строя любого элемента ИТ-инфраструктуры оборачивается колоссальными убытками. Один час простоя российского банка, входящего в ТОП-100, равен стоимости автомобиля представительского класса. А теперь представьте, размер убытков и упущенную прибыль, если у корпоративного ЦОД рухнули стены или рядом с ним прорвало теплотрассу. Быстро ли запустятся там сервисы? Сколько времени потребуется для восстановления работоспособности, если нет резервного ЦОДа?

Избежать такой катастрофы можно, изначально правильно спроектировав ЦОД, обратив внимание на его месторасположение, эффективность применяемых в нем решений, энергоемкость, надежность и окупаемость.



Читать дальше →
Всего голосов 11: ↑6 и ↓5 +1
Просмотры 7K
Комментарии 12

Курс «DevOps для Интернет-проектов» пройдет 21-22 сентября

Блог компании Express 42
DevOps — новый подход, ускоряющий внедрение эффективных решений, повышающий надёжность и безопасность интернет-проектов. Его применяют ведущие технологические компании — от Facebook до 37signals — объединяя для решения задач эксплуатации разработчиков и системных администраторов. Когда взаимодействие таких команд — война, DevOps — решение.

За 2 дня разберём внедрение DevOps на практике. Научим устанавливать окружение сервера за 5 минут, делать выкатку простой и управляемой, настраивать мониторинг так, чтобы он помогал, а не спамил. Объясним, когда использовать облака и CDN, где лучше размещать проект и как не пострадать от падения марсианского корабля на датацентр.

Курс ведут эксперты из Express 42 с 5-летним опытом внедрения DevOps практик в Groupon, КупиКупон, Оверсан-Скалакси, Skype. Теоретические знания закрепляются практикой.

Курс будет интересен техническим руководителям, разработчикам и системным администраторам. Для прохождения курса необходим ноутбук c Mac OS X или Linux и памятью от 4GB.

Записаться на курс!
Читать дальше →
Всего голосов 19: ↑15 и ↓4 +11
Просмотры 3.6K
Комментарии 5

Сказ о том, как сервер Dell PowerEdge ураган Сэнди пережил

Блог компании Dell Technologies Высокая производительность *
В прошлом году Америке не слишком повезло – в конце октября на нее обрушился тропический ураган Сэнди – восемнадцатый атлантический циклон с женским именем и неженским характером. Не соврем, если скажем, что запомнился он жителям всей планеты, хотя и не был самым мощным в истории человечества – тому виной вышедший ранее на большие экраны фильм-катастрофа «2012», в котором предсказания индейцев Майя о конце света, который якобы должен наступить именно в 2012 году, трактовались весьма однозначно: мир погибнет от сильнейших землетрясений и цунами. И вот, события фильма стали разворачиваться в режиме реального времени, и наблюдать за этим страшно было даже по телевизору – что уж говорить о жертвах и свидетелях разбушевавшейся стихии.
Читать дальше →
Всего голосов 40: ↑31 и ↓9 +22
Просмотры 13K
Комментарии 19

О Nutanix, Web-Scale, конвергентных платформах и смене парадигм построения IT инфраструктур

Блог компании Nutanix Big Data *
Возможно, вы уже слышали достаточно новый для рынка не_онлайн проектов термин — Web-Scale IT, который по мнению Gartner в 2017 году займет не менее 50% рынка корпоративного IT.

В этом году — это один из основных модных терминов.

Ситуация на корпоративных рынках сейчас активно напоминает фразу про подростковый секс — все говорят что имели (= умеют), но реально — дела обстоят невесело.

Буквально каждый вендор рассказывает про BigData, конвергентные решения, перспективы и прочее.

Мы в свою очередь смеем надеяться, что у нас с этим реально все весьма неплохо, но тут всегда виднее со стороны и ваше мнение может не совпадать с нашим.

Все же попробуем рассказать о том, как мы пытаемся изменить рынок, который в ближайшее время будет составлять десятки миллиардов долларов ежегодно и почему мы считаем что время традиционных решений для хранения и обработки данных подходит к своему закату.

image

Читать дальше →
Всего голосов 29: ↑20 и ↓9 +11
Просмотры 21K
Комментарии 82

Катастрофоустойчивость корпоративного дата-центра как услуга

Блог компании SAFEDATA
Существует множество решений для построения катастрофоустойчивых систем с использованием технологий консолидации и виртуализации вычислительных ресурсов, кластерных систем, технологий репликации и непрерывной защиты данных, и заказчик может построить катастрофоустойчивый ЦОД либо самостоятельно, либо с использованием площадок коммерческих дата-центров и услуг провайдеров.

Сегодня почти в каждой компании, активно использующей ИТ для поддержки бизнеса, существует свой центр обработки данных (ЦОД). Повышение требований к надежности ЦОД – одна из тенденций рынка. Поскольку дата-центр нередко является ключевым элементом бизнеса компании, специалисты давно ищут экономичные способы повышения его надежности. Причем рано или поздно возникает необходимость обеспечить не только аппаратную надежность ЦОД, но и его катастрофоустойчивость.

Читать дальше →
Всего голосов 19: ↑15 и ↓4 +11
Просмотры 23K
Комментарии 3

Сохранность данных не смотря ни на что. Катастрофоустойчивое резервное копирование в облаке Azure Pack Infrastructure

Блог компании Infobox Хостинг IT-инфраструктура *Облачные вычисления *Хранение данных *
С радостью сообщаем об интеграции поддержки катастрофоустойчивого резервного копирования виртуальных машин в облаке Azure Pack Infrastructure от InfoboxCloud! Эта возможность позволит вам быть уверенными, что резервные копии виртуальных машин сохранятся даже при физическом уничтожении дата-центра, и могут быть восстановлены без перенастройки.


Давайте посмотрим, зачем же нужно катастрофоустойчивое резервное копирование, как работает и сколько стоит.
Читать дальше →
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 6.7K
Комментарии 8

AERODISK Engine: Катастрофоустойчивость. Часть 1

Блог компании АЭРОДИСК Системное администрирование *Серверное администрирование *Хранение данных *Хранилища данных *


Привет, читатели хабра! Темой этой статьи будет реализация средств катастрофоустойчивости в системах хранения AERODISK Engine. Изначально мы хотели написать в одной статье про оба средства: репликацию и метрокластер, но, к сожалению, статья получилась слишком большой, поэтому мы разбили статью на две части. Пойдем от простого к сложному. В этой статье мы настроим и протестируем синхронную репликацию – уроним один ЦОД, а также оборвем канал связи между ЦОД-ами и посмотрим, что из этого получится.

Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 3.5K
Комментарии 12

AERODISK Engine: Катастрофоустойчивость. Часть 2. Метрокластер

Блог компании АЭРОДИСК Системное администрирование *Серверное администрирование *Хранение данных *Хранилища данных *


Привет, читатели Хабра! В прошлой статье мы рассказали о простом средстве катастрофоустойчивости в системах хранения AERODISK ENGINE – о репликации. В этой статье мы погрузимся в более сложную и интересную тему – метрокластер, то есть средство автоматизированной защиты от катастроф для двух ЦОД-ов, позволяющее работать ЦОД-ам в режиме active-active. Расскажем, покажем, сломаем и починим.

Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 3.3K
Комментарии 7