Pull to refresh
184.7
ua-hosting.company
Хостинг-провайдер: серверы в NL до 300 Гбит/с

Совместная акция с ISPsystem: лицензия ISPmanager 5 Lite бесплатно ко всем облачным VPS, отчет об инциденте от 31.08.2015

Reading time4 min
Views6.6K
Наши партнеры из ISPsystem предложили провести совместную акцию — предоставить лицензию ISPmanager 5 Lite бесплатно ко всем облачным VPS в Нидерладнах и США до ноября месяца, и мы подумали, почему бы и нет…

Тем более, когда cам VPS стоит не на много дороже лицензии, так как сейчас продолжается большая распродажа. Но и это еще не все, мы решили снизить цены на всю линейку, а не только на серверы S и M, так как ввели новое хранилище в эксплуатацию, исключительно на SSD-накопителях, теперь облачные VPS стали еще производительнее и быстрее и самое главное — услуга стала стабильной (не так давно возникли большие проблемы на облачной платформе из-за хранилища SAN, в результате которых пострадали некоторые из наших абонентов, об инциденте под катом):

ЗАКАЗАТЬ ОБЛАЧНЫЙ СЕРВЕР ПО ВОЛШЕБНОЙ ЦЕНЕ

S

Ядра (vCPU) 1 Core
Память (vRAM) 1 GB
Дисковая квота 40 GB (SSD Storage)
Порт 1000 Mbps
Премиум трафик 4 TB
Фаервол Cisco ASA 5500 included!

$9,00 $3,99 / месяц

M

Ядра (vCPU) 2 Core
Память (vRAM) 2 GB
Дисковая квота 60 GB (SSD Storage)
Порт 1000 Mbps
Премиум трафик 6 TB
Фаервол Cisco ASA 5500 included!

$19,00 $7,99 / месяц

L

Ядра (vCPU) 4 Core
Память (vRAM) 4 GB
Дисковая квота 80 GB (SSD Storage)
Порт 1000 Mbps
Премиум трафик 8 TB
Фаервол Cisco ASA 5500 included!

$39,00 $19,99 / месяц

XL

Ядра (vCPU) 8 Core
Память (vRAM) 8 GB
Дисковая квота 160 GB (SSD Storage)
Порт 1000 Mbps
Премиум трафик 10 TB
Фаервол Cisco ASA 5500 included!

$59,00 $32,99 / месяц

Облака падают, наше — не исключение: отчет об инциденте на облачной платформе

В связи с прискорбным инцидентом связанным с предоставляемой нами услугой Virtual Cloud Server / VPS (S,M,L,XL),
после завершения работ по восстановлению корректного функционирования услуги, нами было решено осветить данный вопрос более обширно публично.

[ORIGINAL MESSAGE]
Впервые проблема появилась 31.08.2015 около 20:00 CEST.
Была замечена проблема с одной из сторедж платформ, что приводило к нестабильной работе виртуальных
машин.

Сотрудники ДЦ вместе с поставщиком оборудования сразу же приступили к детальному анализу возникшей ситуации,
после срабатывания триггера о возросшей нагрузке на одну из нод.
Были проведены работы по снижению нагрузки, и восстановления корректной работоспособности платформы.

[UPDATE SEPT 1st, 09:45 CEST]
После тщательного анализа проведенного сотрудниками ЦОДа и поставщиком оборудования неисправное
оборудование было заменено в 9:00 CEST. Однако вопреки расчетам и ожидание нагрузка не упала
до нормального состояния, и работы продолжили.

[UPDATE SEPT 1st, 12:15]
На время проведения ремонтных работ было принято решения об ограничении пропускной полосы стореджа, для снижения нагрузки.

[UPDATE SEPT 1st, 17:15 CEST]
Расследование данного инцидента еще ведется, причины сбоя еще не выявлены но сотрудники ЦОД вместе с 
поставщиком оборудования прилагают все силы для скорейшего возобновления работоспособности платформы.

[UPDATE SEPT 1st, 23:00 CEST]
Удалось стабилизировать работу платформы, инженеры планируют привести все VPS в работоспособное состояние в течение нескольких часов.
Для обеспечения стабильности работы платформы, на время проведения работ, была заблокирована возможность
включения\выключения\перезагрузки сервера клиентами, для предотвращения увеличения нагрузки.

[UPDATE SEPT 2nd, 09.30 CEST]
Инженеры ЦОДа работали всю ночь для стабилизации платформы.
Работу восстановили, часть затронутых VPS вернули в штатный режим работы. Оставшиеся VPS сейчас находятся в автоматическом восстановлении. Инженеры также дважды перепроверяют работоспособность каждой VPS, затронутой данным инцидентом, в ручном режиме.

Сообщают о планах перехода на другую сторедж платформу — full SSD.

[UPDATE SEPT 2nd, 14.00 CEST] 
Работоспособность платформы восстановили, и все затронутые VPS будут восстановлены в полном объеме между 16:00-17:00 CEST сегодня.

Скоро начнется миграция всех VPS на новую сторедж платформу. Платформу уже оттестировали, и начали подготовку к миграции.

[UPDATE SEPT 2nd, 15:30 CEST]
Проблема с высокой нагрузкой повторяется из-за чего затронута работоспособность существенной
части VPS.

[UPDATE SEPT 2nd, 18.40 CEST]
Повторение проблемы произошло в 15:30 hrs. CEST. После анализа и восстановительных работ инженеров ЦОДа и  
поставщиком оборудования нагрузку удалось стабилизировать в 17:30 CEST.

Подготовительные работы по подготовке миграции на новую платформу уже закончены, и начать миграцию планируют после 20:00 CEST.

[UPDATE SEPT 3rd, 01:00 hrs. CEST] 
Как сообщалось ранее работы по процессу миграции VPS на новую SSD платформу уже начаты.
Миграция первой партии VPS уже успешно была проведена и сотрудники ЦОДа работают над восстановлением полной их работоспособности.
Согласно плану — восстановить корректную работоспособность первой партии VPS на новой платформе займет около двух часов времени.

[FINAL UPDATE SEPT 3rd, 09:30 hrs. CEST]
Извинение… 
Проблема приведшая к отказу VPS заключалась в аппаратном сбое части сторедж платформы, в связи с чем создавалась чрезмерная нагрузка на нодах, что и приводило к ошибкам в работе VPS.
Планы по переходу на более производительный и надежный full SSD сторедж были приняты еще ранее, и данный инцидент только ускорил переезд.
БОльшая часть серверов уже была мигрирована на новую платформу.
В течение часа будут отключены ограничения на управления VPS: перезагрузка, выключение\включение и ограничения на потребляемые ресурсы, которые были вынуждены применить для спокойной миграции.
Миграция следующих частей VPS будет проводится и дальше, ориентировочно будет затрачено 
4 часа  на каждый пул VPS, даунтайм каждой не будет превышать 5-15 минут.

Данный инцидент не является типичным ни для нас, ни для наших партнеров (поставщиков услуг).
Нами, сотрудниками ЦОДа, и его поставщиком оборудования были приложены все силы для минимизации даунтайма VPS, соответственно и потерь, наших клиентов.

Мы еще раз приносим извинения за данный инцидент, всем пострадавшим абонентам была начислена компенсация в виде бесплатного обслуживания до 3-х месяцев, надеемся на Ваше понимание, аппаратные сбои у новых продуктов очень сложно полностью исключить, от ошибок никто не застрахован. Облака падают, у всех, рано или поздно, главное — принимаемые меры. Делайте бэкапы и резервируйтесь. Мы же со своей стороны постараемся сделать услугу максимально стабильной.

Искренне Ваша UA-Hosting team.
Tags:
Hubs:
+6
Comments18

Articles

Information

Website
ua-hosting.company
Registered
Founded
Employees
11–30 employees
Location
Латвия
Representative
HostingManager