damad20 мая 2011 в 09:28

Отключение электропитания в дата-центре Оверсан

2 мин

2.5K

Хостинг

+43

224

Комментарии 224

RainFall 20 мая 2011 в 09:29

@clodo_ru Вы сами запустите сервера?
Компенсация будет?

damad 20 мая 2011 в 09:31

Сервера сами запустим. Вопросы компенсации будем решать после решения аналогичного вопроса с ДЦ Оверсан-Меркурий.

caezar 20 мая 2011 в 10:15

неправильный ответ

Elegar 20 мая 2011 в 10:27

А почему наша компенсация зависит от ваших разборок с оверсан? Мы же вам деньги платим, а не оверсану

Crashus 20 мая 2011 в 22:40

да он шёл просто и провод ногой зацепил и 9 часов немог понять как его вставить обратно

НЛО прилетело и опубликовало эту надпись здесь

artamonovg 24 мая 2011 в 10:49

вернули 2.5 рубля. Спасибо! Это того стоило!

p7161 20 мая 2011 в 11:02

Компенсация за 2-3 часа простоя это, конечно, хорошо: получится 2-3 рубля.
Даже если компенсация будет за день простоя, у меня на проекте с посещаемостью около 10к в сутки на Scale Server clodo тратится 30 рублей в день, что же мне эти 30 рублей компенсируют.

А кто компенсирует простой размещенной на сайте рекламы, простой собственных рекламных кампаний, которые ведут на «невозможно отобразить страницу», и как компенсировать лояльность пользователей, которая бесценна и снижается от таких падений

slik 20 мая 2011 в 11:06

У нас такая же история, но обычно в этих случаях говорят — сами виноваты. На других надейся, а сам не плошай.

bigdogsru 20 мая 2011 в 12:43

Так списания за диск идут! Вот их в первую очередь нужно компенсировать независимо от «компенсаций Оверсана».

dvas 20 мая 2011 в 12:55

Списания будут возвращены обязательно.

antosha 20 мая 2011 в 15:59

А в оферте о предоставлении услуг от компании Clodo прописано, что они несут ответственность за убытки, понесенные клиентом по причине возникновения подобных ситуаций?

FaKiR 20 мая 2011 в 16:06

Ну как бы п.7 «Регламент пользования услугами Оператора (далее — Регламент)» гласит:

Оператор не несет ответственности по претензиям Абонента к качеству соединения с сетью Интернет, связанным с качеством функционирования сетей других провайдеров, политикой обмена трафиком между провайдерами, с функционированием оборудования и программного обеспечения Абонента и другими обстоятельствами, находящимися вне зоны компетенции, влияния и контроля Оператора.

И как бы, лично я, не знаю компаний, предоставляющих подобные услуги, у которых бы не было этого пункта.

bigdogsru 20 мая 2011 в 16:09

обстоятельствами, находящимися вне зоны компетенции, влияния и контроля Оператора
Почему-то мне кажется, что проблема-то была в зоне компетенции, влияния и контроля Оператора. Другое дело, что конечно же в оферте никакие компенсации за убытки не предусмотрены — услуги по договорам с таким пунктом стОят совсем других денег.

FaKiR 20 мая 2011 в 16:23

Насколько я понимаю Clodo арендует стойки в ДЦ, и если их правда и письмо в «шапке» действительно от Оверсана, то поясните каким образом Clodo может быть в компетенции над криворукими инженерами ДЦ?

bigdogsru 20 мая 2011 в 18:00

Насколько я понимаю, Оверсан отключил питание на 15 минут, остальное время — подъем машинок уже в Clodo. Это ни разу не камень в огород Clodo — это просто аргумент, почему данный пункт регламента неприменим к сегодняшней ситуации.

Crashus 20 мая 2011 в 22:42

за что заплатили то и получили

НЛО прилетело и опубликовало эту надпись здесь

bigdogsru 20 мая 2011 в 12:45

Да сегодня уже почти четыре часа простой! Маловат запас на год остался. Я тоже все равно люблю Clodo, но отбиваться от нетерпеливых юзверей слегка притомило уже.

Jeditobe 20 мая 2011 в 12:42

Почему-то вспомнилось это —
habrahabr.ru/company/oversun-mercury/blog/87503/ и вот это — nnm.ru/print/Boomburum/istoriya_odnogo_data-centra/

Стабильность питания обеспечивается множеством источников бесперебойного питания и дизель-генераторными установками.

Если верить докладчикам, то в случае пропадания питания «из вне», генераторы смогут обеспечить полноценную работу всего ДЦ на протяжении десятка часов (без подвоза дополнительного горючего). И да, доступность электропитания – 99.982%.

dimas 20 мая 2011 в 12:50

никакие генераторы не спасут, если кто-то рубанет автомат уже «чистого» питания…

erlioniel 20 мая 2011 в 13:17

Цитата по первой ссылке:

«И в таких, прямо сказать, неблагоприятных условиях мы должны выполнять обязательства уже перед собственными клиентами. А им и дела нет до того, что где-то нетрезвый энергетик перепутал рубильники»

Да уж :)

FaKiR 20 мая 2011 в 13:18

"… Стабильность питания обеспечивается множеством источников бесперебойного питания и дизель-генераторными установками..., а также высокопрофессионально ~~криворуким~~ техническим персоналом, который даже в кромешной тьме найдет нужный рубильник!"

Лично я с тенерпением жду официального объяснения «ошибки» инженера, которая привела к многочасовому простою (если конечно это «ошибка инженера»).

И еще, может кто-то подскажет, инженеры действительно такие тугодумы, если ссылаются на временные параметры в отключении питания? Они типа че там не знают какие клиенты у них в ДЦ и что для них даже самое кратковременное отключение питания — это часы простоя? И эти люди предлагают услуги Оверсан-Скалакси?

Svad 20 мая 2011 в 13:43

Может быть кто-нибудь из «Оверсана» что-то наконец скажет?

bigdogsru 20 мая 2011 в 13:52

Сказали же — ~~пятница, они уже стоят в пробке по пути на дачу~~ начальства нет на месте.

Svad 20 мая 2011 в 14:11

Неа.Я думаю карму берегут.

easy_john 20 мая 2011 в 14:38

sarcasm Ну овесану теперь осталось еще сгореть с несработавшей системой пожаротушения и тогда можно считать попил 100% успешным. /sarcasm

xoros 20 мая 2011 в 09:29

Как же не вовремя оно легло.

shaida 20 мая 2011 в 09:39

Оно всегда невовремя…

Sakuya 20 мая 2011 в 09:31

Выздоравливайте быстрее…

index01d 20 мая 2011 в 09:32

Стабильно раз в месяц :) Больше 40 минут лежим. Что будет предпринято в этот раз?

damad 20 мая 2011 в 09:34

В данной ситуации с нашей стороны вина лишь в выборе дата-центра. Вообще то, что проблема задела в основном clodo, заставляет нас сильно задуматься о возможности дальнейшего нахождения в ДЦ рядом с конкурентами. Особенно учитывая, что инженер Оверсана заявил, что причина аварии — человеческий фактор.

index01d 20 мая 2011 в 09:37

То есть существуют варианты по выбору датацентра и возможна даже смена ДЦ?

damad 20 мая 2011 в 09:38

Технически это возможно, но требует от нас капитальных затрат, причем немалых.

index01d 20 мая 2011 в 09:42

Ясно. Надеюсь, что ситуация разрешится меньшими потерями, так как реализованная вами платформа очень приятна в использовании. Желаю успехов.
P.S: но всё же приходится держать резерв под приложения на сторонних площадках, м.б. имеет смысл сделать как у заграничных хостингов дополнительный дц для создания сервера?

damad 20 мая 2011 в 09:45

Проект в Европе и в Санкт-Петербурге сейчас в разработке.

Sakuya 20 мая 2011 в 09:40

По моему это какая-то проказа Оверсана.
У меня это вызывает какие-то странные чувства. Надеюсь у Вас скоро все будет отлично.

bigdogsru 20 мая 2011 в 12:47

У меня тоже первая мысль была — «Оверсан сливает конкурентов». У Оверсана тоже ведь есть scaled-решения.

acv0ru 20 мая 2011 в 13:57

У Оверсан-а есть Скалакси scalaxy.ru, якобы живущие своей жизнью.
Если учесть что технологии Скалакси на начальном этапе вместе с частью сотрудников перетекли в Клодо, то можно заподозрить тут попытку слива клиентов, но мне кажется что тут скорее всего хромает дисциплина инженеров в ДЦ.
Оверсан явно не готов распрощаться с Клодо, надо же деньги государству возвращать за мега стройку-роспил.

damad 20 мая 2011 в 14:07

У нас не работает ни одного сотрудника ранее работавшего в Скалакси.

long 20 мая 2011 в 14:20

более того, могу утверждать, что до определенного момента никто из ключевых сотрудников оверсана не уходил. а после ухода тех, кто теоретически мог бы что-то «слить» — у клодо просто не хватило бы времени воспользоваться

clear_heap 20 мая 2011 в 09:33

Приятно что вы сообщаете об этом оперативно на хабре, еще бы в панели управления уведомляли.
А то после нажатия кнопки «Перезагрузить» и отсутствии признаков жизни от VPS начинаешь думать что то произошло именно с твоим сервером.

RainFall 20 мая 2011 в 09:34

Зато поддержка среагировала моментально(ну как моментально, в течение 5 минут).

@everybody рекомендую закрыть активные тикеты и написать попозже, врядли шквал одинаковых заявок сильно поможет в решении.

artemlight 20 мая 2011 в 09:38

>электричество лишь “моргнуло”
facepalm.jpg
А вообще какой-то проблемный оверсан получается, не находите? И всё это несмотря на десятки красивых фотографий…

slik 20 мая 2011 в 10:09

И особенно радует описание с сайта:
Энергообеспечение

Электроснабжение дата-центра обеспечивается двумя независимыми вводами от трансформаторных подстанций (первая категория надежности по ПУЭ). Стабильность подачи питания поддерживается ИБП производства компании AEG (Германия) и дизель-генераторными установками (ДГУ) FG Wilson (Великобритания). Надежность питания оборудования в стойке гарантируется двойным независимым электроснабжением. Схема резервирования питания — N+1. Доступность электропитания — 99,982%.

FaKiR 20 мая 2011 в 10:23

Мдя… 0,018% это и есть тот пресловутый человеческий факор. Все эти ПУЭ, N+1 и прочее, ничто, против дебилов, уборщиц и совковой конкуренции!

slik 20 мая 2011 в 10:29

Купить оборудования за миллионы могут, а обучить несколько человек аккуратно убираться/администрировать/набирать не дебилов что-то не позволяет.

Oblitus 20 мая 2011 в 10:55

Это и есть дебилы и совковая конкуренция. Купить оборудования на миллионы и отправить на уборку бабку за гроши.

pest 20 мая 2011 в 11:42

Ошибка инженера — бабка уборщица шваркнула шваброй по шнурам питания?

Oblitus 20 мая 2011 в 12:02

Ошибка начальства: наняли бабку-уборщицу, вместо хоть теоретически разбирающегося в предмете человека.

acv0ru 20 мая 2011 в 14:02

На апрель 2010г. диз. генератор еще не был готов к запуску так как не хватало какие-то деталей и было еще много мелочи и недоделок.
Мне рассказывали сотрудники, когда в Оверсан приходили журналисты смотреть на красивые черные стойки специально для них старший инженер доставал мониторы и включал якобы рабочую систему мониторинга ))

piroman 21 мая 2011 в 05:28

В стойку надо два питала от разных фаз вести для победы надо подобными случаями.
А вообще, оверсан — караван и кто еще там раздут рекламой, простые дц уровня надежности 2+.
До 28 часов простоя в год, если кто не в курсе, сколько на рекламу денег не трать и какие золотые унитазы там не ставь.

damad 21 мая 2011 в 06:55

Насколько я знаю, там так и сделано. И даже сервера подключены как положено — каждый БП в разные фазы. Но что то особо не помогло. Видимо рубильник общий для двух фаз.

Sakuya 20 мая 2011 в 10:11

Молотком оверсану по голове надо за такое настучать. Почуяли что Clodo намного лучше и удобнее их сервиса. И сделали чтобы «электричество моргнуло». В надежде что все от них убегут. Шыш! Не на тех напали!
Я еще больше вцеплюсь в Clodo и их защиту. Буду их верным пользователем!

pest 20 мая 2011 в 13:31

Клининговая компания «Бабка Ефросинья» — профессиональное устранение хостинг конкурентов. :)

benipaz 20 мая 2011 в 17:41

Clodo заметили падение продаж. Для этого они заплатили инженеру оверсана, чтобы «электричество моргнуло». Так находят верных пользователей :)

dohlik 20 мая 2011 в 09:46

— А что у вас с электричеством?
— Оно моргнуло

printf 20 мая 2011 в 12:16

Соринка в глаз попала, угу.

yul 20 мая 2011 в 09:51

«Моргнуло», «человеческий фактор»… — да просто приятно, наверное, сервер конкурента пнуть.

damad 20 мая 2011 в 09:52

Сразу оговорюсь, что это лично мое мнение, но эта же мысль не выходит у меня из головы.

artamonovg 20 мая 2011 в 09:58

Конечно, сейчас все побегут к скалакси, валить Вам надо оттуда…

index01d 20 мая 2011 в 10:01

Не побежим, там дороже:) А у нас денег нет, только если продать что-нибудь ненужное.

НЛО прилетело и опубликовало эту надпись здесь

artamonovg 20 мая 2011 в 10:06

кеп.

НЛО прилетело и опубликовало эту надпись здесь

konfuze 20 мая 2011 в 10:20

why so serious?

НЛО прилетело и опубликовало эту надпись здесь

artamonovg 20 мая 2011 в 10:26

кеп.

miolini 20 мая 2011 в 10:21

Так скалакси это и есть Оверсан, в котором сейчас сбой.

mr_smith 20 мая 2011 в 10:48

сбой в оверсане, но затронул в основном только клодо. скалакси в норме видимо

miolini 20 мая 2011 в 11:24

Точно такой же сбой по питанию мог произойти и для Скалакси раз ДЦ один и тот же. А цены из-за мнимой надежности.

ibnteo 20 мая 2011 в 14:12

Неужели вы думаете, что в скалакси не знают какие рубильники ихние, а какие клодовские?

SyCraft 20 мая 2011 в 10:00

Грустно, снова грустно

miolini 20 мая 2011 в 10:03

Восстанавливайтесь быстрее!

А теперь вопрос к супер-пупер-мега надежному Оверсан: получается неоправданно цены у вас завышены за надежность — надёжность мнимая.

shaida 20 мая 2011 в 10:04

Как-то очень долго идёт запуск ваших систем…

dvas 20 мая 2011 в 10:05

Увы, сложные системы не умеют запускаться мгновенно.

akzhan 20 мая 2011 в 21:04

да хотя бы проверка файловой системы, — уже до 20 минут запросто.

damad 21 мая 2011 в 06:56

40ТБ — 2,5 часа проверка.

piroman 21 мая 2011 в 07:56

C журналированием?

decanet 20 мая 2011 в 10:05

можете озвучить примерное время, через сколько сервера поднимутся?

dvas 20 мая 2011 в 10:07

С достаточно большой вероятностью уложимся в час.

slik 20 мая 2011 в 10:25

Итого простой будет 2 часа, обидно.

Elegar 20 мая 2011 в 10:30

не уложились

dvas 20 мая 2011 в 10:32

С момента комментария прошло 23 минуты.

Elegar 20 мая 2011 в 10:41

а… я подумал, что вы имели в виду относительно момента отключения, а не комментария

Elegar 20 мая 2011 в 11:35

и все же не уложились)

damad 20 мая 2011 в 11:37

Стартовать виртуальные сервера уже начали. Я уже писал, что процесс постепенный, если сразу все стартовать будут проблемы.

bigdogsru 20 мая 2011 в 12:49

Лежат и не пингуются по-прежнему. Общий простой — 4 часа.

slik 20 мая 2011 в 11:03

Час прошёл. Как у вас обстоят дела? Нужны более точные сроки, пусть с запасом.

НЛО прилетело и опубликовало эту надпись здесь

damad 20 мая 2011 в 11:07

Файловая система уже прочекана. Сейчас админы приступают к запуску виртуальных серверов. Но запускаются не все сразу, поэтому этот процесс займет некоторое время.

porohnya 20 мая 2011 в 10:05

Админ Вася попутал педали

UUSER 20 мая 2011 в 10:10

На динамо-велотренажере?

norguhtar 20 мая 2011 в 10:05

FilimoniC 20 мая 2011 в 10:53

Хайрез можно?

norguhtar 20 мая 2011 в 11:33

В гугле откройте закладку с картинками и наберите «орудуют дебилы» :)

whitequark 20 мая 2011 в 15:43

В свое время лично перерисовывал в SVG: files.whitequark.org/idiots/

Lucipher 20 мая 2011 в 10:25

это не «моргнуло»
это называется «просадка напряжения»
либо кто то счелкнул выключателем. иначе я не могу представить причем тут человеческий фактор

damad 20 мая 2011 в 10:26

То что щелкнули выключателем подтвердил инженер дата-центра

slik 20 мая 2011 в 10:33

Не ДЦ, а сказка. Ходят себе, щёлкают рубильники, похоже все кому не лень :)

licvidator 20 мая 2011 в 10:56

from: bash.org

xxx: сижу, похмелье, пью зеленый чай
xxx: подлетает начальник, шевелит усами, кричит: «у эксплуатации проблемы, не могут скип отправить, срочно разберись, помоги»
xxx: напрягаю мозг, звоню, отвечает дежурный, спрашиваю: «сменный? Сзади шкаф ШК1, там реле K2Q, зажми, 5 секунд подожди, программа циклов и программа подач сбросятся на начальные позиции»
xxx: жду. На том конце трубка лежит на столе, оператор ищет реле. Жду. Тут у него трели звонков телефонных, а на наладочном объекте вроде некому звонить, мастер печи еще не парится, остальные и подавно
xxx: опускаю глаза… Не ту страничку открыл в блокноте, не на тот завод позвонил… Тихонько кладу трубку.
xxx: сижу, похмелье, пью зеленый чай

FuN_ViT 20 мая 2011 в 12:43

прямо рэп-баллада

НЛО прилетело и опубликовало эту надпись здесь

dvas 20 мая 2011 в 10:32

Не до всего оборудования дотянулась костлявая рука человеческого фактора.

НЛО прилетело и опубликовало эту надпись здесь

damad 20 мая 2011 в 10:30

Электричество «мигнуло» не на всех наших стойках.

SeriousDron 20 мая 2011 в 10:33

Простите, не силен в облаках, но если «мигнуло» не на всех, то почему вообще что-то упало? Я думал при падении отдельных серверов виртуальные машины должны мигрировать на оставшиеся.
И чем это отличается от дедика тогда кроме того что он бы ребутнулся и снова работал через минуту, а не через час.

damad 20 мая 2011 в 10:33

Контроллер кластера и сторадж задело

mokaton 20 мая 2011 в 10:39

Знают что рубать…

shaida 20 мая 2011 в 10:30

У меня лежат 2 из 4-х…

kosalnik 20 мая 2011 в 10:39

Что ж клиентов жизнь то не учит

volhovec 20 мая 2011 в 10:40

Когда падал дата центр на Амазоне, я писал что мой экс работодатель переехал туда, но их не задело…
Но недавно они переехали на Клодо, в виду ряда объективных причин. И на этот раз их накрыло…

От судьбы не уйдешь…

Raphael 20 мая 2011 в 14:17

Ещё один кандидат на должность чувака с долларами?

ibnteo 20 мая 2011 в 14:39

Так вот кто виноват в происшедшем, тогда простим работников оверсана, их руку само провидение направляло.

lexer 20 мая 2011 в 10:47

Кажется, что проблемы с кратковременным отключением питания типа «мигнуло» должен решать поставщик услуг размещения оборудования.

damad 20 мая 2011 в 10:48

Решение поставщика — «сейчас питание на стойки подается в штатном режиме»

lexer 20 мая 2011 в 10:57

не поленился найти объявленные хар-ки, они не плохо звучат на бумаге:

Электроснабжение дата-центра обеспечивается двумя независимыми вводами от трансформаторных подстанций (первая категория надежности по ПУЭ). Стабильность подачи питания поддерживается ИБП производства компании AEG (Германия) и дизель-генераторными установками (ДГУ) FG Wilson (Великобритания). Надежность питания оборудования в стойке гарантируется двойным независимым электроснабжением. Схема резервирования питания — N+1. Доступность электропитания — 99,982%.

dvas 20 мая 2011 в 11:00

Это они описывают характеристики доступности электропитания в целом по ЦОДу. «Человеческий фактор», дергающий рубильники у отдельных стоек, тут не учтен.

lexer 20 мая 2011 в 11:08

Так у стойки же два независимых питания

FaKiR 20 мая 2011 в 11:10

Ага… и один ~~независимый~~ рубильник.

rootools 20 мая 2011 в 11:10

Как вы себе это представляете?

lexer 20 мая 2011 в 11:14

Такие решения широко применяются. Двойными блоками питания, например, оборудуются некоторые сервера.

FaKiR 20 мая 2011 в 11:18

Узко мыслите.

alexius2 20 мая 2011 в 10:48

Картинка с доклада на spbcode (не все так хорошо с облаками, как это рекламируют):

angry_elf 21 мая 2011 в 17:01

Гуглевское облако, что характерно, самое надежное — отказала часть облака, а не всё сразу. А остальные — лузеры, это да, до гугля им как до китая.

legato_di 20 мая 2011 в 10:49

Я так и не понял, почему не сработали хваленые системы резервного питания?

artamonovg 20 мая 2011 в 10:52

Питание отключили уже на стойке, как я понимаю…

damad 20 мая 2011 в 10:55

Официальный ответ нам обещали прислать в понедельник, так как сейчас руководства нет в офисе. Пока мы довольствуемся только ответом по e-mail:
============
Максим, еще раз здравствуйте.
Главный инженер службы эксплуатации дата-центра, к сожалению, не полномочен выступать от лица компании с письменным обращением о произошедшем сбое. Сейчас мы готовы дать ответ только в электронном виде:
Сегодня 20.05.2011г. в 12.50 в связи с ошибкой инженера произошло кратковременное (менее 1 минуты) падение электоэнергии в дата-центре, которое затронуло часть оборудования.
Мы приносим свои извинения за возникший инцидент и можем гарантировать, что исключили возможность повторения подобной ситуации в будущем.
============

Ждем в понедельник официальное письмо

slik 20 мая 2011 в 10:59

За выходные что нибудь придумают, не переживайте…

porohnya 20 мая 2011 в 11:05

Интересно как они исключили возможность повторения такой ситуации в будущем? Уволили это инженера?

FaKiR 20 мая 2011 в 11:08

Нет, просто пообещали. Так сказать, ни к чему не обязывающее обещание )

erlioniel 20 мая 2011 в 11:08

Перевесили ярлычек с «Клодо» на пустую стойку :)

Breaker 20 мая 2011 в 11:09

В прошлый раз Клодо в почте тоже написали что исключили этот фактор, 1 в 1 было письмо :) Тоже было лишь такое предположение.

damad 20 мая 2011 в 11:10

Мы его у себя исключили. Но за действия третьих лиц мы никак не можем поручиться.

slik 20 мая 2011 в 11:14

Наймите охранников пусть посменно сидят рядом с вашим рубильником в ДЦ :))

НЛО прилетело и опубликовало эту надпись здесь

Breaker 20 мая 2011 в 11:53

Это грустно.
П.с.: не смотря на сбои, мне (в прошлый раз) понравилась постреакция на сбой, и то письмо я уже ставил несколько раз в пример, как нужно работать с клиентами в случае ЧП.

shternberg 20 мая 2011 в 23:31

— «Ну и что нам с тобой делать Бородач?»
— «Понять и простить»

slik 20 мая 2011 в 10:53

Рубильник был главным с ярлычком Clodo :)

FaKiR 20 мая 2011 в 10:53

Потому что они стоят до рубильника…

Fokc 20 мая 2011 в 10:55

«worldoftanks_ru 14:08:42, 20 мая 2011 г.
В московском дата-центре проблемы с электропитанием. Ждем, пока всё устранят. Приносим свои извинения. =(»

Дак вот где хостятся теперь сервера WOT

PingMe 20 мая 2011 в 11:11

Идет обновление программного обеспечения. Повторите запрос позже. :)

Breaker 20 мая 2011 в 11:07

Мой так и не поднялся. При попытке ребутнуть в панели «Неизвестаня ошибка»

damad 20 мая 2011 в 11:09

Не надо пытаться самостоятельно что то сделать. Мы сами все запустим.

Breaker 20 мая 2011 в 11:10

Ок. Просто «оборудование начало включаться примерно через 25-26 минут после отключения… » расценил как то, что уже должно работать, учитывая что сейчас 15:10.
Делайте…

damad 20 мая 2011 в 11:11

Включились железки. Облако это не только железки но и ПО. Старт всего комплекса занимает какое то время.

amarao 20 мая 2011 в 11:42

Во-во, именно эта проблема меня и беспокоит больше всего. Помимо того, что синхронный старт клиентов — это дикий всплеск нагрузки, то и количество машин ставит вопрос о том, как долго будет идти выход на штатные показатели.

easy_john 20 мая 2011 в 15:13

сегментируй меньшими кусками, типа: два стора, 6 серверов. каждый такой сегмент поднимается не быстро, но за то ты сможешь запустить все сегменты одновременно.

amarao 20 мая 2011 в 15:31

Эта проблема понятна, понятна так же идея сегментирования, но очень много вопросов завязано на централизованное управление — пустить каждый компонент в свободное плавание никто не рискует (мы, по-крайней мере, нет), а централизованная (хоть вся из себя кластерная) система всегда точка затыка.

Пока до этого не дошли руки, но всю архитектуру нужно серьёзно менять, чтобы делать облако не только на уровне клиента, но и в рамках management-структур…

easy_john 20 мая 2011 в 15:38

Подумать над распределенной системой управления? в принципе запасной управляющий хост может висеть вообще где-то у конкурентов и рулить по vpn работой сегментов облака. Биллинг понятное дело туда не вынесешь, но тут уж лучше пол дня биллинга потерять, чем аптайма.

amarao 20 мая 2011 в 15:44

Не-не-не, это проблема другого уровня.

Например, когда машина запускается, ей нужно иметь специфичные настройки. Фильтрация IP на интерфейсе, настройки регуляции памяти и т.д.

Где их брать? Когда «всё живое» — эти настройки хранятся в централизованной БД, а кешированная копия — в памяти обслуживающего хоста. Штатно предполагается, что централизованная система может лечь ненадолго, а хосты продолжат работать на кешированной копии. Альтернативно, если ложится хост, он ждёт ответа централизованной системы перед первыми запусками.

А теперь представим, что у нас «старт всего». Все ждут централизованной системы, остальные в это время имеют race за ресурсы и т.д… Тут простых решений нет, нужно садиться и делить администрирование на зоны — а это тяжело и опасно, потому что можно запросто получить конфликтную/противоречивую информацию в разных зонах…

easy_john 20 мая 2011 в 15:54

Я не понимаю, что мещает иметь этот хост централизованной системы запущенным где-то на впс у конкурентов, в качестве последнего эшелона? локальный еще не поднялся, забрали данные с удаленного. Подтом поднимется — синхронизируется с живым.

cvss 20 мая 2011 в 17:54

Рисков не особо много и они нормально купируются. Другое дело, что провайдеру нужно решить для себя, стоит ли тратить время и менять систему для такой редкой ситуации как эта. Наверное, если разница будет между 1 часом и 6 часами, то стоит.

Децентрализация, конечно, ускоряет значительно — когда у TrueVDS была похожая ситуация с аварийным обесточиванием, на выход в рабочий режим 90% машин потребовалось около 30 минут. Хотя в основом это из-за организации дисковой системы получилось, и это был скорее побочный эффект, так как цель обеспечивать в первую очередь быстрый старт после аварий не ставилась.

Но у вас ведь XCP? У меня было впечатление, что там настройки всех гостей хранятся в децентрализованном сторедже средствами самого XCP. Что должно автоматически решать вопрос и избыточного хранения настроек, и быстрого старта, Или это не так?

amarao 20 мая 2011 в 18:44

У нас XCP только как «middleware», сверху там много своего.

Кроме того, у XCP хранение-то информации о пуле децентрализовано, а вот операции — централизованы и проходят через мастера. Так что в наш прошлый ляп с рейдом (около часа даун) 10 минут был даун и 50 минут — старт клиентских машин. Хоть там и был какой-никакой параллелизм, но очень ограниченный.

cvss 20 мая 2011 в 19:34

Если мастер выбывает, что происходит? Новый автоматом выбирается?

amarao 20 мая 2011 в 22:41

В xcp мастером может быть назначен любой хост пула, но эта операция всегда делается руками, чтобы не огрести массовый сплитбрейн.

НЛО прилетело и опубликовало эту надпись здесь

decanet 20 мая 2011 в 11:35

Буквально за 20 минут до сбоя оплатили услуги.
И тут такая задница.

shaida 20 мая 2011 в 11:37

У меня ни один сервер не поднялся.
Есть тут счастливчики?

DZhon 20 мая 2011 в 11:40

Тоже лежит…

damad 20 мая 2011 в 11:40

Счастливчиков пока немного. Около 100 клиентов. Стартуем постепенно.

artamonovg 20 мая 2011 в 11:44

за час… 100 клиентов…
VPS # 43361

FaKiR 20 мая 2011 в 12:02

У меня два сервера поднялись ))

НЛО прилетело и опубликовало эту надпись здесь

bigdogsru 20 мая 2011 в 14:00

Пять часов ровно… В панели по-прежнему статус «Ошибка»

Pechkin1007 20 мая 2011 в 11:46

Разговор двух админов:
— А у меня вчера друг за пять минут сервер сломал…
— Он что, хакер?!
— Нет, он просто дурак!!!

SyCraft 20 мая 2011 в 11:50

Некоторые оплатили на год… есть такие

nakamura 20 мая 2011 в 11:53

Серваки были за упсами, а какой-нить рутер без. Это нормально для серьезного рутера подниматься 20мин))
Это все еще та же страна… могли и такую схему запустить в работу

damad 20 мая 2011 в 11:54

У серваков есть логи.

xoros 20 мая 2011 в 11:55

3 часа лежать это уже не серьезно.

damad 20 мая 2011 в 11:58

Клиентов уже запускаем. Перед запуском клиентов, система требует провести ряд проверок которых не избежать. Не серьезно было бы не сделать этих процедур.

decanet 20 мая 2011 в 12:02

Не серьезно падать во время компиляции в /tmp когда при загрузке он очищаеться… и УЖЕ списать деньги за недокомпилированный сервис

xoros 20 мая 2011 в 12:01

Попробую сейчас объяснить это моему начальству:)

CB9TOIIIA 20 мая 2011 в 12:20

Мое уже сказало: Надоели падения! Нес-ко раз в неделю! Съезжаем :) примерно так.

xoros 20 мая 2011 в 13:28

Присерно такой же ответ и я получил, но так не хочется покидать любимый clodo, восстанавливайтесь скорее ребята и больше не падайте.Желаю только удачи и бурного развития в дальнейшем.

shaida 20 мая 2011 в 12:31

Уже почти 4 часа даунтайм. Печально же.

shaida 20 мая 2011 в 12:50

Простите, можно узнать, когда, ориентировочно, всех включат?

damad 20 мая 2011 в 12:55

Сейчас всех стартуем. Пятую часть уже запустили.

shaida 20 мая 2011 в 12:57

Ну то есть, некоторые заработают только часа через 3-4?

damad 20 мая 2011 в 13:03

Все заработают гораздо раньше

shaida 20 мая 2011 в 13:56

Один заработал.
На втором красная табличка «ошибка».
Вы его включите?

damad 20 мая 2011 в 14:10

Включим сами.

Jimmy 20 мая 2011 в 13:37

А где вы clodo.ru хостите?

RainFall 20 мая 2011 в 13:39

Задеты не все стойки.

FaKiR 20 мая 2011 в 13:39

traceroute clodo.ru

damad 20 мая 2011 в 13:40

Там же. Но веб-морды на отдельных железках и не в составе кластера.

codecity 20 мая 2011 в 13:44

Проясните ситуацию. Оверсан и Clodo.ru — партнеры?

Если так, то Оверсан не слишком то честный партнер. В одной из прошлых статей они (Оверсан Скалакси) довольно нелестно отзывались о Clodo.ru и несколько раз подчеркивали что последние используют устаревшую версию их оборудования.

И вот теперь устроили им отключение стоек, как бы случайно (лично я в такие случайности не верю).

В общем, если я все правильно понял — то рекомендую Clodo.ru отказаться от такого «партнерства». Иначе это тупик.

damad 20 мая 2011 в 13:47

МЫ являемся клиентами ДЦ Оверсан-Меркурий — арендуем у них стойки.

Скалакси предположили, что мы используем устаревшую версию их программной архитектуры. Не оборудования.

codecity 20 мая 2011 в 13:55

>Скалакси предположили, что мы используем устаревшую версию их программной архитектуры. Не оборудования

Точно, прошу прощения.

ДЦ Оверсан-Меркурий и Оверсан-Скалакси — это одна и так же компания (т.е. те самые, которые писали порочащую статью на Хабре)?

damad 20 мая 2011 в 14:09

ДЦ Оверсан-Меркурий официально сообщил нам, что статья опубликованная в блоге Оверсан является личным мнением их технического директора Дмитрия Лоханского и непосредственно Оверсан не имеет к этому отношения.

codecity 20 мая 2011 в 14:24

>является личным мнением их технического директора Дмитрия Лоханского

Хм. Но там была разглашена конфиденциальная информация (к которой имел доступ только инсайдер). Причем статья была написана в корпоративный блог (я так понимаю от имени Scalaxy).

damad 20 мая 2011 в 14:29

У нас были вопросы к Оверсан по этому поводу. Суть официального ответа я уже передал выше.

damad 20 мая 2011 в 14:34

Нас тоже это напрягает. Размещаясь в ДЦ Оверсан-Меркурий, мы полагали, что информация о нас не будет доступна нашим прямым конкурентам.

long 20 мая 2011 в 14:36

а что за статья? можно ссылочку?

damad 20 мая 2011 в 14:38

habrahabr.ru/company/oversun/blog/117260/

acv0ru 20 мая 2011 в 14:18

Очень подозрительно что первоначальная архитектура СХД в Клодо в точности совпадает с той, которая была у Скалакси изначально, причем включаю конфигурацию железа. Позже Скалакси от нее отказалась, перейдя на другую а вы просто нарезали GPFS на несколько частей чтобы быстрее восстанавливаться.
Кроме того известно что некоторые из сотрудников Скалакси перешли в Клодо свое время, принеся нужные технологии и теперь Скалакси в лице Оверсана вполне возможно точит зуб на Клово.

damad 20 мая 2011 в 14:21

Почему Вы так уверенно говорите о нашей архитектуре и о том что у нас работают бывшие сотрудники Скалакси? У Вас есть какая то информация которой нет у генерального директора Clodo?

long 20 мая 2011 в 14:33

бред не несите — в свое время никто из ключевых сотрудников оверсана не уходил

acv0ru 20 мая 2011 в 18:46

Приведу свои доводы:

1. Д. Лоханский в своем блоге habrahabr.ru/company/oversun/blog/117260/ явно пишет
«Clodo — коллеги, работающие с первой версией нашей архитектуры 2008 года, IBM GPFS хранилище, решение на базе Xen.» — если у Клодо архитектура другая получается что он ВРЕТ?
Если смотреть старые скриншоты архитектуры скалакси и нынешней Клодо (до того как они попилили GPFS на несколько частей) начинаешь верить Лоханскому.

2. Подозрительное сходство в использовании оборудования. Самое странное что и Скалакси и Клодо используют очень дорогой Infiniband. Заметьте что больше ни один рус хостинг подобные штуки не ставит — они очень дорогие и сильно снижают окупаемость хостинга. Скалакси можно понять здесь — они себя изначально позиционировали под размещение гос проектов и рос космоса и денег из гос бюджета не жалели а вот с Клодо — тут непонятны причины.

Исходя из этого можно заключить что технологии Скалакси каким-то образом попали в Клодо.

Вопрос как?
По логике вещей ответ тут только один — люди пришли и помогли/научили/поставили. Это должны быть люди которые умеют работать с очень ДОРОГИМ Infiniband, f5 и тд. Должны разбираться в cхемах построения инфраструктуры с использованием Infiniband для организации хостинга.

Кто мог за короткий срок помочь создать нужную инфраструктуру?
Ответ тоже навязывается сам — кто-то из организации, которая уже это сделала или этим занималась. На тот момент это был один хостинг — Скалакси.

Какие образом и кто помог Клодо освоить все эти технологии?
Кто-то из сотрудников перешел в Клодо, а может и не проходил а находился всегда в стороне, показывал, настраивал, учил — мне лично все равно. Для меня важнее последствия.

А последствия я лично вижу следующие:

1. У Оверсана есть проблемы с организацией работы — сегодня они всем это доказали
2 Клодо использует технологии Скалакси которых добился явно меньшими затратами за что Скалакси держит зуб на Клодо и и своих тестах их выставляет в конец списка облачных хостеров

damad 20 мая 2011 в 18:55

Логика у вас просто «железная». И все так складно в «анализе» архитектуры. Особенно порадовал «попиленный на зоны GPFS», монополия Скалакси на infiniband и предположение, что специалисты, которые умеют работать с технологиями есть только в Мрскве и все они трудятся в Скалакси.

akzhan 20 мая 2011 в 21:15

а де факто?) любопытно.

P.S.: тоже бывший сотрудник Scalaxy, хорошая команда там была, когда я там ваял, с Clodo не сотрудничал, если что :)

damad 21 мая 2011 в 06:58

Что именно любопытно?

long 22 мая 2011 в 16:43

1. До запуска Скалакси было офигенное кол-во конференций, на которых, в том числе и Дима, довольно подробно рассказывали об архитектуре. то что прошло очень много времени от раскрытия архитектуры до реального запуска Скалакси и что за это время можно было построить работающую систему — явно не проблема Клодо.
2. То что пишет Дима, надо заметить не в своем, а корпоративном блоге — это его личное мнение и только. Если было бы иначе — есть суды, есть закон о коммерческой тайне, как умеет судится Оверсан все знают. Но, на сколько я знаю, никаких реальных доказательств слива нет — только логические выводы. Собственно поэтому наверное и исков нет.
3. Похожесть панелей очень относительная. Они похожи только в общих, очевидных подходах. Кстати доступ к интерфейсам панели был далеко не у всех. А так чтоб и к описании архитектуры и к интерфейсам — так вообще у единиц. Большая часть из которых были руководители.
4. Мне кажется естественным возникновение вопроса о том, откуда такие знания о конкуренте? Мне кажется, что в отличии от, Клодо так активно не участвовало в конференциях и не раскрывало столь подробно свою архитектуру.
Еще раз повторюсь — никто из ключевых сотрудников не уходил из Скалакси в обсуждаемый период (когда передача данных могла бы дать преимущество).

decanet 20 мая 2011 в 15:09

так, это уже не смешно, когда запустят все машины?

svfedorof 20 мая 2011 в 15:16

Присоединяюсь. Время 19.16 по МСК, у нас 2 сервера лежат. Мне нравиться Clodo.ru, но невольно уже начинаешь задумываться об альтернативах. Я понимаю 1-2 часа. Но 6 — это уже серьезно.

svfedorof 20 мая 2011 в 16:40

Поднялись оба сервера.

SyCraft 20 мая 2011 в 15:14

сижу жду пока начнут матом ругаться, а вообще тоскливо

up01 20 мая 2011 в 15:15

Уже почти 7 часов дауна, негодую :(
Думаю над альтернативами.

RainFall 20 мая 2011 в 15:27

Один сервер поднялся, второй все еще лежит.

Ответ саппорта:

Здравствуйте.
Быстрее не получится. Сервера запускаются в порядке очереди.

Disasm 20 мая 2011 в 15:40

Странно что на форуме самого clodo тишина. Хорошо хоть здесь какая-то информация есть. Машина запущена, но, судя по всему, не имеет доступа к диску. Перезапустить не получается:«Действия временно недоступны».

up01 20 мая 2011 в 15:41

тоже самое…

SyCraft 20 мая 2011 в 16:07

у меня оба поднялись

bezumkin 20 мая 2011 в 17:23

А я у вас зарегистрировался! Давно хотел посмотреть на vps — и вот собрался.
Нравится.

bezumkin 20 мая 2011 в 19:39

Всё понравилось, буду пользоваться.
Только iptables не работает на Ubuntu 10.04-amd64, на форуме об этом пишут, завтра почитаю.

Свой сайт уже перенес, протестировал loadimpact: 1 — 2 мс, я доволен.

arround 20 мая 2011 в 17:40

Что-то мне кажется, что у Скалакси, такого «моргания» не будет никогда… Моя VPSка как пару часов бегает.
ps: и правда бы лучше сделали глобальное уведомление/рассылку о проблеме, а так бедный саппорт на однотипные тикеты отвечать.

akzhan 20 мая 2011 в 21:16

вообще-то падения есть и у Scalaxy, просто не такие масштабные. Никто не безгрешен.

index01d 20 мая 2011 в 17:45

можем гарантировать, что исключили возможность повторения подобной ситуации в будущем.
Примотали скотчем все вилки к розеткам

НЛО прилетело и опубликовало эту надпись здесь

amaxcz 22 мая 2011 в 02:07

ув. представители Colodo, вы же знаете что критическая единица потребления электропитания — стойка. ну кто же вам мешает распихать все свои сервера по разным стойкам, таким образом чтобы обесточивание _1_ стойки не приводило к фаталам? вам лениво поговорить с оверсаном о том чтобы хитро осуществить эл. коммуникации?
Это такая проблема поставить по 1му дополнительному UPS на каждый ключевой сервер прямо в стойку и запитаться напрямую от него?

у нас все ржут теперь: над новый вид безоблачного хостинга или как компенсировать ущерб репутации клиентов чтобы слово «клоуны» не примешивалось к бренду.

amaxcz 22 мая 2011 в 06:29

ну все как всегда, и заминусовали, и конструктивно не ответили, и деньги не вернули. и заметьте, кроме пустых обещаний — никакого конструктива… впрочем пофиг, всеравно вы не признаете что молодые и несовершенные, и что у вас еще есть куча рисков и проблем. не признаете и на главной не напишете.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий