damad May 20 2011 at 09:28

Отключение электропитания в дата-центре Оверсан

2 min

2.4K

Hosting

+43

224

Comments 224

RainFall May 20 2011 at 09:29

@clodo_ru Вы сами запустите сервера?
Компенсация будет?

damad May 20 2011 at 09:31

Сервера сами запустим. Вопросы компенсации будем решать после решения аналогичного вопроса с ДЦ Оверсан-Меркурий.

caezar May 20 2011 at 10:15

неправильный ответ

Elegar May 20 2011 at 10:27

А почему наша компенсация зависит от ваших разборок с оверсан? Мы же вам деньги платим, а не оверсану

Crashus May 20 2011 at 22:40

да он шёл просто и провод ногой зацепил и 9 часов немог понять как его вставить обратно

UFO landed and left these words here

artamonovg May 24 2011 at 10:49

вернули 2.5 рубля. Спасибо! Это того стоило!

p7161 May 20 2011 at 11:02

Компенсация за 2-3 часа простоя это, конечно, хорошо: получится 2-3 рубля.
Даже если компенсация будет за день простоя, у меня на проекте с посещаемостью около 10к в сутки на Scale Server clodo тратится 30 рублей в день, что же мне эти 30 рублей компенсируют.

А кто компенсирует простой размещенной на сайте рекламы, простой собственных рекламных кампаний, которые ведут на «невозможно отобразить страницу», и как компенсировать лояльность пользователей, которая бесценна и снижается от таких падений

slik May 20 2011 at 11:06

У нас такая же история, но обычно в этих случаях говорят — сами виноваты. На других надейся, а сам не плошай.

bigdogsru May 20 2011 at 12:43

Так списания за диск идут! Вот их в первую очередь нужно компенсировать независимо от «компенсаций Оверсана».

dvas May 20 2011 at 12:55

Списания будут возвращены обязательно.

antosha May 20 2011 at 15:59

А в оферте о предоставлении услуг от компании Clodo прописано, что они несут ответственность за убытки, понесенные клиентом по причине возникновения подобных ситуаций?

FaKiR May 20 2011 at 16:06

Ну как бы п.7 «Регламент пользования услугами Оператора (далее — Регламент)» гласит:

Оператор не несет ответственности по претензиям Абонента к качеству соединения с сетью Интернет, связанным с качеством функционирования сетей других провайдеров, политикой обмена трафиком между провайдерами, с функционированием оборудования и программного обеспечения Абонента и другими обстоятельствами, находящимися вне зоны компетенции, влияния и контроля Оператора.

И как бы, лично я, не знаю компаний, предоставляющих подобные услуги, у которых бы не было этого пункта.

bigdogsru May 20 2011 at 16:09

обстоятельствами, находящимися вне зоны компетенции, влияния и контроля Оператора
Почему-то мне кажется, что проблема-то была в зоне компетенции, влияния и контроля Оператора. Другое дело, что конечно же в оферте никакие компенсации за убытки не предусмотрены — услуги по договорам с таким пунктом стОят совсем других денег.

FaKiR May 20 2011 at 16:23

Насколько я понимаю Clodo арендует стойки в ДЦ, и если их правда и письмо в «шапке» действительно от Оверсана, то поясните каким образом Clodo может быть в компетенции над криворукими инженерами ДЦ?

bigdogsru May 20 2011 at 18:00

Насколько я понимаю, Оверсан отключил питание на 15 минут, остальное время — подъем машинок уже в Clodo. Это ни разу не камень в огород Clodo — это просто аргумент, почему данный пункт регламента неприменим к сегодняшней ситуации.

Crashus May 20 2011 at 22:42

за что заплатили то и получили

UFO landed and left these words here

bigdogsru May 20 2011 at 12:45

Да сегодня уже почти четыре часа простой! Маловат запас на год остался. Я тоже все равно люблю Clodo, но отбиваться от нетерпеливых юзверей слегка притомило уже.

Jeditobe May 20 2011 at 12:42

Почему-то вспомнилось это —
habrahabr.ru/company/oversun-mercury/blog/87503/ и вот это — nnm.ru/print/Boomburum/istoriya_odnogo_data-centra/

Стабильность питания обеспечивается множеством источников бесперебойного питания и дизель-генераторными установками.

Если верить докладчикам, то в случае пропадания питания «из вне», генераторы смогут обеспечить полноценную работу всего ДЦ на протяжении десятка часов (без подвоза дополнительного горючего). И да, доступность электропитания – 99.982%.

dimas May 20 2011 at 12:50

никакие генераторы не спасут, если кто-то рубанет автомат уже «чистого» питания…

erlioniel May 20 2011 at 13:17

Цитата по первой ссылке:

«И в таких, прямо сказать, неблагоприятных условиях мы должны выполнять обязательства уже перед собственными клиентами. А им и дела нет до того, что где-то нетрезвый энергетик перепутал рубильники»

Да уж :)

FaKiR May 20 2011 at 13:18

"… Стабильность питания обеспечивается множеством источников бесперебойного питания и дизель-генераторными установками..., а также высокопрофессионально ~~криворуким~~ техническим персоналом, который даже в кромешной тьме найдет нужный рубильник!"

Лично я с тенерпением жду официального объяснения «ошибки» инженера, которая привела к многочасовому простою (если конечно это «ошибка инженера»).

И еще, может кто-то подскажет, инженеры действительно такие тугодумы, если ссылаются на временные параметры в отключении питания? Они типа че там не знают какие клиенты у них в ДЦ и что для них даже самое кратковременное отключение питания — это часы простоя? И эти люди предлагают услуги Оверсан-Скалакси?

Svad May 20 2011 at 13:43

Может быть кто-нибудь из «Оверсана» что-то наконец скажет?

bigdogsru May 20 2011 at 13:52

Сказали же — ~~пятница, они уже стоят в пробке по пути на дачу~~ начальства нет на месте.

Svad May 20 2011 at 14:11

Неа.Я думаю карму берегут.

easy_john May 20 2011 at 14:38

sarcasm Ну овесану теперь осталось еще сгореть с несработавшей системой пожаротушения и тогда можно считать попил 100% успешным. /sarcasm

xoros May 20 2011 at 09:29

Как же не вовремя оно легло.

shaida May 20 2011 at 09:39

Оно всегда невовремя…

Sakuya May 20 2011 at 09:31

Выздоравливайте быстрее…

index01d May 20 2011 at 09:32

Стабильно раз в месяц :) Больше 40 минут лежим. Что будет предпринято в этот раз?

damad May 20 2011 at 09:34

В данной ситуации с нашей стороны вина лишь в выборе дата-центра. Вообще то, что проблема задела в основном clodo, заставляет нас сильно задуматься о возможности дальнейшего нахождения в ДЦ рядом с конкурентами. Особенно учитывая, что инженер Оверсана заявил, что причина аварии — человеческий фактор.

index01d May 20 2011 at 09:37

То есть существуют варианты по выбору датацентра и возможна даже смена ДЦ?

damad May 20 2011 at 09:38

Технически это возможно, но требует от нас капитальных затрат, причем немалых.

index01d May 20 2011 at 09:42

Ясно. Надеюсь, что ситуация разрешится меньшими потерями, так как реализованная вами платформа очень приятна в использовании. Желаю успехов.
P.S: но всё же приходится держать резерв под приложения на сторонних площадках, м.б. имеет смысл сделать как у заграничных хостингов дополнительный дц для создания сервера?

damad May 20 2011 at 09:45

Проект в Европе и в Санкт-Петербурге сейчас в разработке.

Sakuya May 20 2011 at 09:40

По моему это какая-то проказа Оверсана.
У меня это вызывает какие-то странные чувства. Надеюсь у Вас скоро все будет отлично.

bigdogsru May 20 2011 at 12:47

У меня тоже первая мысль была — «Оверсан сливает конкурентов». У Оверсана тоже ведь есть scaled-решения.

acv0ru May 20 2011 at 13:57

У Оверсан-а есть Скалакси scalaxy.ru, якобы живущие своей жизнью.
Если учесть что технологии Скалакси на начальном этапе вместе с частью сотрудников перетекли в Клодо, то можно заподозрить тут попытку слива клиентов, но мне кажется что тут скорее всего хромает дисциплина инженеров в ДЦ.
Оверсан явно не готов распрощаться с Клодо, надо же деньги государству возвращать за мега стройку-роспил.

damad May 20 2011 at 14:07

У нас не работает ни одного сотрудника ранее работавшего в Скалакси.

long May 20 2011 at 14:20

более того, могу утверждать, что до определенного момента никто из ключевых сотрудников оверсана не уходил. а после ухода тех, кто теоретически мог бы что-то «слить» — у клодо просто не хватило бы времени воспользоваться

clear_heap May 20 2011 at 09:33

Приятно что вы сообщаете об этом оперативно на хабре, еще бы в панели управления уведомляли.
А то после нажатия кнопки «Перезагрузить» и отсутствии признаков жизни от VPS начинаешь думать что то произошло именно с твоим сервером.

RainFall May 20 2011 at 09:34

Зато поддержка среагировала моментально(ну как моментально, в течение 5 минут).

@everybody рекомендую закрыть активные тикеты и написать попозже, врядли шквал одинаковых заявок сильно поможет в решении.

artemlight May 20 2011 at 09:38

>электричество лишь “моргнуло”
facepalm.jpg
А вообще какой-то проблемный оверсан получается, не находите? И всё это несмотря на десятки красивых фотографий…

slik May 20 2011 at 10:09

И особенно радует описание с сайта:
Энергообеспечение

Электроснабжение дата-центра обеспечивается двумя независимыми вводами от трансформаторных подстанций (первая категория надежности по ПУЭ). Стабильность подачи питания поддерживается ИБП производства компании AEG (Германия) и дизель-генераторными установками (ДГУ) FG Wilson (Великобритания). Надежность питания оборудования в стойке гарантируется двойным независимым электроснабжением. Схема резервирования питания — N+1. Доступность электропитания — 99,982%.

FaKiR May 20 2011 at 10:23

Мдя… 0,018% это и есть тот пресловутый человеческий факор. Все эти ПУЭ, N+1 и прочее, ничто, против дебилов, уборщиц и совковой конкуренции!

slik May 20 2011 at 10:29

Купить оборудования за миллионы могут, а обучить несколько человек аккуратно убираться/администрировать/набирать не дебилов что-то не позволяет.

Oblitus May 20 2011 at 10:55

Это и есть дебилы и совковая конкуренция. Купить оборудования на миллионы и отправить на уборку бабку за гроши.

pest May 20 2011 at 11:42

Ошибка инженера — бабка уборщица шваркнула шваброй по шнурам питания?

Oblitus May 20 2011 at 12:02

Ошибка начальства: наняли бабку-уборщицу, вместо хоть теоретически разбирающегося в предмете человека.

acv0ru May 20 2011 at 14:02

На апрель 2010г. диз. генератор еще не был готов к запуску так как не хватало какие-то деталей и было еще много мелочи и недоделок.
Мне рассказывали сотрудники, когда в Оверсан приходили журналисты смотреть на красивые черные стойки специально для них старший инженер доставал мониторы и включал якобы рабочую систему мониторинга ))

piroman May 21 2011 at 05:28

В стойку надо два питала от разных фаз вести для победы надо подобными случаями.
А вообще, оверсан — караван и кто еще там раздут рекламой, простые дц уровня надежности 2+.
До 28 часов простоя в год, если кто не в курсе, сколько на рекламу денег не трать и какие золотые унитазы там не ставь.

damad May 21 2011 at 06:55

Насколько я знаю, там так и сделано. И даже сервера подключены как положено — каждый БП в разные фазы. Но что то особо не помогло. Видимо рубильник общий для двух фаз.

Sakuya May 20 2011 at 10:11

Молотком оверсану по голове надо за такое настучать. Почуяли что Clodo намного лучше и удобнее их сервиса. И сделали чтобы «электричество моргнуло». В надежде что все от них убегут. Шыш! Не на тех напали!
Я еще больше вцеплюсь в Clodo и их защиту. Буду их верным пользователем!

pest May 20 2011 at 13:31

Клининговая компания «Бабка Ефросинья» — профессиональное устранение хостинг конкурентов. :)

benipaz May 20 2011 at 17:41

Clodo заметили падение продаж. Для этого они заплатили инженеру оверсана, чтобы «электричество моргнуло». Так находят верных пользователей :)

dohlik May 20 2011 at 09:46

— А что у вас с электричеством?
— Оно моргнуло

printf May 20 2011 at 12:16

Соринка в глаз попала, угу.

yul May 20 2011 at 09:51

«Моргнуло», «человеческий фактор»… — да просто приятно, наверное, сервер конкурента пнуть.

damad May 20 2011 at 09:52

Сразу оговорюсь, что это лично мое мнение, но эта же мысль не выходит у меня из головы.

artamonovg May 20 2011 at 09:58

Конечно, сейчас все побегут к скалакси, валить Вам надо оттуда…

index01d May 20 2011 at 10:01

Не побежим, там дороже:) А у нас денег нет, только если продать что-нибудь ненужное.

UFO landed and left these words here

artamonovg May 20 2011 at 10:06

кеп.

UFO landed and left these words here

konfuze May 20 2011 at 10:20

why so serious?

UFO landed and left these words here

artamonovg May 20 2011 at 10:26

кеп.

miolini May 20 2011 at 10:21

Так скалакси это и есть Оверсан, в котором сейчас сбой.

mr_smith May 20 2011 at 10:48

сбой в оверсане, но затронул в основном только клодо. скалакси в норме видимо

miolini May 20 2011 at 11:24

Точно такой же сбой по питанию мог произойти и для Скалакси раз ДЦ один и тот же. А цены из-за мнимой надежности.

ibnteo May 20 2011 at 14:12

Неужели вы думаете, что в скалакси не знают какие рубильники ихние, а какие клодовские?

SyCraft May 20 2011 at 10:00

Грустно, снова грустно

miolini May 20 2011 at 10:03

Восстанавливайтесь быстрее!

А теперь вопрос к супер-пупер-мега надежному Оверсан: получается неоправданно цены у вас завышены за надежность — надёжность мнимая.

shaida May 20 2011 at 10:04

Как-то очень долго идёт запуск ваших систем…

dvas May 20 2011 at 10:05

Увы, сложные системы не умеют запускаться мгновенно.

akzhan May 20 2011 at 21:04

да хотя бы проверка файловой системы, — уже до 20 минут запросто.

damad May 21 2011 at 06:56

40ТБ — 2,5 часа проверка.

piroman May 21 2011 at 07:56

C журналированием?

decanet May 20 2011 at 10:05

можете озвучить примерное время, через сколько сервера поднимутся?

dvas May 20 2011 at 10:07

С достаточно большой вероятностью уложимся в час.

slik May 20 2011 at 10:25

Итого простой будет 2 часа, обидно.

Elegar May 20 2011 at 10:30

не уложились

dvas May 20 2011 at 10:32

С момента комментария прошло 23 минуты.

Elegar May 20 2011 at 10:41

а… я подумал, что вы имели в виду относительно момента отключения, а не комментария

Elegar May 20 2011 at 11:35

и все же не уложились)

damad May 20 2011 at 11:37

Стартовать виртуальные сервера уже начали. Я уже писал, что процесс постепенный, если сразу все стартовать будут проблемы.

bigdogsru May 20 2011 at 12:49

Лежат и не пингуются по-прежнему. Общий простой — 4 часа.

slik May 20 2011 at 11:03

Час прошёл. Как у вас обстоят дела? Нужны более точные сроки, пусть с запасом.

UFO landed and left these words here

damad May 20 2011 at 11:07

Файловая система уже прочекана. Сейчас админы приступают к запуску виртуальных серверов. Но запускаются не все сразу, поэтому этот процесс займет некоторое время.

porohnya May 20 2011 at 10:05

Админ Вася попутал педали

UUSER May 20 2011 at 10:10

На динамо-велотренажере?

norguhtar May 20 2011 at 10:05

FilimoniC May 20 2011 at 10:53

Хайрез можно?

norguhtar May 20 2011 at 11:33

В гугле откройте закладку с картинками и наберите «орудуют дебилы» :)

whitequark May 20 2011 at 15:43

В свое время лично перерисовывал в SVG: files.whitequark.org/idiots/

Lucipher May 20 2011 at 10:25

это не «моргнуло»
это называется «просадка напряжения»
либо кто то счелкнул выключателем. иначе я не могу представить причем тут человеческий фактор

damad May 20 2011 at 10:26

То что щелкнули выключателем подтвердил инженер дата-центра

slik May 20 2011 at 10:33

Не ДЦ, а сказка. Ходят себе, щёлкают рубильники, похоже все кому не лень :)

licvidator May 20 2011 at 10:56

from: bash.org

xxx: сижу, похмелье, пью зеленый чай
xxx: подлетает начальник, шевелит усами, кричит: «у эксплуатации проблемы, не могут скип отправить, срочно разберись, помоги»
xxx: напрягаю мозг, звоню, отвечает дежурный, спрашиваю: «сменный? Сзади шкаф ШК1, там реле K2Q, зажми, 5 секунд подожди, программа циклов и программа подач сбросятся на начальные позиции»
xxx: жду. На том конце трубка лежит на столе, оператор ищет реле. Жду. Тут у него трели звонков телефонных, а на наладочном объекте вроде некому звонить, мастер печи еще не парится, остальные и подавно
xxx: опускаю глаза… Не ту страничку открыл в блокноте, не на тот завод позвонил… Тихонько кладу трубку.
xxx: сижу, похмелье, пью зеленый чай

FuN_ViT May 20 2011 at 12:43

прямо рэп-баллада

UFO landed and left these words here

dvas May 20 2011 at 10:32

Не до всего оборудования дотянулась костлявая рука человеческого фактора.

UFO landed and left these words here

damad May 20 2011 at 10:30

Электричество «мигнуло» не на всех наших стойках.

SeriousDron May 20 2011 at 10:33

Простите, не силен в облаках, но если «мигнуло» не на всех, то почему вообще что-то упало? Я думал при падении отдельных серверов виртуальные машины должны мигрировать на оставшиеся.
И чем это отличается от дедика тогда кроме того что он бы ребутнулся и снова работал через минуту, а не через час.

damad May 20 2011 at 10:33

Контроллер кластера и сторадж задело

mokaton May 20 2011 at 10:39

Знают что рубать…

shaida May 20 2011 at 10:30

У меня лежат 2 из 4-х…

kosalnik May 20 2011 at 10:39

Что ж клиентов жизнь то не учит

volhovec May 20 2011 at 10:40

Когда падал дата центр на Амазоне, я писал что мой экс работодатель переехал туда, но их не задело…
Но недавно они переехали на Клодо, в виду ряда объективных причин. И на этот раз их накрыло…

От судьбы не уйдешь…

Raphael May 20 2011 at 14:17

Ещё один кандидат на должность чувака с долларами?

ibnteo May 20 2011 at 14:39

Так вот кто виноват в происшедшем, тогда простим работников оверсана, их руку само провидение направляло.

lexer May 20 2011 at 10:47

Кажется, что проблемы с кратковременным отключением питания типа «мигнуло» должен решать поставщик услуг размещения оборудования.

damad May 20 2011 at 10:48

Решение поставщика — «сейчас питание на стойки подается в штатном режиме»

lexer May 20 2011 at 10:57

не поленился найти объявленные хар-ки, они не плохо звучат на бумаге:

Электроснабжение дата-центра обеспечивается двумя независимыми вводами от трансформаторных подстанций (первая категория надежности по ПУЭ). Стабильность подачи питания поддерживается ИБП производства компании AEG (Германия) и дизель-генераторными установками (ДГУ) FG Wilson (Великобритания). Надежность питания оборудования в стойке гарантируется двойным независимым электроснабжением. Схема резервирования питания — N+1. Доступность электропитания — 99,982%.

dvas May 20 2011 at 11:00

Это они описывают характеристики доступности электропитания в целом по ЦОДу. «Человеческий фактор», дергающий рубильники у отдельных стоек, тут не учтен.

lexer May 20 2011 at 11:08

Так у стойки же два независимых питания

FaKiR May 20 2011 at 11:10

Ага… и один ~~независимый~~ рубильник.

rootools May 20 2011 at 11:10

Как вы себе это представляете?

lexer May 20 2011 at 11:14

Такие решения широко применяются. Двойными блоками питания, например, оборудуются некоторые сервера.

FaKiR May 20 2011 at 11:18

Узко мыслите.

alexius2 May 20 2011 at 10:48

Картинка с доклада на spbcode (не все так хорошо с облаками, как это рекламируют):

angry_elf May 21 2011 at 17:01

Гуглевское облако, что характерно, самое надежное — отказала часть облака, а не всё сразу. А остальные — лузеры, это да, до гугля им как до китая.

legato_di May 20 2011 at 10:49

Я так и не понял, почему не сработали хваленые системы резервного питания?

artamonovg May 20 2011 at 10:52

Питание отключили уже на стойке, как я понимаю…

damad May 20 2011 at 10:55

Официальный ответ нам обещали прислать в понедельник, так как сейчас руководства нет в офисе. Пока мы довольствуемся только ответом по e-mail:
============
Максим, еще раз здравствуйте.
Главный инженер службы эксплуатации дата-центра, к сожалению, не полномочен выступать от лица компании с письменным обращением о произошедшем сбое. Сейчас мы готовы дать ответ только в электронном виде:
Сегодня 20.05.2011г. в 12.50 в связи с ошибкой инженера произошло кратковременное (менее 1 минуты) падение электоэнергии в дата-центре, которое затронуло часть оборудования.
Мы приносим свои извинения за возникший инцидент и можем гарантировать, что исключили возможность повторения подобной ситуации в будущем.
============

Ждем в понедельник официальное письмо

slik May 20 2011 at 10:59

За выходные что нибудь придумают, не переживайте…

porohnya May 20 2011 at 11:05

Интересно как они исключили возможность повторения такой ситуации в будущем? Уволили это инженера?

FaKiR May 20 2011 at 11:08

Нет, просто пообещали. Так сказать, ни к чему не обязывающее обещание )

erlioniel May 20 2011 at 11:08

Перевесили ярлычек с «Клодо» на пустую стойку :)

Breaker May 20 2011 at 11:09

В прошлый раз Клодо в почте тоже написали что исключили этот фактор, 1 в 1 было письмо :) Тоже было лишь такое предположение.

damad May 20 2011 at 11:10

Мы его у себя исключили. Но за действия третьих лиц мы никак не можем поручиться.

slik May 20 2011 at 11:14

Наймите охранников пусть посменно сидят рядом с вашим рубильником в ДЦ :))

UFO landed and left these words here

Breaker May 20 2011 at 11:53

Это грустно.
П.с.: не смотря на сбои, мне (в прошлый раз) понравилась постреакция на сбой, и то письмо я уже ставил несколько раз в пример, как нужно работать с клиентами в случае ЧП.

shternberg May 20 2011 at 23:31

— «Ну и что нам с тобой делать Бородач?»
— «Понять и простить»

slik May 20 2011 at 10:53

Рубильник был главным с ярлычком Clodo :)

FaKiR May 20 2011 at 10:53

Потому что они стоят до рубильника…

Fokc May 20 2011 at 10:55

«worldoftanks_ru 14:08:42, 20 мая 2011 г.
В московском дата-центре проблемы с электропитанием. Ждем, пока всё устранят. Приносим свои извинения. =(»

Дак вот где хостятся теперь сервера WOT

PingMe May 20 2011 at 11:11

Идет обновление программного обеспечения. Повторите запрос позже. :)

Breaker May 20 2011 at 11:07

Мой так и не поднялся. При попытке ребутнуть в панели «Неизвестаня ошибка»

damad May 20 2011 at 11:09

Не надо пытаться самостоятельно что то сделать. Мы сами все запустим.

Breaker May 20 2011 at 11:10

Ок. Просто «оборудование начало включаться примерно через 25-26 минут после отключения… » расценил как то, что уже должно работать, учитывая что сейчас 15:10.
Делайте…

damad May 20 2011 at 11:11

Включились железки. Облако это не только железки но и ПО. Старт всего комплекса занимает какое то время.

amarao May 20 2011 at 11:42

Во-во, именно эта проблема меня и беспокоит больше всего. Помимо того, что синхронный старт клиентов — это дикий всплеск нагрузки, то и количество машин ставит вопрос о том, как долго будет идти выход на штатные показатели.

easy_john May 20 2011 at 15:13

сегментируй меньшими кусками, типа: два стора, 6 серверов. каждый такой сегмент поднимается не быстро, но за то ты сможешь запустить все сегменты одновременно.

amarao May 20 2011 at 15:31

Эта проблема понятна, понятна так же идея сегментирования, но очень много вопросов завязано на централизованное управление — пустить каждый компонент в свободное плавание никто не рискует (мы, по-крайней мере, нет), а централизованная (хоть вся из себя кластерная) система всегда точка затыка.

Пока до этого не дошли руки, но всю архитектуру нужно серьёзно менять, чтобы делать облако не только на уровне клиента, но и в рамках management-структур…

easy_john May 20 2011 at 15:38

Подумать над распределенной системой управления? в принципе запасной управляющий хост может висеть вообще где-то у конкурентов и рулить по vpn работой сегментов облака. Биллинг понятное дело туда не вынесешь, но тут уж лучше пол дня биллинга потерять, чем аптайма.

amarao May 20 2011 at 15:44

Не-не-не, это проблема другого уровня.

Например, когда машина запускается, ей нужно иметь специфичные настройки. Фильтрация IP на интерфейсе, настройки регуляции памяти и т.д.

Где их брать? Когда «всё живое» — эти настройки хранятся в централизованной БД, а кешированная копия — в памяти обслуживающего хоста. Штатно предполагается, что централизованная система может лечь ненадолго, а хосты продолжат работать на кешированной копии. Альтернативно, если ложится хост, он ждёт ответа централизованной системы перед первыми запусками.

А теперь представим, что у нас «старт всего». Все ждут централизованной системы, остальные в это время имеют race за ресурсы и т.д… Тут простых решений нет, нужно садиться и делить администрирование на зоны — а это тяжело и опасно, потому что можно запросто получить конфликтную/противоречивую информацию в разных зонах…

easy_john May 20 2011 at 15:54

Я не понимаю, что мещает иметь этот хост централизованной системы запущенным где-то на впс у конкурентов, в качестве последнего эшелона? локальный еще не поднялся, забрали данные с удаленного. Подтом поднимется — синхронизируется с живым.

cvss May 20 2011 at 17:54

Рисков не особо много и они нормально купируются. Другое дело, что провайдеру нужно решить для себя, стоит ли тратить время и менять систему для такой редкой ситуации как эта. Наверное, если разница будет между 1 часом и 6 часами, то стоит.

Децентрализация, конечно, ускоряет значительно — когда у TrueVDS была похожая ситуация с аварийным обесточиванием, на выход в рабочий режим 90% машин потребовалось около 30 минут. Хотя в основом это из-за организации дисковой системы получилось, и это был скорее побочный эффект, так как цель обеспечивать в первую очередь быстрый старт после аварий не ставилась.

Но у вас ведь XCP? У меня было впечатление, что там настройки всех гостей хранятся в децентрализованном сторедже средствами самого XCP. Что должно автоматически решать вопрос и избыточного хранения настроек, и быстрого старта, Или это не так?

amarao May 20 2011 at 18:44

У нас XCP только как «middleware», сверху там много своего.

Кроме того, у XCP хранение-то информации о пуле децентрализовано, а вот операции — централизованы и проходят через мастера. Так что в наш прошлый ляп с рейдом (около часа даун) 10 минут был даун и 50 минут — старт клиентских машин. Хоть там и был какой-никакой параллелизм, но очень ограниченный.

cvss May 20 2011 at 19:34

Если мастер выбывает, что происходит? Новый автоматом выбирается?

amarao May 20 2011 at 22:41

В xcp мастером может быть назначен любой хост пула, но эта операция всегда делается руками, чтобы не огрести массовый сплитбрейн.

UFO landed and left these words here

decanet May 20 2011 at 11:35

Буквально за 20 минут до сбоя оплатили услуги.
И тут такая задница.

shaida May 20 2011 at 11:37

У меня ни один сервер не поднялся.
Есть тут счастливчики?

DZhon May 20 2011 at 11:40

Тоже лежит…

damad May 20 2011 at 11:40

Счастливчиков пока немного. Около 100 клиентов. Стартуем постепенно.

artamonovg May 20 2011 at 11:44

за час… 100 клиентов…
VPS # 43361

FaKiR May 20 2011 at 12:02

У меня два сервера поднялись ))

UFO landed and left these words here

bigdogsru May 20 2011 at 14:00

Пять часов ровно… В панели по-прежнему статус «Ошибка»

Pechkin1007 May 20 2011 at 11:46

Разговор двух админов:
— А у меня вчера друг за пять минут сервер сломал…
— Он что, хакер?!
— Нет, он просто дурак!!!

SyCraft May 20 2011 at 11:50

Некоторые оплатили на год… есть такие

nakamura May 20 2011 at 11:53

Серваки были за упсами, а какой-нить рутер без. Это нормально для серьезного рутера подниматься 20мин))
Это все еще та же страна… могли и такую схему запустить в работу

damad May 20 2011 at 11:54

У серваков есть логи.

xoros May 20 2011 at 11:55

3 часа лежать это уже не серьезно.

damad May 20 2011 at 11:58

Клиентов уже запускаем. Перед запуском клиентов, система требует провести ряд проверок которых не избежать. Не серьезно было бы не сделать этих процедур.

decanet May 20 2011 at 12:02

Не серьезно падать во время компиляции в /tmp когда при загрузке он очищаеться… и УЖЕ списать деньги за недокомпилированный сервис

xoros May 20 2011 at 12:01

Попробую сейчас объяснить это моему начальству:)

CB9TOIIIA May 20 2011 at 12:20

Мое уже сказало: Надоели падения! Нес-ко раз в неделю! Съезжаем :) примерно так.

xoros May 20 2011 at 13:28

Присерно такой же ответ и я получил, но так не хочется покидать любимый clodo, восстанавливайтесь скорее ребята и больше не падайте.Желаю только удачи и бурного развития в дальнейшем.

shaida May 20 2011 at 12:31

Уже почти 4 часа даунтайм. Печально же.

shaida May 20 2011 at 12:50

Простите, можно узнать, когда, ориентировочно, всех включат?

damad May 20 2011 at 12:55

Сейчас всех стартуем. Пятую часть уже запустили.

shaida May 20 2011 at 12:57

Ну то есть, некоторые заработают только часа через 3-4?

damad May 20 2011 at 13:03

Все заработают гораздо раньше

shaida May 20 2011 at 13:56

Один заработал.
На втором красная табличка «ошибка».
Вы его включите?

damad May 20 2011 at 14:10

Включим сами.

Jimmy May 20 2011 at 13:37

А где вы clodo.ru хостите?

RainFall May 20 2011 at 13:39

Задеты не все стойки.

FaKiR May 20 2011 at 13:39

traceroute clodo.ru

damad May 20 2011 at 13:40

Там же. Но веб-морды на отдельных железках и не в составе кластера.

codecity May 20 2011 at 13:44

Проясните ситуацию. Оверсан и Clodo.ru — партнеры?

Если так, то Оверсан не слишком то честный партнер. В одной из прошлых статей они (Оверсан Скалакси) довольно нелестно отзывались о Clodo.ru и несколько раз подчеркивали что последние используют устаревшую версию их оборудования.

И вот теперь устроили им отключение стоек, как бы случайно (лично я в такие случайности не верю).

В общем, если я все правильно понял — то рекомендую Clodo.ru отказаться от такого «партнерства». Иначе это тупик.

damad May 20 2011 at 13:47

МЫ являемся клиентами ДЦ Оверсан-Меркурий — арендуем у них стойки.

Скалакси предположили, что мы используем устаревшую версию их программной архитектуры. Не оборудования.

codecity May 20 2011 at 13:55

>Скалакси предположили, что мы используем устаревшую версию их программной архитектуры. Не оборудования

Точно, прошу прощения.

ДЦ Оверсан-Меркурий и Оверсан-Скалакси — это одна и так же компания (т.е. те самые, которые писали порочащую статью на Хабре)?

damad May 20 2011 at 14:09

ДЦ Оверсан-Меркурий официально сообщил нам, что статья опубликованная в блоге Оверсан является личным мнением их технического директора Дмитрия Лоханского и непосредственно Оверсан не имеет к этому отношения.

codecity May 20 2011 at 14:24

>является личным мнением их технического директора Дмитрия Лоханского

Хм. Но там была разглашена конфиденциальная информация (к которой имел доступ только инсайдер). Причем статья была написана в корпоративный блог (я так понимаю от имени Scalaxy).

damad May 20 2011 at 14:29

У нас были вопросы к Оверсан по этому поводу. Суть официального ответа я уже передал выше.

damad May 20 2011 at 14:34

Нас тоже это напрягает. Размещаясь в ДЦ Оверсан-Меркурий, мы полагали, что информация о нас не будет доступна нашим прямым конкурентам.

long May 20 2011 at 14:36

а что за статья? можно ссылочку?

damad May 20 2011 at 14:38

habrahabr.ru/company/oversun/blog/117260/

acv0ru May 20 2011 at 14:18

Очень подозрительно что первоначальная архитектура СХД в Клодо в точности совпадает с той, которая была у Скалакси изначально, причем включаю конфигурацию железа. Позже Скалакси от нее отказалась, перейдя на другую а вы просто нарезали GPFS на несколько частей чтобы быстрее восстанавливаться.
Кроме того известно что некоторые из сотрудников Скалакси перешли в Клодо свое время, принеся нужные технологии и теперь Скалакси в лице Оверсана вполне возможно точит зуб на Клово.

damad May 20 2011 at 14:21

Почему Вы так уверенно говорите о нашей архитектуре и о том что у нас работают бывшие сотрудники Скалакси? У Вас есть какая то информация которой нет у генерального директора Clodo?

long May 20 2011 at 14:33

бред не несите — в свое время никто из ключевых сотрудников оверсана не уходил

acv0ru May 20 2011 at 18:46

Приведу свои доводы:

1. Д. Лоханский в своем блоге habrahabr.ru/company/oversun/blog/117260/ явно пишет
«Clodo — коллеги, работающие с первой версией нашей архитектуры 2008 года, IBM GPFS хранилище, решение на базе Xen.» — если у Клодо архитектура другая получается что он ВРЕТ?
Если смотреть старые скриншоты архитектуры скалакси и нынешней Клодо (до того как они попилили GPFS на несколько частей) начинаешь верить Лоханскому.

2. Подозрительное сходство в использовании оборудования. Самое странное что и Скалакси и Клодо используют очень дорогой Infiniband. Заметьте что больше ни один рус хостинг подобные штуки не ставит — они очень дорогие и сильно снижают окупаемость хостинга. Скалакси можно понять здесь — они себя изначально позиционировали под размещение гос проектов и рос космоса и денег из гос бюджета не жалели а вот с Клодо — тут непонятны причины.

Исходя из этого можно заключить что технологии Скалакси каким-то образом попали в Клодо.

Вопрос как?
По логике вещей ответ тут только один — люди пришли и помогли/научили/поставили. Это должны быть люди которые умеют работать с очень ДОРОГИМ Infiniband, f5 и тд. Должны разбираться в cхемах построения инфраструктуры с использованием Infiniband для организации хостинга.

Кто мог за короткий срок помочь создать нужную инфраструктуру?
Ответ тоже навязывается сам — кто-то из организации, которая уже это сделала или этим занималась. На тот момент это был один хостинг — Скалакси.

Какие образом и кто помог Клодо освоить все эти технологии?
Кто-то из сотрудников перешел в Клодо, а может и не проходил а находился всегда в стороне, показывал, настраивал, учил — мне лично все равно. Для меня важнее последствия.

А последствия я лично вижу следующие:

1. У Оверсана есть проблемы с организацией работы — сегодня они всем это доказали
2 Клодо использует технологии Скалакси которых добился явно меньшими затратами за что Скалакси держит зуб на Клодо и и своих тестах их выставляет в конец списка облачных хостеров

damad May 20 2011 at 18:55

Логика у вас просто «железная». И все так складно в «анализе» архитектуры. Особенно порадовал «попиленный на зоны GPFS», монополия Скалакси на infiniband и предположение, что специалисты, которые умеют работать с технологиями есть только в Мрскве и все они трудятся в Скалакси.

akzhan May 20 2011 at 21:15

а де факто?) любопытно.

P.S.: тоже бывший сотрудник Scalaxy, хорошая команда там была, когда я там ваял, с Clodo не сотрудничал, если что :)

damad May 21 2011 at 06:58

Что именно любопытно?

long May 22 2011 at 16:43

1. До запуска Скалакси было офигенное кол-во конференций, на которых, в том числе и Дима, довольно подробно рассказывали об архитектуре. то что прошло очень много времени от раскрытия архитектуры до реального запуска Скалакси и что за это время можно было построить работающую систему — явно не проблема Клодо.
2. То что пишет Дима, надо заметить не в своем, а корпоративном блоге — это его личное мнение и только. Если было бы иначе — есть суды, есть закон о коммерческой тайне, как умеет судится Оверсан все знают. Но, на сколько я знаю, никаких реальных доказательств слива нет — только логические выводы. Собственно поэтому наверное и исков нет.
3. Похожесть панелей очень относительная. Они похожи только в общих, очевидных подходах. Кстати доступ к интерфейсам панели был далеко не у всех. А так чтоб и к описании архитектуры и к интерфейсам — так вообще у единиц. Большая часть из которых были руководители.
4. Мне кажется естественным возникновение вопроса о том, откуда такие знания о конкуренте? Мне кажется, что в отличии от, Клодо так активно не участвовало в конференциях и не раскрывало столь подробно свою архитектуру.
Еще раз повторюсь — никто из ключевых сотрудников не уходил из Скалакси в обсуждаемый период (когда передача данных могла бы дать преимущество).

decanet May 20 2011 at 15:09

так, это уже не смешно, когда запустят все машины?

svfedorof May 20 2011 at 15:16

Присоединяюсь. Время 19.16 по МСК, у нас 2 сервера лежат. Мне нравиться Clodo.ru, но невольно уже начинаешь задумываться об альтернативах. Я понимаю 1-2 часа. Но 6 — это уже серьезно.

svfedorof May 20 2011 at 16:40

Поднялись оба сервера.

SyCraft May 20 2011 at 15:14

сижу жду пока начнут матом ругаться, а вообще тоскливо

up01 May 20 2011 at 15:15

Уже почти 7 часов дауна, негодую :(
Думаю над альтернативами.

RainFall May 20 2011 at 15:27

Один сервер поднялся, второй все еще лежит.

Ответ саппорта:

Здравствуйте.
Быстрее не получится. Сервера запускаются в порядке очереди.

Disasm May 20 2011 at 15:40

Странно что на форуме самого clodo тишина. Хорошо хоть здесь какая-то информация есть. Машина запущена, но, судя по всему, не имеет доступа к диску. Перезапустить не получается:«Действия временно недоступны».

up01 May 20 2011 at 15:41

тоже самое…

SyCraft May 20 2011 at 16:07

у меня оба поднялись

bezumkin May 20 2011 at 17:23

А я у вас зарегистрировался! Давно хотел посмотреть на vps — и вот собрался.
Нравится.

bezumkin May 20 2011 at 19:39

Всё понравилось, буду пользоваться.
Только iptables не работает на Ubuntu 10.04-amd64, на форуме об этом пишут, завтра почитаю.

Свой сайт уже перенес, протестировал loadimpact: 1 — 2 мс, я доволен.

arround May 20 2011 at 17:40

Что-то мне кажется, что у Скалакси, такого «моргания» не будет никогда… Моя VPSка как пару часов бегает.
ps: и правда бы лучше сделали глобальное уведомление/рассылку о проблеме, а так бедный саппорт на однотипные тикеты отвечать.

akzhan May 20 2011 at 21:16

вообще-то падения есть и у Scalaxy, просто не такие масштабные. Никто не безгрешен.

index01d May 20 2011 at 17:45

можем гарантировать, что исключили возможность повторения подобной ситуации в будущем.
Примотали скотчем все вилки к розеткам

UFO landed and left these words here

amaxcz May 22 2011 at 02:07

ув. представители Colodo, вы же знаете что критическая единица потребления электропитания — стойка. ну кто же вам мешает распихать все свои сервера по разным стойкам, таким образом чтобы обесточивание _1_ стойки не приводило к фаталам? вам лениво поговорить с оверсаном о том чтобы хитро осуществить эл. коммуникации?
Это такая проблема поставить по 1му дополнительному UPS на каждый ключевой сервер прямо в стойку и запитаться напрямую от него?

у нас все ржут теперь: над новый вид безоблачного хостинга или как компенсировать ущерб репутации клиентов чтобы слово «клоуны» не примешивалось к бренду.

amaxcz May 22 2011 at 06:29

ну все как всегда, и заминусовали, и конструктивно не ответили, и деньги не вернули. и заметьте, кроме пустых обещаний — никакого конструктива… впрочем пофиг, всеравно вы не признаете что молодые и несовершенные, и что у вас еще есть куча рисков и проблем. не признаете и на главной не напишете.