amarao Oct 17 2011 at 16:00

Приостановка облака для новых пользователей

3 min

11K

Selectel corporate blog

+65

Comments 36

dvas Oct 17 2011 at 16:21

Держитесь, ребята! Желаем вам как можно скорее вернуться в строй.

Когда случается авария, то клиенты начинают делать множество телодвижений.

Как показывает практика, это очень трудно победить организацией пула задач и разбором очереди. Но это побеждается волевым решением и ручным запретом всех действий на время аварии (запретом в смысле совсем: выдаем пользователю сообщение о запрете и ничего не ставим в очередь).

Disasm Oct 18 2011 at 08:12

Я тоже не понимаю почему так отключили управление машинами: всё равно ничего запустить не удалось. Да и знал бы что всё так — не стал бы вообще пытаться запускать.

Disasm Oct 18 2011 at 08:56

«почему не отключили», конечно

amarao Oct 18 2011 at 11:56

Не должно быть такого. Тикет пишите.

Disasm Oct 18 2011 at 19:49

Да зачем, всё работает уже.

Somewan Oct 17 2011 at 16:28

>Контролируемую перезагрузку, падение конкретных сервисов, смерть дисков в многократно резервированном рейде (и даже смерть SAS-контроллера) мы предусматривали. А вот такого «доброго» нет

Если я не ошибаюсь, это называется запроектная авария. Ну что поделать, невозможно предусмотреть всего и вся. Ведь до относительно недавнего времени считалось, что взрыв реактора на АЭС — невозможен потому что невозможен никогда. Время и человек доказали обратное — возможно все.

Держитесь. И держите нас в курсе, если не сложно.

zizop Oct 17 2011 at 16:37

Признание своих ошибок делает вам честь. Уверен, что вы справитесь с этими проблемами.

v1z Oct 17 2011 at 16:49

Ну вот, буквально полчаса назад я зарегался и пытался пополнить счет, как мне ответили «Пополнение баланса облака, а также создание машин для новых клиентов временно приостановлено».

Обидно =(

kewlhacker Oct 17 2011 at 16:55

Я так понимаю, когда облако проектировали/разворачивали, опять изобретали велосипед и теперь огребаете? Или просто знаний не хватило чтобы нормально запустить?

У вас 500 клиентов (или сколько там, ну сотни в любом случае) — придел под который система была спроектирована? You fucking kiddin me? Простите, но это детский сад какой-то.

amarao Oct 17 2011 at 21:23

м… нет, речь идёт о нескольких тысячах. Сбои коснулись двух хранилищ из 8.

P1k4 Oct 17 2011 at 16:58

Уверен у вас все получится, сбои с файловой системой очень не приятная штука.
Несколько раз терял контент в вашем облаке. Благо всегда делаю бекапы на dropbox :)

ComputerPers Oct 17 2011 at 17:18

А где фотки?

amarao Oct 17 2011 at 21:24

У меня был постстрессовый отдрых, я нагло прогулял понедельник на работе. Добрые люди опубликовали черновик. Фотографии у меня на нокле, ща добавлю.

UFO just landed and posted this here

amarao Oct 17 2011 at 21:26

Поясняю: некоторые операции у нас o(n) от числа машин. До определённого момента это была очень комфортная аппроксимация, сейчас она стала некомфортной. То есть + 100-200 машин мы не заметим, а если каждый клиент сделает себе про запас десяточек, то просто тормознётся часть операций по управлению машинами. Она и сейчас подтормаживает (время исполнения больше 3с), а станет просто ещё дольше.

UFO just landed and posted this here

adamant Oct 17 2011 at 17:29

Коллеги, успехов! И скорейшего преодоления возникших сложностей.

prophetz Oct 17 2011 at 17:41

Радует что компания заботится о клиентах, а не гонится за прибылью.

System32 Oct 17 2011 at 20:30

Когда клиенты «несколько раз теряют контент» (цитата), а «разворачивать бэкап слишком долго и ради вас одного мы этим заниматься не будем» (не цитата, вольный пересказ) — это забота о клиентах? Когда менее чем с 500 клиентами весь хостинг дико проседает по производительности и тупо падает — это забота о клиентах? Мое ИМХО, это называется «ошибка проектирования». Если с 400 клиентами такие факапы случаются — что же будет, когда их будет несколько тысяч?

Я уж не говорю о том, что прекращение приема новых клиентов — это фактически закрытие бизнеса.

Можете минусовать, но для меня это звучит как какая-то дикость. В этом бизнесе нужно постоянно бежать, чтобы оставаться на месте. Прекращение развития, тем более на несколько месяцев — это приговор. Конкуренты сожрут и не подавятся.

Я считаю, что за такие факапы того, кто проектировал всю эту инфраструктуру — нужно как минимум уволить. Это ж надо — «гладко было на бумаге, да забыли про овраги»!

merlin-vrn Oct 17 2011 at 21:11

Молодого, недавно назначенного менеджера компании IBM, руководство вызвало на ковер. Еще бы! Он совершил сделку, на которой фирма потеряла 10 миллионов долларов. Когда сотрудник понял свою ошибку, было уже поздно, деньги уплыли.

Зайдя в кабинет, и, чувствуя свою вину, он, не ожидая того, что ему скажут, произнес:

— Я понимаю, что вы вправе меня уволить, и, признавая свою вину, принимаю ваше решение.

— Уволить? — произнёс руководитель. — Мы только что потратили 10 миллионов на ваше обучение и не вправе разбрасываться такими ценными кадрами. Идите работать!

Xevus Oct 18 2011 at 12:39

Красивая, но совершенно нереалистичная байка.

amarao Oct 17 2011 at 21:27

Какие 500 клиентов? 500 виртуалок у нас было в конце января 2010, когда мы только-только начинали.

Указанные в статье цифры — это число пострадавших.

feedbee Oct 17 2011 at 22:44

Смешанные чувства после прочтения. С одной стороны я пострадавший почти во всех авариях, которые были в облаке Селектела за все время. С другой стороны огромный лимит лояльности, заложенный благодаря стараниям amarao, пока не исчерпался.

Я и сам нахожусь в похожей ситуации, как amarao с коллегами. Ситуация, когда времени и ресурсов меньше, чем нужно, а задачи масштабные и с большим количеством пользователей. Так что хорошо понимаю всю неприятность сложившихся обстоятельств.

Конечно, желаю по-быстрее справиться со сложностями. На данный момент, к сожалению, положиться на это облако нельзя (у конкурентов все-таки было аварий поменьше). В облаке хостится мой личный сервер, для которого допустимы небольшие даун-таймы. Рабочий сервер (который уже больше года хостится на Селектеле в виде выделенного сервера, аптайм 260 дней) до сих пор не перевел на облако. Очевидно, что сейчас дата переноса отодвигается очень значительно.

Ждем…

kruff Oct 17 2011 at 22:59

Что самое классное, так это то что я попал под все три раздачи.
У меня 2 сервака и 1 облако. В двух случаях из этих трёх подохли базы данных… Долго всё восстанавливал, но это моя ошибка из-за кривых дампов. Самая печальная авария из этих трёх — последняя. Сервер был недоступен с 4+ ночи до 18+.

После всего этого задумался переезжать с селектела, но пока не знаю куда. Всё понимаю, но порой очень расстраивали ответы тех. поддержки… Ребята, я понимаю что вы не администрируете клиентские сервера… но вроде как после аварии можно было и посодействовать восстановлению похеренных данных…

xReaper Oct 18 2011 at 02:47

Вот поэтому я настоял и мы всё таки поставили свою стойку в хорошем датацентре в европе. Уже третий год пошел без даунтайма. Там рядом под боком Orange и SFR сидит (мобильный оператор) для них 5 минут это блин миллионы, да, платим дорого, ну и хрен с ним.

vovochka404 Oct 18 2011 at 05:11

Радует, когда компания признает свои ошибки.

Вот компания в которой я работаю, когда обосрется, почти всегда делает вид что ничего не произошло и что все в порядке. Это так раздражает.

Спасибо вам за открытость. :)

mark_ablov Oct 18 2011 at 05:34

> децентрализация всего и вся — задача крайне нетривиальная
оо, это ад и погибель, если не заложено изначально в архитектуру :)

amarao Oct 18 2011 at 11:55

Тулстек облака — это очень и очень много. В каких-то местах заложено, в каких-то нет, в каких-то есть, но частично.

В принципе, объём децентрализации там вполне описуемый, но на живую мы это менять точно не будем.

miolini Oct 18 2011 at 05:49

Сделайте платными операции с машинами.

ProstoDesign Oct 18 2011 at 11:31

И вход в панель управления тоже. Че мелочится-то.

Evengard Oct 18 2011 at 11:30

Это по этой причине трансфер облачного сервера на другой акк временно невозможен?

amarao Oct 18 2011 at 11:57

Это одна из причин. При трансфере криво переносится потребление, до новой модели списаний никаких переносов не планируется.

erlyvideo Oct 18 2011 at 15:20

Удачи, чините.

Попытайтесь заранее, т.е. сейчас понять с чем нажрался Амазон, что бы избежать их ошибок.

grobbelaar Oct 21 2011 at 11:38

смотрю вас все еще колбасит
так у вас железный сбой или технологический?

Cloud4Y Oct 22 2011 at 01:30

Коллеги, удачи и терпения. В итоге все сделаете как должно быть.

Koc Nov 3 2011 at 11:25

Здравствуйте!

Произошел сбой, затронувший оборудование, на котором выполнялась Ваша виртуальная машина.
Данные не пострадали, однако в данный момент проводятся работы по восстановлению, в связи с чем виртуальная машина может быть некоторое время недоступна.

Приносим извинения за доставленные неудобства!

какого черта? это теперь каждую неделю такое будет?