Pull to refresh

Comments 36

Держитесь, ребята! Желаем вам как можно скорее вернуться в строй.

Когда случается авария, то клиенты начинают делать множество телодвижений.

Как показывает практика, это очень трудно победить организацией пула задач и разбором очереди. Но это побеждается волевым решением и ручным запретом всех действий на время аварии (запретом в смысле совсем: выдаем пользователю сообщение о запрете и ничего не ставим в очередь).
Я тоже не понимаю почему так отключили управление машинами: всё равно ничего запустить не удалось. Да и знал бы что всё так — не стал бы вообще пытаться запускать.
«почему не отключили», конечно
Не должно быть такого. Тикет пишите.
Да зачем, всё работает уже.
>Контролируемую перезагрузку, падение конкретных сервисов, смерть дисков в многократно резервированном рейде (и даже смерть SAS-контроллера) мы предусматривали. А вот такого «доброго» нет

Если я не ошибаюсь, это называется запроектная авария. Ну что поделать, невозможно предусмотреть всего и вся. Ведь до относительно недавнего времени считалось, что взрыв реактора на АЭС — невозможен потому что невозможен никогда. Время и человек доказали обратное — возможно все.

Держитесь. И держите нас в курсе, если не сложно.
Признание своих ошибок делает вам честь. Уверен, что вы справитесь с этими проблемами.
Ну вот, буквально полчаса назад я зарегался и пытался пополнить счет, как мне ответили «Пополнение баланса облака, а также создание машин для новых клиентов временно приостановлено».

Обидно =(
Я так понимаю, когда облако проектировали/разворачивали, опять изобретали велосипед и теперь огребаете? Или просто знаний не хватило чтобы нормально запустить?

У вас 500 клиентов (или сколько там, ну сотни в любом случае) — придел под который система была спроектирована? You fucking kiddin me? Простите, но это детский сад какой-то.
м… нет, речь идёт о нескольких тысячах. Сбои коснулись двух хранилищ из 8.
Уверен у вас все получится, сбои с файловой системой очень не приятная штука.
Несколько раз терял контент в вашем облаке. Благо всегда делаю бекапы на dropbox :)
У меня был постстрессовый отдрых, я нагло прогулял понедельник на работе. Добрые люди опубликовали черновик. Фотографии у меня на нокле, ща добавлю.
UFO just landed and posted this here
Поясняю: некоторые операции у нас o(n) от числа машин. До определённого момента это была очень комфортная аппроксимация, сейчас она стала некомфортной. То есть + 100-200 машин мы не заметим, а если каждый клиент сделает себе про запас десяточек, то просто тормознётся часть операций по управлению машинами. Она и сейчас подтормаживает (время исполнения больше 3с), а станет просто ещё дольше.
UFO just landed and posted this here
Коллеги, успехов! И скорейшего преодоления возникших сложностей.
Радует что компания заботится о клиентах, а не гонится за прибылью.
Когда клиенты «несколько раз теряют контент» (цитата), а «разворачивать бэкап слишком долго и ради вас одного мы этим заниматься не будем» (не цитата, вольный пересказ) — это забота о клиентах? Когда менее чем с 500 клиентами весь хостинг дико проседает по производительности и тупо падает — это забота о клиентах? Мое ИМХО, это называется «ошибка проектирования». Если с 400 клиентами такие факапы случаются — что же будет, когда их будет несколько тысяч?

Я уж не говорю о том, что прекращение приема новых клиентов — это фактически закрытие бизнеса.

Можете минусовать, но для меня это звучит как какая-то дикость. В этом бизнесе нужно постоянно бежать, чтобы оставаться на месте. Прекращение развития, тем более на несколько месяцев — это приговор. Конкуренты сожрут и не подавятся.

Я считаю, что за такие факапы того, кто проектировал всю эту инфраструктуру — нужно как минимум уволить. Это ж надо — «гладко было на бумаге, да забыли про овраги»!
Молодого, недавно назначенного менеджера компании IBM, руководство вызвало на ковер. Еще бы! Он совершил сделку, на которой фирма потеряла 10 миллионов долларов. Когда сотрудник понял свою ошибку, было уже поздно, деньги уплыли.

Зайдя в кабинет, и, чувствуя свою вину, он, не ожидая того, что ему скажут, произнес:

— Я понимаю, что вы вправе меня уволить, и, признавая свою вину, принимаю ваше решение.

— Уволить? — произнёс руководитель. — Мы только что потратили 10 миллионов на ваше обучение и не вправе разбрасываться такими ценными кадрами. Идите работать!
Красивая, но совершенно нереалистичная байка.
Какие 500 клиентов? 500 виртуалок у нас было в конце января 2010, когда мы только-только начинали.

Указанные в статье цифры — это число пострадавших.
Смешанные чувства после прочтения. С одной стороны я пострадавший почти во всех авариях, которые были в облаке Селектела за все время. С другой стороны огромный лимит лояльности, заложенный благодаря стараниям amarao, пока не исчерпался.

Я и сам нахожусь в похожей ситуации, как amarao с коллегами. Ситуация, когда времени и ресурсов меньше, чем нужно, а задачи масштабные и с большим количеством пользователей. Так что хорошо понимаю всю неприятность сложившихся обстоятельств.

Конечно, желаю по-быстрее справиться со сложностями. На данный момент, к сожалению, положиться на это облако нельзя (у конкурентов все-таки было аварий поменьше). В облаке хостится мой личный сервер, для которого допустимы небольшие даун-таймы. Рабочий сервер (который уже больше года хостится на Селектеле в виде выделенного сервера, аптайм 260 дней) до сих пор не перевел на облако. Очевидно, что сейчас дата переноса отодвигается очень значительно.

Ждем…
Что самое классное, так это то что я попал под все три раздачи.
У меня 2 сервака и 1 облако. В двух случаях из этих трёх подохли базы данных… Долго всё восстанавливал, но это моя ошибка из-за кривых дампов. Самая печальная авария из этих трёх — последняя. Сервер был недоступен с 4+ ночи до 18+.

После всего этого задумался переезжать с селектела, но пока не знаю куда. Всё понимаю, но порой очень расстраивали ответы тех. поддержки… Ребята, я понимаю что вы не администрируете клиентские сервера… но вроде как после аварии можно было и посодействовать восстановлению похеренных данных…
Вот поэтому я настоял и мы всё таки поставили свою стойку в хорошем датацентре в европе. Уже третий год пошел без даунтайма. Там рядом под боком Orange и SFR сидит (мобильный оператор) для них 5 минут это блин миллионы, да, платим дорого, ну и хрен с ним.
Радует, когда компания признает свои ошибки.

Вот компания в которой я работаю, когда обосрется, почти всегда делает вид что ничего не произошло и что все в порядке. Это так раздражает.

Спасибо вам за открытость. :)
> децентрализация всего и вся — задача крайне нетривиальная
оо, это ад и погибель, если не заложено изначально в архитектуру :)
Тулстек облака — это очень и очень много. В каких-то местах заложено, в каких-то нет, в каких-то есть, но частично.

В принципе, объём децентрализации там вполне описуемый, но на живую мы это менять точно не будем.
Сделайте платными операции с машинами.
И вход в панель управления тоже. Че мелочится-то.
Это по этой причине трансфер облачного сервера на другой акк временно невозможен?
Это одна из причин. При трансфере криво переносится потребление, до новой модели списаний никаких переносов не планируется.
Удачи, чините.

Попытайтесь заранее, т.е. сейчас понять с чем нажрался Амазон, что бы избежать их ошибок.
смотрю вас все еще колбасит
так у вас железный сбой или технологический?
Коллеги, удачи и терпения. В итоге все сделаете как должно быть.
Здравствуйте!

Произошел сбой, затронувший оборудование, на котором выполнялась Ваша виртуальная машина.
Данные не пострадали, однако в данный момент проводятся работы по восстановлению, в связи с чем виртуальная машина может быть некоторое время недоступна.

Приносим извинения за доставленные неудобства!


какого черта? это теперь каждую неделю такое будет?
Sign up to leave a comment.