Шок! Селектеловское облако больше не растет. Интриги, расследования

    Получил тикет:
    «Из-за высоких темпов роста услуги „Вычислительные ресурсы облака“ был достигнут предел масштабируемости существующей архитектуры, поэтому необходима ее модификация и развертывание новой платформы. Чтобы не создавать текущим и новым пользователям дискомфорта при работе с услугой, было принято решение приостановить создание новых облачных серверов.

    Для новых клиентов создание облачных серверов будет приостановлено с 14 октября с 19-00, для существующих с 01 ноября.»

    UPD из комментариев amarao в q&a
    «Нас подставило хранилище с полугодовым аптаймом и загрузкой около 70%. Проблемы с производительностью до клиентов пока не дошли, мы остановили приём машин раньше.»

    «Пока ещё не всем клиентам решили проблемы с fsck (иногда бывает так, что система не может сама себе fsck сделать, мы это пока что руками решаем). Как закончу — поеду домой отсыпаться/приходить в себя.
    В понедельник напишем развёрнуто.
    Прошу прощения у всех пострадавших.»

    Комментарии 129

      +1
      Я был быстрее )
        0
        ок, удаляю.
          +7
          вернул, раз люди просят.
          +1
          показать всё что скрыто?
            +2
            да-да. :)
            +3
            Хотелось бы комментариев от Селектела, да :-( Второй серьезный сбой за два дня… вчерашний для одной из двух моих машинок закончился сбоем в файловой системе и невозможностью загрузить машину, общий простой — почти четыре часа :-(
            Сегодня намного быстрее все починилось, и сейчас все работает, но иногда бывают «затыки» при записи в дисковый кэш — на конкретную папку выдается вдруг read only…
            Что самое обидное — на пострадавшей машине у меня основной сайт. Лучше б вторая лежала, с клиентской мелочевкой :-(
              +1
              надо в саппорт тикеты писать. на сколько я понимаю, там собирались менять модель хранилища, в сторону увеличения надежности, что могло вызвать какие-то побочные вещи на первых этапах.
                +1
                Естественно, в саппорт пишем в первую очередь. Но саппорт же не даст развернутых комментариев — что случилось и доколе… Отвечают — небольшой сбой, сроков не называют даже приблизительных.
              +3
              Заголовок прямо как у тизеров.
                +5
                я старался :)
                правда статья была в персональных блогах, кто и зачем перенес ее в хостинг (вдруг) мне не понятно.
                  +1
                  модераторы не дремлют )
                    +5
                    хоть бы как-то меня что-ли в известность поставили. ну и вообще я не очень такое одобряю…
                    –3
                    Минус за заголовок. Исправьте пожалуйста. Свою задачу он выполнил.
                  +2
                  Надеемся скоро amarao нам все расскажет.
                    +1
                    он ниже уже отметился.
                    +7
                    Уехал с Clodo из-за подобного. Радовался Селектелу недолго, всего месяца 3-4.

                    ***ть, ну что сделать, чтобы получить нормальный облачный хостинг?!

                    Люди, скажите, стоит пробовать еще и Scalaxy, или сразу уходить на выделенный сервер, типа Hetzner EX-4 за 49 евров?
                      +28
                      Древняя истина гласит — не пользуйтесь отечественным хостингом.
                        0
                          +10
                          Нравится: Селектел
                          Работаю: Селектел

                          Да, спасибо.
                            +2
                            Собственно — не скрываю. Но говорить о том, что где-то там лучше — по крайней мере глупо. Везде вылетают диски, везде бывают разные проблемы. То, что вы о них не знаете, не значит, что их нет.
                              0
                              Бывает и такое, проблемы возникают, но оперативно решаются, порою даже без ведома — показатель. На тёмной же стороне проблема в жадности * на отношение к клиентам (хер с ними, новые придут). Ну и цены конечно-же, если поискать (сравнить к примеру Селектел, Клодо, Scalaxy с dedikuoti.lt — почти вдвое дешевле, а по реф. еще и -50%). Не, печеньки оставьте себе.
                        0
                        думаю не стоит паниковать от разовых сбоев.
                        все же в целом у селектела пока статистика хорошая.
                        да и сервис судя по всему активно развивается, что-то новое делают.

                        ЗЫ мои пара виртуалок работают нормально, сбоев не было, хотя там и нагрузка небольшая.
                          +3
                          Я понимаю ваще миролюбовое настроение — у вас машины работают.

                          А мне пишут, мол все перезагружено, проверяйте. Правда, ни пинга нет, ни через панель не включается сервер. Согласитесь, это не лучшее занятие для вечера пятницы, мониторить, когда все оживет.

                          P.S.
                          Лично я хостинг покупаю, чтобы проблем не было. Желательно, никогда.
                          Дома на шкафу стоит сервер, и если мне захочется экстрима — я на него сайты перенесу. Чтобы раз в месяц электричество пропадало, или интернет. А от Селектела как-то вообще такого не ожидал.
                            +2
                            Завел машину через панель. Вроде все на месте. Буду думать.

                            Общее время простоя около двух с половиной часов.
                              +2
                              У меня почти четыре с половиной :(
                              +3
                              я вас понимаю.
                              но. публичных хостингов, у которых не было бы даунтайма вообще никогда и ни у одно из клиентов вроде как не существует.
                              так что возможность даунтайма у любого хостинга я воспринимаю как данность. дальше только вопрос в скорости реакции саппорта и инженров.
                              +3
                              20 минут — это разовый сбой. 4 часа — уже ни фига не разовый сбой :-( Тем более в вечернее время, когда основной поток посетителей идет… Удивило, что за 20-минутный простой летом дали суточную компенсацию, в этот раз за 4 часа — отделались извинениями. Очень надеюсь, что все исправят… иначе вообще уже непонятно, куда бежать…
                                +1
                                Я всерьез думаю про выделенный сервер В германии. Дешево и очень сердито.

                                Но стоит подождать топика от amarao.
                                  –3
                                  У меня нет кредиток — только дебетовые карты, по которым в тырнете платить нельзя. А кредитки использую только виртуальные. Ради Хетцнера заводить еще одну карту — да ну нафик. Если и селектел накроется — значит, придется переплачивать реселлерам хетцнера :-(
                                    +1
                                    виртуальная киви должна прокатить без проблем
                                      +6
                                      Внезапно. Всю жизнь расплачивался в интернете дебетовыми картами оО
                                      Авангардовская Visa Classic, ВТБшная e-card вам прекрасно подойдут, чтобы с хетзнерами расплачиваться.
                                        0
                                        Мне не нужна еще одна карта. Мне не нужна карта, которой можно расплачиваться в интернете — виртуальных мне вполне достаточно, и я считаю оплату виртуальными картами более безопасной. Считаю маразмом требование скана карты, которое иногда случается у Хетцнера.
                                          +1
                                          Скан карты требуют в том случае, если они не верят, что карта принадлежит тому же человеку, который прислал скан паспорта. Сейчас там много сотрудников, знающих русский язык, так что подобных проблем уже не возникает (ну при условии, что карта действительно принадлежит именно человеку, паспорт которого вы им отправили).
                                            0
                                            Спасибо, буду держать Хетцнер в уме… Хотя все таки дай бог здоровья Селектелу, ну очень мне у них нравится. Надеюсь, наладят все.
                                              0
                                              Хетцнер недавно взломали. Советую colobridge.net, по сути контора немецкая, но по факту русскоязычная. Они даже на хабре пиарились.
                                                0
                                                Не все так радужно у них. Пробовал VDS у них (июнь-август). Поддержка по 10-12 часов не отвечает, с установкой проблемы — не было образа Debian. Отказался, остаток вернули.
                                                  +3
                                                  Везде хорошо, где нас нет. Не падающий хостинг — миф.
                                          • НЛО прилетело и опубликовало эту надпись здесь
                                          +1
                                          Я использую Qiwi Visa Virtual Card — принимают везде. Так что, карточка — не проблема.

                                          Ну и опять же, на fastfps.ru сервера от Hetzner — без переплаты.
                                          Сравните:
                                          www.fastvps.ru/dedicated/
                                          www.hetzner.de/hosting/produktmatrix/rootserver-produktmatrix-ex
                                            –1
                                            А напрямую в Hetzner тоже виртуальная киви прокатывает?
                                              –1
                                              Не вижу причин, по которым ей бы не прокатить.

                                              Я не проверял конкретно на Hetzner, но Playstation Store и остальные забугорные сервисы, где я пробовал, кушают QWC без проблем.
                                                0
                                                У меня она тоже везде прокатывает. Вот тут писали про то, что Хетцнер требует скан карты. Сама не пробовала, не знаю.
                                                  0
                                                  Посмотрите на FastVPS.ru — они перепродают те же сервера Hetzner, по тем же ценам, но с русской техподдержкой.

                                                  И сканы карточек вряд-ли требуют =)
                                                    0
                                                    А вот и не по тем. При оплате хетзнеру напрямую вы не платите VAT, а это почти одна пятая цены. Я уже где-то писал что (установка+месяц с ват) = (установка+два месяца без ват)

                                                    К слову не знаю, что вы там писали в информации о себе, что у вас просили сканы. Ничего подобного не замечал.
                                          • НЛО прилетело и опубликовало эту надпись здесь
                                            +1
                                            У дешевого хостера все будет не лучше (вы ведь про хецнер?)
                                            Вот комментарии
                                            habrahabr.ru/blogs/hosting/129621/#comment_4297650
                                            описывают и вылет дисков и глюки сетевого оборудования.
                                            Какой будет простой у вашей машины, если в хецнере у нее в пятницу вечером сдохнет диск?
                                              +1
                                              Почитайте о них отзывы и подумайте почему у них так дешево и чем это может вам вылиться в пятницу вечером.

                                              Если хотите чтобы гемора с хостингом не было стоит задуматься о своем решении на базе нескольких независимых площадок.
                                              +11
                                              Можно случай, за который мы «отделались извинениями»? Если вы про сбой на этой неделе, то мы компенсации выплачиваем обычно в течение недели-двух, т.к. в отличие от «поднять серверы», тут много бюрократии, которая работает «от и до с перерывами на обед».
                                                0
                                                Ну да, я про вчера, конечно. Да не особо и нужна эта компенсация, у меня там копейки. Просто удивило.
                                                0
                                                Компенсации обязательно будут, но чуть позже.
                                              –2
                                              топай на Hetzner, ставь туда ESX сервак и будешь на своем облачке
                                                +1
                                                без внешнего стора (хотя бы на еще одном соседнем хосту) это будет не облачко, а просто машинка с виртуалками.
                                                  0
                                                  я условно говоря)
                                                    +2
                                                    на своей маленькой, персональной тучке

                                                    (хм, неплохой эвфемизм для виртуалок)
                                                    0
                                                    С внешним — тоже. Облако — это ресурсы по запросу, голый ESX такого не даст.
                                                      0
                                                      Почти все — дает. Память разве что не так гибко регулируется. За то ее можно дать впрок, а неиспользуемую отдавать другим машинам.
                                                    –2
                                                    А нафига свое облако делать, если есть доступ к настоящему железу?
                                                      0
                                                      можно сделать больше надежность (работа при выходе из строя любого хоста) на уровне виртуализации ос. еще консолидация ресурсов, на типичную современную машину влезают десятки средней загруженности серверов.
                                                        0
                                                        Часто бывает что покупают сервак под что нибудь, условно 1С. И в большистве случаев загрузка его небольшая. Если это дело поместить в виртуалку, то на этот сервер можно повесить еще несколько подобных машин…
                                                      –2
                                                        +1
                                                        омг. реклама «идите ко мне, только что я такое и где никому не скажу».
                                                        по мне — так это смешно. никогда бы таким странным предложением не воспользовался… :)
                                                          +1
                                                          Я по работе общаюсь с Хецнеровским сервером, у которого аптайм больше 240 дней — на мой взгляд, весьма прилично.

                                                          Это гораздо больше аптайма моего облака в Селектеле.

                                                            0
                                                            Ну вы же понимаете, что одна машина это вовсе не показатель.
                                                            Вот там в комментах про хецнер очень грамотно сказано habrahabr.ru/blogs/hosting/129621/#comment_4297650
                                                              0
                                                              Один единственный комментарий, на который тут уже 5 раз раз указали — тоже не показатель.

                                                              Опять же, я могу администрировать сервер самостоятельно. Мне всего лишь нужно, чтобы он САМ не сломался, без моей помощи =).
                                                                +1
                                                                Как можно такие вещи гарантировать? Винты дохнут от времени, мамки горят бывает и просто так. Любое из этого может случиться с вашим сервером и в Хецнере и где-то еще. И все это _сам_.
                                                          –3
                                                          activecloud.ru от Softline
                                                          Там все гораздо хитрее. Полное резервирование сети, резервирование стораджей и в районе 10 разнесенных кластеров.
                                                          Категорически рекомендую.
                                                          +2
                                                          Блин… А я хотел к вас с clodo свалить:(
                                                            +1
                                                            а это и не я :) у меня там только несколько машин. с другой стороны виртуалкам уже год, и сбоев с ними у меня не было. один раз машина перегрузилась, но простой составил всего несколькко минут. ну собственно на то оно и облако, если машина где-то упала, то тут же ее запустили на соседнем хосту.
                                                            так что лично для меня у селектела все достойно.
                                                              +2
                                                              Сваливайте. Тут такое намного реже бывает, чем у clodo.
                                                              +30
                                                              Извините, люди, я сейчас не готов много писать. Как только закончу с пост-аварийными работами и приду в себя, напишу.

                                                              Извините за ожидание и аварии.
                                                                +3
                                                                Ждем рассказ, тем не менее, а пока желаю успехов в борьбе. Пятница, выходные, не позавидуешь.
                                                                0
                                                                Никогда не было таких потерь (как простоев так и финансовых перед клиентами) как во время этих сбоев. Наивно доверял облачному хостингу…
                                                                  +1
                                                                  Видимо вы на агаве не хостились, когда там серваки выносили.
                                                                  И не хостились на хостинг.уа, когда там серверная сгорела.
                                                                  Поверьте, там о паре часов вообще ни кто не заикался, там в лучшем случае через неделю-две что-то удавалось запустить…
                                                                  Так что не надо путать технологии и уровень сервиса.
                                                                    +1
                                                                    Я не про пару часов. Мы потеряли очень много данных. Бэкапы делались только для «случайного» удаления данных, поэтому хранились там же, либо на соседних инстансах, полагаясь на резервирование и прочую магию «облака».
                                                                      +1
                                                                      У Selectel же вроде есть внутренний бэкап всего-всего?

                                                                      Может, еще восстановят?
                                                                        +1
                                                                        Открыл тикет 20:25 12.10.2011.
                                                                        Сначала уверяли что все уже ок, а если не ок то будет ок вот вот.

                                                                        Где то в середине общения, когда стало понятно что я потерял машину:



                                                                        В 14 часов 13 окт. (!!) начали что то делать с моей проблемой.
                                                                        Диск я получил но после fsck это тысячи файлов в lost+found… в общем бесполезные гигабайты…
                                                                          +2
                                                                          Беда.

                                                                          Искренне сочувствую.
                                                                            +8
                                                                            Это то, что поручено отвечать инженерам.

                                                                            Объясняю: у нас есть бэкап «технический» (де-факто — gzip'нутый снапшот LVM на случай падения астероида или вылета tripple mirror в полном комплекте. Этот бэкап нам в продакт среде практически некуда распаковывать (хм, 32Тб), и уж тем паче, неудобно доставать (внутри LVMoISCSI формат XCP, в котором точная информация о том, какой vdi к чему относится хранится в собственном формате ВНУТРИ одного из LV без файловой системы). Другими словами, есть только один сценарий, когда этот архив пойдёт в дело: невозможность восстановить данные с существующего массива. Я не буду (я понимаю, что сейчас я не в той позиции, чтобы говорить категорично, но всё таки, всё равно не буду) распаковывать 10Тб в 32Тб на отдельный сервер, цеплять его к отдельному XCP, выковыривать оттуда VDI и т.д.

                                                                            Соответственно, инженерам техсаппорта дана установка «бэкапов не достаём».

                                                                            Случаи, когда файловые системы клиентов бились — были. Случаев, чтобы мы полностью потеряли хранилище пока не будет. Если будет, то даун составит примерно 40 часов на разворачивание этого обратно (это исходя из 300Мб/с скорости массива на бэкап-сервере).

                                                                            Именно потому у нас используются RAID1[UUU] (то есть тройное резервирование) — чтобы таких даунов не допускать (хм… опять хвастаюсь сидя в куче дерьма… пардон).

                                                                            И именно потому мы не будем доставать чего-либо клиентам из бэкапов.
                                                                              +7
                                                                              Все красиво, и хорошо.

                                                                              Но фразу «И именно потому мы не будем доставать чего-либо клиентам из бэкапов» я не понял.
                                                                              Тупо нет места? Нет подготовленной площадки/машины для того, что бы удобно достать? Ну это слабоватая отмазка.
                                                                              Мне кажется, что в условиях, когда данные клиента были потеряны не по его вине, а в результате неких обстоятельств связанных с вашей системой такая категоричность не сильно красиво смотрится.
                                                                              Да, понятно, что «вдруг» это сделать сложно но все же имея бэкап
                                                                              Без наезда, просто интересно.

                                                                              ЗЫ и вообще ситуация с 40-часовым восстановлением я слабо понимаю. За такое время клиенты разбегутся кто-куда, данные 2-х суточной давности уже будут 90% из них не нужны и не актуальны. То есть мне кажется тут есть над чем подумать. Иметь первый уровень бэккапа в более оперативной доступности и с более удобоваримым алгоритмом восстановления? Хотя я вообще говоря понимаю, что вы бэкап не заявляли и ничего не гарантировали…
                                                                                +1
                                                                                Лучше иметь хоть какой-то бэкап, чем его не иметь.
                                                                                  +1
                                                                                  Ок, за какое время ты распакуешь 32Тб данных?

                                                                                  Я понимаю, что это плохо с нашей стороны, но если я сейчас неделю потрачу на разворачивание бэкапов, которые нужны трём клиентам (да и то, они к тому моменту будут протухшие до невозможности) — разворачивать-то в продакт нельзя, значит нужно разворачивать в специальную тестовую среду, которую нужно собирать, настраивать, отлаживать.
                                                                                    –1
                                                                                    Вопрос в том почему эта тестовая среда не стоит у вас уже готовая?
                                                                                      +3
                                                                                      Потому что полностью эта среда не удвоила, но существенно бы увеличила капитальные вложения. Заметим, итогом этого было бы не «о, ща всё будет» для пострадавших клиентов, а «мы будем ваши бэкапы мурыжить ещё два дня минимум» (заметим, это только на распаковку) — то есть польза для клиентов была бы не такая большая, как кажется. А вложения в такое оборудование вылились бы в стоимость ресурсов.

                                                                                      Восстановимость бэкапов мы проверяем в малом масштабе — 1Тб мелкое тестовое хранилище поднимается за примерно 5-6 часов (там никто за скоростями не гонится и всё ходит по гигабиту и парочке sata'шных винтов).
                                                                                      +1
                                                                                      Ты же понимаешь, что я не пробовал. У меня самое нагруженное хранилище всего несколько тер. С ленточной библиотеки оно восстанавливается примерно за 2-3 часа (fc-fc). Для нас срок хоть и большой, но терпимый для такого чп.
                                                                                      Для хостинга 40 часов — это много.
                                                                                      ЗЫ Помнится я уже где-то обсуждал с тобой, что более адекватной выглядит схема с большим количеством мелких сторов. И нагрузку балансировать, и восстанавливать, если что быстрее.
                                                                                  –2
                                                                                  > Диск я получил но после fsck это тысячи файлов в lost+found… в общем бесполезные гигабайты…

                                                                                  Если бы использовалась ZFS, запущенный процесс проверки zpool scrub, работающий в фоне, практически не сказывается на производительности, а после проверки можно точно узнать какие файлы повреждены (полные пути) из отчёта статуса пула.
                                                                                    +2
                                                                                    ZFS? под линухом в юзерпсейсе? шутник…
                                                                                      –2
                                                                                      На сторадже необязательно должен стоять GNU/Linux, если он не поддерживает современные технологии файловых систем.
                                                                                        +1
                                                                                        Человек говорит про внутренности своей виртуалки.
                                                                                        Виртуалки в облаке сетелктела в данный момент только линуксовые.
                                                                                        При чем тут вообще стораджи? Откуда ZFS?
                                                                                          –2
                                                                                          Вы не отличаете сторадж от виртуалок? Так вот, это разные сервисы, которые могут предоставляться разными операционными системами. И любая виртуалка — Windows Hyper-V, Solaris Zones, Linux OpenVZ, FreeBSD Jail, Windows может запускаться с ZFS на отдельном сторадже, управляемом совершенно отличной ОС, прикиньте. Про «после fsck это тысячи файлов в lost+found» можно забыть.
                                                                                            +1
                                                                                            Еще раз повторяю для вас:
                                                                                            — сторадж принадлежит селектелу. он некий внешний.
                                                                                            — виртуалка у Myarh, в треде которого мы пишем.
                                                                                            Сторадж побил данные.
                                                                                            Внутри виртуалки fsck вытащил все что смог в lost+found.
                                                                                            Чуть выше вы советуете Myarh ZFS.
                                                                                            Для него этот совет абсолютно бесполезен. Он не может влиять на способ организации стораджей в селектеле. Он не может использовать zfs внутри своей виртуалки (может, но смысла нет).
                                                                                              –1
                                                                                              > Сторадж побил данные.
                                                                                              > Внутри виртуалки fsck вытащил все что смог в lost+found.

                                                                                              Myarh сказал (дословно): «Диск я получил но после fsck это тысячи файлов в lost+found… в общем бесполезные гигабайты…», — совершенно неясно, на чьей стороне произошло нарушение целостности — на стороне стораджа, или на стороне пользовательской виртуальной машины.

                                                                                              Далее, в обсуждении уже написали, что «в ядре системы произошел сбой, повлекший нарушения в файловой системе». Это ядро операционной системы или ядро облачных вычислений? Скорее — второе. А значит, проводить восстановление ФС с помощью fsck внутри виртуалок — грубейшая ошибка, так как такое восстановление противоречит процессу аварийного восстановления стораджа, и пользовательская ФС в лучшем случае будет просто очищена (что и произошло в итоге).

                                                                                              Классическое решение состоит в том, чтобы ожидать полного восстановления стораджа (сколько времени это бы ни заняло), а только затем пытаться восстанавливать и подтверждать целостность пользовательских ФС, использующих этот сторадж.

                                                                                              > Чуть выше вы советуете Myarh ZFS.

                                                                                              Я не советовал. Я завёл разговор об уместности ZFS на стороне стораджа — не виртуалки(ок). Только этом случае пользователи могли бы:
                                                                                              1) подтвердить целостность данных (сервис стораджа);
                                                                                              2) подтвердить потерю части данных с указанием путей к повреждённым файлам (сервис стораджа)
                                                                                              или
                                                                                              3) однозначно диагностировать потерю всех данных из-за разрушения пула (сервис стораджа) и приступить к немедленному восстановлению данных из бэкапов (не насиловать труп fsck с конечным результатом в lost+found).
                                                                                      0
                                                                                      zpool scrub под Solaris 10u8 на 1 Тбайтном отзеркалированном луне просаживает массив AMS 2500 так, что сервис таймы на дисках всех клиентов подключенных к этому массиву по FC взлетают до 120-300 мс. Cache Write Pending за массиве взлетает до 80% и всё, приехали, массив просажен полностью.
                                                                                        0
                                                                                        Что значит «отзеркалированном луне», вы ZFS пул делаете на логическом томе аппаратного RAID что ли? Весьма нелепо.

                                                                                        В ZFS есть собственные средства управления RAW-накопителями. Кроме того, двойное преобразование и контроль чётности в случае использования ZFS на аппаратном RAID естественно сказывается на производительности в сторону квадратичного ухудшения характеристик.

                                                                                        Тюнить не пробовали? Можно выбрать алгоритм подсчёта контрольных сумм и размер блока. Можно добавить ОЗУ и/или выделить отдельные (лучше MLC SSD) носители для двухуровневого кэширования (L2ARC). Сейчас мануалов по тюнингу ZFS для конкретного применения — завались — как-никак, пятилетний опыт использования этой ФС в продакшене имеется.
                                                                                          0
                                                                                          Мой комментарий относился лишь к замечанию про отсутствие влияния на производительность при скраббинге.
                                                                                          Ничего нелепого в таком подходе не вижу. Аппаратные массивы заботятся о избыточности данных. Zpool'ы создаются в самой простой конфигурации, без избыточности. Всё что требуется в данном случае от ZFS — удобство управления томами: увеличить файловую систему, перекинуть с хоста на хост и создать снапшот и т.п.
                                                                                          «Отзеркалированный лун» появляется тогда, когда нужно совершить переезд с одного массива на другой:
                                                                                          — Подключаем диск с нового массива на хост
                                                                                          — Выполняем zpool attach
                                                                                          — Наблюдаем жесточайшие тормоза на массиве, на который выполняется синхронизация зеркала
                                                                                          — После выполнения scrub отключаем старый диск
                                                                                          Причём, при копировании данных средствами ОС(cp,tar,cpio и т.п.), средствами zfs(send|receive) таких тормозов не наблюдается.
                                                                                          Есть замечания, но в целом zfs — конфетка. Накоплен большой положительный опыт её использования как на Solaris, так и на FreeBSD
                                                                                            0
                                                                                            > Мой комментарий относился лишь к замечанию про отсутствие влияния на производительность при скраббинге.
                                                                                            > Ничего нелепого в таком подходе не вижу. Аппаратные массивы заботятся о избыточности данных. Zpool'ы создаются в самой простой конфигурации, без избыточности.

                                                                                            Вы привели нестандартное использование ZFS, когда она используется как обычная ФС и менеджер томов без сквозной целостности данных и метаданных.

                                                                                            > — Подключаем диск с нового массива на хост
                                                                                            > — Выполняем zpool attach
                                                                                            > — Наблюдаем жесточайшие тормоза на массиве, на который выполняется синхронизация зеркала

                                                                                            А вы что ожидали? У вас ZFS зеркалирует, да ещё аппаратный RAID проделывает почти ту же самую работу — двойное переиспользование полосы пропускания дисковых интерфейсов.

                                                                                            > — После выполнения scrub отключаем старый диск

                                                                                            А это ещё зачем? ZFS после зеркалирования полностью синхронна и непротиворечива. Или были случаи расхождения?
                                                                                              0
                                                                                              Старый диск отключаем потому что завершена процедура переезда с одного массива на другой. Стандартная конфигурация zpool'ов в нашем случае — без избыточности.
                                                                                  +1
                                                                                  Так если бэкапы есть, то они не должны были фатально испортиться.
                                                                                    +1
                                                                                    1. Бэкапы делаются раз в сутки, за день данных набегает много.
                                                                                    2. Когда fsck работала в первый раз машина снова упала и уже после этого перестала загружаться. Возможно это и привело к тому, что после второго fsck в lost+found нет ничего, что можно было бы прочитать и понять «что это». До сих пор сидим пытаемся «узнать» файлы.
                                                                                      +6
                                                                                      Вот тут прошу прощения. Вероятнее всего вы запустили/перезагрузили машину сами, после этого это сделали мы (т.к. после падения стора все машины перезагружаются). ПОдобного сценария я не предусматривал. Извините.

                                                                                      Напишите в тикет, я передам информацию в коммерческий отдел.
                                                                                    +3
                                                                                    Если у вас данные хранились на соседних VM (не «инстансы» — инстансы это несколько копий одной и той же виртуальной машины), то они там должны были сохраниться.
                                                                                +2
                                                                                Машины начали подниматься. Надеюсь, что в эти выходные сотрудники Selectel отдохнут)
                                                                                  +2
                                                                                  Во, я тоже получил такой тикет. Хотя регистрировался и пробовал сервис не из-за необходимости, а ради интереса. Понравилось. А на письмо сначала не обратил внимания, пока не увидел этот пост.

                                                                                  Искренне желаю компании решить все проблемы, сотрудникам — спокойных выходных.
                                                                                    +7
                                                                                    мне кажется я приношу проказу на хостинги. так что ежели хотите избавиться от конкурентов — можете мне заплатить, я перенесу свой сайт к ним и у них начнутся проблемы. :)
                                                                                      0
                                                                                      Z вот периодически думаю перейти на облака, но такие случаи пугают. И что характерно за обозримую перспективу падения были почти у всех облачных хостингов, как российских, там и импортных.
                                                                                      Причем особенно обидные такие вот падения, которые происходят не из-за какого-то форс-мажора, а из-за того что создатели облака что-то не учли. Чем тогда это лучше дедика, если дедик падает реже и поднимается быстрее? А тут восстановительные работы на сутки простоя.
                                                                                        +2
                                                                                        Думаю все эти детские болезни облачно-хостингов через годик-другой можно бужет забыть.
                                                                                        НУ а дедик падает со сментью винта ничуть не хуже, если еще и саппорт не сильно быстрый, то можно лежать сутки и более при неудачном стечении обстоятельств.
                                                                                          0
                                                                                          Будем надеяться, а пока фигня какая-то. Кстати при отказе единичного винта нормальный дедик не падает, потому что там как минимум RAID 1.
                                                                                          Ну и как бы никто не говорит что дедики не падают, но пока складывается впечатление что облако это лишний геморрой. Преимущества не сильно заметны, а вот риски выше (потому что к рискам серьезного отказа железа добавляется риск падения облака целиком) и главное восстановление дольше.
                                                                                          Ждем пока все отточат и допилят.
                                                                                            +1
                                                                                            Преимущества есть — копеечное содержание сервиса без нагрузки. Возможность быстрого почти мгновенного роста, при необходимости.
                                                                                            Ну а стабильность это дело времени. Как обычно, новая технология на рынке — много поставщиков, конкуренция, невысокое качество. Постепенно все устаканивается, самые крупные шишки набиваются и поставляются подпорки.
                                                                                              –4
                                                                                              По большому счету не всякий рост может обеспечить облако.
                                                                                              Как видите тут уже достигнут предел и дальше рости на Селектеле не получится.
                                                                                              При этом расходы, при увеличении нагрузки не идут ни в какое сравнение с расходами на ферму серверов, сервера банально быстрее и дешевле.
                                                                                              Год назад на Хабре даже проскакивало видео доклада где сравнивали затраты на ферму и Амазон, разница была в 4-5 раз в пользу дедиков.

                                                                                              Облако хорошо только для тех, кому нужно что-то посчитать за короткое время.
                                                                                              Т.е. заняли на 10 минут и все, а дальше простаивающую инфраструктуру оплачивают постоянные клиенты.
                                                                                                +2
                                                                                                Для облачного клиента очевидный use-case выглядит так: обычно на сайте 5-6К онлайн, уютненький бложик «для своих», но раз в неделю на слешдоте кто-то публикует ссылку на клевую статью/картинку/etc. на этом сайте и прилетает еще 20-30К онлайн на пару часов. Держать все время дедик, который скушает этот трафик, невыгодно.
                                                                                                А если сравнивать тупо в лоб ресурс в облаке и ресурс на дедиках, с утилизацией хотя бы в 70%, то дедики по цене выиграют, это очевидно.
                                                                                                  0
                                                                                                  Для хомяков да, это выгодно.
                                                                                                  Но такую нагрузку потянет любой обычный хостинг где сменить на время тариф — кликнуть 2 раза мышкой.
                                                                                                  И это уже будет дешевле облака.
                                                                                                    +2
                                                                                                    Облако (селектеловское, в частности) — это IAAS, сравнивать с «обычным хостингом» (shared, как я понимаю?) некорректно. Теперь сравни по ценам обычные VDS и облако.
                                                                                                      –1
                                                                                                      Уже без меня сравнивали.
                                                                                                      При одинаковой производительности облако выходит дороже.
                                                                                                        0
                                                                                                        Мне облако обходится в два раза дешевле, чем более слабая VPS.
                                                                                                          –3
                                                                                                          Вероятно вам просто меньший тариф нужен, либо просто дорогие VPS смотрите.

                                                                                                          Сегодня исполняется ровно месяц серверу одной черниговской студии сидящей на нашем XEN3.
                                                                                                          ukrnames.com/hosting/vds/xen.jsp
                                                                                                          Беру данные прямо из статистики XEN-а, считаю по ценам Селектела.
                                                                                                          Получается 953,81306 рубля, у нас 594 рубля.
                                                                                                          При этом у них далеко не самый активный сервер, что в общем свойственно для вебстутдий.
                                                                                                  +1
                                                                                                  > Как видите тут уже достигнут предел и дальше рости на Селектеле не получится.

                                                                                                  Это откуда у вас такие странные идеи?
                                                                                                  То, что у селектела в данный момент нельзя создавать новые машины, говорит только о том, что уже купленное оборудование используется почти полностью. Ну так поставят еще стойку с серверами — будет дальше расти.
                                                                                                  И опять же — это только рост количества виртуалок, существующие машины нормально масштабируются, попробовал на своих — и памяти я максимум получить могу и процы на 100% нагрузить.
                                                                                                    –2
                                                                                                    Если вы прочитали комментарии сотрудников, то можете увидеть что они уперлись в технологию.
                                                                                                    Поставить еще стойку для хранилища данных и вписать это в существующую их структуру не так просто.

                                                                                                    В любом случае я говорил о другом.
                                                                                                    У виртуалки не будет 100500 ядер или 100500 Гб ОЗУ как бы вам не хотелось.
                                                                                                    Все равно приходится делать кластеры, масштабировать.
                                                                                                    А тогда смысл для крупных проектов в быстром росте практически нивелируется, а для мелочи подойдут обычные виртуалки и хостинги где можно быстро менять тариф.
                                                                                                    Ну и цена, которая в итоге получается в n раз больше по сравнению с традиционной услугой тоже не красит облака.
                                                                                          0
                                                                                          У меня VPS с сайтами лег этой ночью. Ничего конкретного не говорят что там с ним и когда починят. «Специалисты выясняют, извините за неудобства, бла-бла-бла»
                                                                                            0
                                                                                            На Селекткле?
                                                                                              0
                                                                                              Ну да, топик же о нем.
                                                                                              0
                                                                                              Вот, что написали:

                                                                                              Здравствуйте.

                                                                                              Сегодня ночью произошла авария на оборудовании, где выполнялась ваша виртуальная машина.
                                                                                              В ядре системы произошел сбой, повлекший нарушения в файловой системе.
                                                                                              В настоящее время ведутся восстановительные работы.

                                                                                              Приносим извинения за доставленные неудобства.
                                                                                                0
                                                                                                Что-то подозрительно. Впс и облако использует одни и те же сторы?
                                                                                                  0
                                                                                                  Не знаю. Так же я не знаю что делать мне: простой уже 10 часов, бекапов у меня нет.
                                                                                                    +4
                                                                                                    Не пугайтесь. Сейчас диски чекаются. Потерь данных быть не должно.
                                                                                                      +1
                                                                                                      > бекапов у меня нет.
                                                                                                      мне кажется, что это был последний раз, когда вы не делали баккапы, да?
                                                                                                      +3
                                                                                                      Нет, сторы разные. Сам в шоке.
                                                                                                        +2
                                                                                                        Локальное землятресение?
                                                                                                        Конкуренты через стенку микроволновками травят?
                                                                                                          0
                                                                                                          А когда возобновится работа? Время идет-то
                                                                                                            +2
                                                                                                            Уже запускаем машины. Приношу свои извинения.
                                                                                                              +1
                                                                                                              Да, заработало. Данные вроде все на месте

                                                                                                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                                                                  Самое читаемое