Как стать автором
Обновить

Выкл

Время на прочтение1 мин
Количество просмотров596
Всего голосов 2: ↑2 и ↓0+2
Комментарии99

Комментарии 99

Хм.. а я гадаю куда пропали топики, которые 10 минут назад вроде читал =)
Очередная сказка про безперебойное питание
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
куда полетели?
НЛО прилетело и опубликовало эту надпись здесь
Все дружно проверили карму :) В прошлый раз удар пришлся по ней :)
НЛО прилетело и опубликовало эту надпись здесь
Проверил. Не изменилась. Как была отрицательная, так и осталась. )=
Надежды, повившиеся после прочтения вашего коммента, не оправдались.
почему все так волнуются за глюки в хабре? в нормальных СУБД и приложениях аварийное выключение питания сервера не приводит ни к каким сбоям (если железо не пострадало). а здесь, видимо, все чуют MySQL и от этого появляется тревога за карму и личные сообщения :)
-0,3, это не страшно. :-)
Или таки создали игру, где можно грабить корованы...™
Silkroad Online, кстати.
Вот и сломался Telehouse Caravan: хостинг для богатых, с "с учётом повышенных требований к надёжности серверной площадки, энергообеспечению и качеству сервисного обслуживания".
"Ничто не вечно под луной" (c) не помню кто
)) как я понял - ни кто не помнит...
НЛО прилетело и опубликовало эту надпись здесь
Спасибо.
Увы, опыт показывает, что это стандартный рассказ у всех операторов. Кому нужна надёжность, тот пусть ищет средства на аренду дополнительных юнитов, в которых он сам разместит резервные батареи и систему пожаротушения, как глупо это не звучит, но это есть действительно надёжное решение. Лучше только своя серверная со своими минусами и плюсами.
... со своими линуксами и bsd'ями :)
У меня CentOS там (на Караване) вроде нормально поднялся.
Не знаю, что там у вас, а у нас упала репликация и повредились таблицы хабра. На то, чтобы убедиться в том, что дальнейшая работа проекта не нарушит целостность данных и для восстановления репликации потребовалось время.

У нас есть резерв по серверам, но когда они выключаются все сразу и возвращаются с повреждениями данных, это, знаете ли, связывает руки.

Вообще, конечно, это грубый провал, но караван на фоне других в целом всё равно выигрывает, это первая ощутимая проблема за год работы. Если бы оператор предоставил связь с источником питания, учитывая то, что по сути дела не может обеспечить бесперебойности, это решило бы проблему.

Когда я строил свою серверную в другой компании, у меня было два кондиционера, один из которых промышленный и несколько источников питания с информированием всех серверов. По сути дела, не хватало только системы пожаротушения, для которой так и не выделили средства. Устойчивая связь не так важна, как важна сохранность данных.
а батарейки в дисковых контроллерах у вас разве нет?
На бумагах есть.

Да-да, я тоже где-то слышал про такие контроллеры, которые хранят write-back буфера в памяти и позволяют даже переносить память с вышедшего из строя контроллера на другой. Тем не менее, я вот сходу не могу сказать, что это даст гарантию не только того, что всё записываемое окажется в результате на поверхности диска, но и что база данных адекватно завершит сессию. Стопроцентную гарантию может дать только заблаговременный сигнал к выключению и немного времени на шатдаун.
ммм, это ирония про "где-то слышал", надеюсь? как, имея чертовски ненадежную MySQL, можно использовать контроллеры без батарей в серьезном проекте? да все мало-мальски пристойные карты уже давно едут с собственной памятью и батарейками. про MySQL я вам не скажу, эта база и на ровном месте побиться умеет, а вот для ACID-совместимых баз _исправный_ контроллер с батарейкой является гарантией консистентного состояния базы после восстановления. контроллер сам сделает sync на диск из своей памяти, а база накатит из журнала необходимые транзакции.

кое-кто даже при покупке нового железа с PostgreSQL такие штуки вытворяет для проверки дисков и карточки: запускает тест на очень активную запись в базу и руками из розетки штепсель сервера выдергивает. а после успешного ребута ставит галку в ведомость "дисковая подсистема сервера #n проверена".
Вспомнил: бабушка рассказывала
Шучу, конечно, вы единственный конструктивный участник обсуждения.

Но описанный вами разовый тест, в силу атомарности процесса записи, убедительной уверенности, мне думается, дать не может
Может. По сути это просто разовая проверка железа, больше ничего. Как устроена запись на диск? Условно, на примере Linux (в других ОС системные вызовы по-другому называются, но суть одинакова) это происходит так (упрощенно): вы делаете fwrite и пИшите, что хотите, в любых количествах. Потом делаете fsync. Если система вам сказала, что фсинк завершился успешно, значит она _гарантирует_, что данные с этого атомарного мгновения записались в постоянную память. Контроллеры с батареей, как правило (это настраивается) для улучшения производительности, в этот момент атомарно помечают накопившиеся изменения в забекапленной батарейкой памятью, как закоммиченные, но не сбрасывают их на диск. Простые жесткие диски в этот момент переносят данные из кеша устройства в ПЗУ и дожидаются физического окончания работы записывающей головки.

Теперь, если происходит отключение эл-ва в момент, когда fwrite завершен, но не было fsync-а, вы теряете эти данные. Если отключение происходит в момент, когда вызван fsync, но он еще не вернул положительного результата, вы теряете эти данные. Если отключение происходит после завершенного фсинка — вы не теряете эти данные. Если они остались в кеше контроллера, после включения питания он сам позаботится о дозаписи фсинкнутых данных на ПЗУ.

Далее, PostgreSQL и другие ACID-совместимые СУБД устроены приблизительно следующим образом. Любое изменение данных представляет собой транзакцию. И транзакция не считается завершенной, пока следующий в самом ее конце вызов fsync не вернул положительного результата. Таким образом при отключении эл-ва в любое мгновение максимум, что вы можете потерять — это незавершенные транзакции, которые были открыты в этот момент. А это есть ни что иное, как убедительная уверенность, что у вас не попортятся таблицы, не съедет карма, и не пропадут личные сообщения. Сказочная надежность PostgreSQL устроена именно так.

Единственная возможность для сбоя — faulty hardware. У вас может лажануть контроллер или диск. Например, в процессе падения напряжения попортить записывающей головкой блины. Но если этого не происходит в первый раз, значит у вас более-менее надежное железо, которое с большой вероятностью не подведет вас во второй и последующие разы.
Вообще-то я имел в виду более скромную порчу таблиц, чем грубую потерю данных :-)

Здесь многое "съезжает" и после гибели memcached.

Спасибо за содержательный рассказ.

Это, конечно, повод для новых антикризисных мер.
Все контроллеры на продакшене у нас батареечные. Своими глазами видел )).
А разве хабра в телехаусе?
Я там, так судя по traceroute оттуда до хабра, хабр находится в другом дата-центре каравана: в центре.
в центре
а у меня дома в это же время выключалось электричество.... Странное совпадение ((=
Да ладно, признайтесь, вы админ и живете в серверной каравана :)
Нет, у меня более простая и скучная жизнь. Но и упавшие серваки поднимать не надо.
Дак, потому и скучная =)
вероятно, здание компании Караван разрушила молния.

НЛО?
точняк
А как же запасные линии электропитания и системы бесперебойной работы. Мало того что у нас сервис в дата центрах очень плохой, цены запредельные и на инсталляцию и на аренду, так еще и не работает все периодически.

Про караван ничего не хочу сказать они наверно лучший на нашем рынке.
Но вот цены, для сравнения аренда аналогичного сервера в штатах обойдется в 2 раза дешевле, а инсталляция в 8. Сервис и возможности на высочайшем уровне. Промаявшись с поиском ДЦ в Москве, мы арендовали группу серверов в США в The Planet, я конечно за поддержку российского произовдителся, но бизнес есть бизнес и когда вопрос стоит в экономии в 100% и во вменяемом сервисе партриотизм уходит на второй план.

Хотя один раз помню у них взорвался там генератор и 9 000 серверов остались без питания ( в том числе 1 наш). Так они сделали на заказ генератор этот и на самолете доставили в ДЦ, вопрос был решен за 1 день ( не просто отключение электричества или гроза, а взрыв). Всех ежеминутно держали в курсе, писали что они делают и когда все заработает, после этого случая мы и оставшиеся сервера перенесли к ним!
Боевик!
НЛО прилетело и опубликовало эту надпись здесь
У меня тоже один раз дизель-генератор взорвался. Был мороз -30 (года 2 или 3 назад, не помню), там какая-то схема решила, что началась ядерная зима походу, и завела его.
В остальном спасибо обмёрзшему железу и кулибину-электрику - дизель взлетел на воздух после минут пяти пропускания по сети двух офисных корпусов вольт этак пятиста... =)
SkyNET? O_o
Неа, 50-мегаомный дизель, купленный у китайцев за откат консультанту xD
Просто продают одни, а обеспечивают другие, это надо понимать. Караван работает в целом хорошо, цены, действительно, высокие.
ну не скажите - theplanet лежал 3 дня - с субботы по понедельник. Хотя конечно стоит отдать им должное - информировали чуть ли не каждый час. А потом в качестве компенсации месяц обслуживание бесплатного дали. Если учесть что там было 9000 серверов и в среднем дедик там стоит 140 долларов - $1260000 они подарили пользователям.
адресок датацентра - в студию :)
НЛО прилетело и опубликовало эту надпись здесь
Н сайте Каравана издевательское - "Бесперебойную работу Telehouse Caravan обеспечивают системы управления климатом APC"
APC крупная корпорация и производит в том числе комплексные решения для крупного бизнеса.
В том числе и системы промышленного кондиционирования.
Пожалуйста, прежде чем вводить народ в заблуждение, проверяйте ваши умозаключения.
Наверное вас не затруднит посетить указанный вами же ресурс и посмотреть спектр производимого упомянутой компанией оборудования.
Я уже подумал было что админы на работе заблокировали хабр, но пропинговал с другого сервера и убедился что проблема скорее всего в электричестве.
Хороший пинг, если даже энергоснабжение показывает
Пинг показал недоступность сервера и с других каналов тоже. Отсюда можно сделать определенные выводы.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Один знакомы мой работал в Караване
Там действительно, если происходит подобное, то пытаются решить вопрос как можно быстрее, не жалея на это ресурсов...
*знакомый
//Заметил только когда уже отправил коммент
Заметил только когда вы поправили свой коммент ;)
из-за разгильдяйства одного из моих сотрудников, пока я был в Англии 3 месяца, сервер не оплачивался. в итоге, приехав, обнаружил задолженность в 150 тыс. сервер никто не отключал и ни за какие бекапы никто денег не просит.
Скажите, я правильно понял — 150 тысяч за 3 месяца за 1 сервер?
правильно. в стоимость входит защита от ddos
Мне кажеться или хабр стал быстрее работать после восстановления?
не. Это скорее всего пятница.
это все Девид Блейн
В рот тебе ноги.
В ближайшем будущем, думаю, напишу большую историю о работе пресловутого Каравана, где мы пока еще арендуем сервер.
За последние 2 года мы натерпелись очень много проблем от этой компании (в том числе и сегодня), скоро общественности предстоит узнать всю правду о ее работе и отношению к клиентам (надеюсь, что это спасет тех, кто планировали с ними сотрудничать).

Стоит отметить, что в прошлом году примерно в это же время (тогда было также жарко) у них были проблемы с кондицонированием из-за чего дата-центр не работал несколько дней, возможно, что "проблема с электричеством" - просто байка, чтобы скрыть свою некомпетентность и у них опять не справляются кондиционеры.

P.S. Особенно "радуют" подобные письма от сотрудников Каравана (ответ на наше письмо на где мы говорили, что перенос в будний день и рабочее время неприемлем, и его необходимо осуществлять в выходной день ночью, чтобы сократить убытки клиентов в связи с простоем).

Цитирую:

"Я полностью с Вами согласен, что плановые работы гораздо более правильно проводить в тот момент, когда потери со стороны клиентов будут минимальны.
Но не в ЛЮБОМ случае. Есть еще затраты со стороны поставщика услуги.

Согласитесь, что уровень сервиса должен соответствовать уровню цен и глупо требовать отключения горячей воды летом только ночью и не более чем на час за ту квартплату, которое платит обычный москвич.

Я не готов обсуждать дорого у нас или дешево, а хочу сказать лишь о стандартах и экономической обоснованности с обоих сторон - и продавца и покупателя.
Мы со своей стороны выводим на работу в нерабочее время с 19 до 24 часов дополнительных сотрудников и приложим все разумные усилия для уменьшения времени простоя сервера.

--
С уважением, Дмитрий Канаев
Руководитель департамента обслуживания клиентов Телекоммуникационная компания "Караван"
Телефон/Факс +7(495)363-2252
mailto:customer@caravan.ru
http://www.caravan.ru
"
Красавец!
Уважаемая, не один караван такой плохой. И дата центры Стека и Мастерхоста - падают ровно точно так же в жару. За те деньги, которые готов платить клиент дата-центру - он получает вот такой сервис. Вот и все, и Канаев все верно вам сказал.

P.S. Кстати Дмитрий очень адекватный человек, знаю его лично. Большой профессионал.
ДатаХаус.су лежал тоже с 12 по 15 с времеными прояснениями, когда становилось прохладнее...
Да минусуйте, дети эльфы.
Я думаю, что Дмитрий Канаев являет с собой одну из причин "за", почему с Караваном можно работать. Просто не все люди всесильны. Количество продаж и реальная боеспособность многое решают.
являет собой
А вообще, я бы не стал с вами вступать в личную переписку, зная, что вы можете опубликовать моё письмо в публичном месте
Общественность имеет право знать. Если Дмитрий Канаев в данном случае был прав, то все для себя сделают выводы, а если не прав... то тоже сделают выводы :)
Это была не личная переписка, а официальный ответ компании.
Что касается стоимости - не буду судить, много или мало 11 000 рублей за аренду в месяц (без администрирования конечно).
Вопрос не в деньгах, а в стабильности, которая отсутствует, а также в отношении со стороны компании, которая не признает своих ошибок и провалов и никак не готова компенсировать их (кстати, в прошлом году, когда у них были проблемы с кондиционированием, да нам возместили ущерб - в размере 600 рублей, что просто смешно и, мне кажется, является издевательством и над клиентами, у которых не работали сервера несколько дней, причем это были рабочие дни, середина недели).

Вот вам еще пример из жизни в Караване:
в начале июня этого года, наш сервер отключили "случайно", при этом никак нас об этом не уведомив (видимо звонить клиентам в Караване не принято), когда мы обнаружили недоступность сервера, нашим сотрудникам пришлось самим звонить в Караван, и уточнять, что случилось на этот раз. И, когда выяснилось, что он отключен "по ошибке" из-за неслаженной работы нескольких отделов (что нас как клиентов совершенно не должно волновать и касаться) – его сразу включили. Такого беспредела я не видела еще нигде.
Резюмируя, Караван абсолютно не ценит своих клиентов и никакими морально-этическими нормами и просто компетентностью не обременен.

А выводы каждый может сделать сам для себя.
И на старуху бывает проруха.

Мы арендовали пару серверов в ev1, сейчас это тот же "хваленый" ThePlanet.
Был случай, что один из серверов был не доступен по сети, потому что инженер случайно задел сетевой кабель. Решать проблему пришлось именно таким же способом как и вам: звонить и раздавать люлей.
Наверняка виновата уборщица с шваброй.
НЛО прилетело и опубликовало эту надпись здесь
У них сервера на удлинителе?
НЛО прилетело и опубликовало эту надпись здесь
Что-то слабо верится..
нуне, даже в нашей районной локалке нормальная серверная :)
бухаха пользуюсь услугами этого чудо-провайдера, поэтому охотно верю! :))))
Качество сервиса отечественных хостеров ниже мыслимого. Караван - не первый и не последний. Даунтайм, конечно, у всех бывает, разные ситуации случаются, но раздражает именно то, что ситуации все случаются и случаются, а выводов никто делать не хочет. Натуральный "совок".
эх.. записал в блокнотик "в понедельник проверить работу дизеля... электрики и синоптики звереют"
Привет Дмитрию Канаеву, руководителю отдела хостинга компании Караван ;-)
Так вот в чем дело оказалось... а я своего провайдера долбил - ГДЕ ХАБР БЛИН :)
НЛО грабит ХабраХабрские КОРОВАНЫ ?
zeeck полностью поддерживаю. Находился в том же ДЦ ThePlanet Houston One где произошёл мощный взрыв. Всё решили в течении чуть более суток, это учитывая масштабы проишествия, работали круглосуточно.

А тут на ровном месте выключается свет, на телефоны не отвечают. Зачем спрашивается такой сервис?

bash.org.ru тоже сидит не на мастерхосте и не на караване даже - почему? Да потому что все эти караваны, и мастерхосты работают до первой грозы или прилёта НЛО ;)
Кстати ещё добавлю, что у ThePlanet которая имеет 6 датацентров инцидент с взрывом в ДЦ и дауном впервые за ~10 лет работы. Простой составил от 1 до 3 дней в зависимости от того где находился сервер. Наш был доступен уже через сутки после взрыва. Клиентам дали 1 месяц бесплатно, + для тех кто не уходит следующий месяц бесплатный будет в декабре этого года, + скидка 10% на любой заказ в течении этого года.

Это был небольшой обзор сравнения надёжности Российских и западных провайдеров. После того, как крупнейший Российский сайт находящийся в "лучшем" Российском датацентре падает из-за грозы или жары, извините.
Что-то не могу зайти на страницу своего профиля: http://leogee.habrahabr.ru/
Пробоавал другие, на 80% на заходит. Это только у меня такие глюки?
Не только у вас.
Как раз в Ваш профиль получается зайти :)
И в ваш тоже ;)
Уже починили. Все аккаунты открываются...
Это наша проблема, её уже решили
Были клиентами Каравана с апреля 2005 по сентябрь 2007. Ушли, чему рады и счастливы. Арендовали не бог-весть, 3 юнита, но натерпелись немало. Из запомнившегося: в наш сервер идут два шнура питания, с какого-то перепуга техники решили, что ничего страшного не будет, если вот так запросто, выдергивая шнуры по одному, можно перенести сервер в другой шкаф, и никто ничего не заметит. Стоявший у них ИБП от General Electric, которым они гордились, глючил безбожно, иногда вырубая нагрузку.

Письмо, после которого вопрос с уходом был решён:

Тема: Авария в дата-центре

Телекоммуникационная компания "Караван" доводит до сведения абонентов, что
21 мая в 13:00 по московскому времени в сети энергоснабжения дата-центра
произошел сбой. Он был вызван неполадками на стороне питающего кабеля в
результате отключения питания по одной из фаз городского энергоснабжения.
По причинам, находящимся за рамками разумного контроля, нагрузка дата-центра
не смогла плавно перейти на генератор.
Дата-центр переведен в штатный режим работы после ликвидации аварии на
городском питающем кабеле специалистами "Мосэнерго".

Руководство компании "Караван" благодарит за понимание и приносит извинения
за доставленные неудобства.

—

С уважением,
администрация
компании "Караван"
телефон +7(495)3632252
http://www.caravan.ru/
mailto:info@caravan.ru
Мда, сложно нагрузке, в размере около 150 кВА плавно перейти на питание от дизель-генератора, мощностью в 90 кВА…
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории