Всё правильно говорите. В крупных резервах — вопрос в том, резервировать ЦОД целиком (как у нас сделано) или системы в нём. Нам надо выдохнуть, посчитать вероятности и экономику, после сделать выводы. Пока на горячую я вам обоснованно с числами не отвечу.
Дизели обслуживаются раз в полгода. В этот раз интервал был чуть меньше, потому что мы сутки на них стояли во время зимнего кризиса. Если это шпилька в мою сторону про эффективный менеджмент — ну, я уже много раз рассказывал, как именно и к каким рискам мы готовимся, и нескольких очень крупных случаев нам удалось избежать. Если вы всё ещё считаете, что я неправ, то, в целом, готов обсудить ваше участие в нашей работе и вашу ответственность за простои в личке.
Похоже, что к разливу ДТ в генераторной мы готовы, потому что это старая генераторная убежища, и она в какой-то степени защищена by design. А вот к пожару не полностью, то есть потушить-то потушим, но заново не заведёмся. Давайте так: сейчас мы выдохнем, и чуть позже расскажу про выводы и то, что реально экономически и рисково обосновано, а что нет — иначе получается история с солонками.
Дело не в солярке, а в том, что когда парк железа исчисляется сотнями нод, моргание света, конечно, укажет на проблемный сегмент, но вместе с тем и есть риск выхода из строя серверного оборудования. Рейд контроллеры, например, не особо любят частые перезагрузки и могут выйти из строя, что наполнит учения незабываемыми ощущениями от потери клиентских данных и последующих извинений. Ранее в комментах я уже упоминал, что мы исправно включали дизели по отдельности и без переключения всей инфраструктуры на них.
Работа на дизелях всегда риск. Мы исправно их включали по отдельности раз в месяц, без переключения всей инфраструктуры на них. Это несёт в себе довольно большой риск и проводить боевые учения, когда у вас полный дата-центр клиентов - так себе удовольствие.
У нас самый широкий выбор дата-центров среди российских хостеров - от М9 и Останкино до Владивостока и Швейцарии. Есть как площадки сертифицированные TIER, так и режимные объекты. Клиенты выбирают то, что больше им подходит в зависимости от потребностей бизнеса: для кого-то 3 периметра физической безопасности и охрана росгвардии важнее потенциального времени ожидания пропуска на объект.
На крайний случай у нас есть соответствующий опыт переезда дата-центра, если мы не сможем обеспечить качество оказания услуг на данной площадке. Но по одному кейсу, хоть и очень тяжёлому неправильно принимать подобные решения.
ИБП, к сожалению, не заменяет само питание и дизели. Его задача выдать чистую синусоиду на сервер и сгладить ситуации переключения лучей питания. В данном случае сначала ИБП сначала обеспечил переход с одного луча на другой, потом на дизель. Потом у дизеля возникла проблема и снова ИБП держал. Но штатно ИБП держат несколько минут, а на полную зарядку требуется несколько часов. Потому вопрос о длительной поддержке со стороны ИБП просто не реализуем.
К сожалению, проблема действительно была — технический сбой с оборудованием, который мы старались уладить как можно оперативней. Но быстро не вышло — пришлось физически менять часть железа. За довольно короткое время, у нас образовалась очередь из более чем 300 звонков и множества тикетов — поддержка тоже работала на пределе, но всем ответить не успевала. В общем, как говорится, «редко, но метко». Часть клиентов была продублирована в других цодах — пожалуй, это лучшее решение против таких ситуаций, особенно для критически важных проектов.
И всё же, в итоге проблему мы победили и сделали выводы, что предпринять, чтобы их не повторялось в будущем, а если и повторятся — как нам минимизировать проблемы от них. Если же вдруг ваша проблема так и не была в полной мере решена, то напишите нам ещё раз на почту технической поддержки support@ruvds.com. Рассмотрим индивидуально.
Мы имели в виду вполне конкретный случай, когда Эдуард Николаев остановился спасти своего основного конкурента в личном зачёте, чтобы в результате выиграла вся команда.
И мы тоже за то, чтобы выиграла отрасль, нам важно сохранить человеческое лицо и помочь ближнему.
Спасибо за левый график. Видимо, вам очень надо было его запостить, раз вы целых три аккаунта сделали, чтобы его выложить. Приятно, когда есть такая фан-база )
Спасибо!
Текст поправил.
Вот прошлые.
Дата-центр Rucloud запитан от двух независимых трансформаторов 110 кВт от городской подстанции Королев, ул. Хвойная. Извините, поправил.
Спасибо за понимание и идеи!
Всё правильно говорите. В крупных резервах — вопрос в том, резервировать ЦОД целиком (как у нас сделано) или системы в нём. Нам надо выдохнуть, посчитать вероятности и экономику, после сделать выводы. Пока на горячую я вам обоснованно с числами не отвечу.
Дизели обслуживаются раз в полгода. В этот раз интервал был чуть меньше, потому что мы сутки на них стояли во время зимнего кризиса. Если это шпилька в мою сторону про эффективный менеджмент — ну, я уже много раз рассказывал, как именно и к каким рискам мы готовимся, и нескольких очень крупных случаев нам удалось избежать. Если вы всё ещё считаете, что я неправ, то, в целом, готов обсудить ваше участие в нашей работе и вашу ответственность за простои в личке.
Похоже, что к разливу ДТ в генераторной мы готовы, потому что это старая генераторная убежища, и она в какой-то степени защищена by design. А вот к пожару не полностью, то есть потушить-то потушим, но заново не заведёмся. Давайте так: сейчас мы выдохнем, и чуть позже расскажу про выводы и то, что реально экономически и рисково обосновано, а что нет — иначе получается история с солонками.
Поддержка ошиблась, простите. Мы были неправы в тот момент. Как я говорил, было довольно сложно в моменте понять детали происходящего.
Дело не в солярке, а в том, что когда парк железа исчисляется сотнями нод, моргание света, конечно, укажет на проблемный сегмент, но вместе с тем и есть риск выхода из строя серверного оборудования. Рейд контроллеры, например, не особо любят частые перезагрузки и могут выйти из строя, что наполнит учения незабываемыми ощущениями от потери клиентских данных и последующих извинений. Ранее в комментах я уже упоминал, что мы исправно включали дизели по отдельности и без переключения всей инфраструктуры на них.
Работа на дизелях всегда риск. Мы исправно их включали по отдельности раз в месяц, без переключения всей инфраструктуры на них. Это несёт в себе довольно большой риск и проводить боевые учения, когда у вас полный дата-центр клиентов - так себе удовольствие.
Написал в ЛС
У нас самый широкий выбор дата-центров среди российских хостеров - от М9 и Останкино до Владивостока и Швейцарии. Есть как площадки сертифицированные TIER, так и режимные объекты. Клиенты выбирают то, что больше им подходит в зависимости от потребностей бизнеса: для кого-то 3 периметра физической безопасности и охрана росгвардии важнее потенциального времени ожидания пропуска на объект.
На крайний случай у нас есть соответствующий опыт переезда дата-центра, если мы не сможем обеспечить качество оказания услуг на данной площадке. Но по одному кейсу, хоть и очень тяжёлому неправильно принимать подобные решения.
Спасибо за поддержку!
Да
ИБП, к сожалению, не заменяет само питание и дизели. Его задача выдать чистую синусоиду на сервер и сгладить ситуации переключения лучей питания. В данном случае сначала ИБП сначала обеспечил переход с одного луча на другой, потом на дизель. Потом у дизеля возникла проблема и снова ИБП держал. Но штатно ИБП держат несколько минут, а на полную зарядку требуется несколько часов. Потому вопрос о длительной поддержке со стороны ИБП просто не реализуем.
Добрый вечер!
К сожалению, проблема действительно была — технический сбой с оборудованием, который мы старались уладить как можно оперативней. Но быстро не вышло — пришлось физически менять часть железа. За довольно короткое время, у нас образовалась очередь из более чем 300 звонков и множества тикетов — поддержка тоже работала на пределе, но всем ответить не успевала. В общем, как говорится, «редко, но метко». Часть клиентов была продублирована в других цодах — пожалуй, это лучшее решение против таких ситуаций, особенно для критически важных проектов.
И всё же, в итоге проблему мы победили и сделали выводы, что предпринять, чтобы их не повторялось в будущем, а если и повторятся — как нам минимизировать проблемы от них. Если же вдруг ваша проблема так и не была в полной мере решена, то напишите нам ещё раз на почту технической поддержки support@ruvds.com. Рассмотрим индивидуально.
Уже ответил здесь.
Мы имели в виду вполне конкретный случай, когда Эдуард Николаев остановился спасти своего основного конкурента в личном зачёте, чтобы в результате выиграла вся команда.
И мы тоже за то, чтобы выиграла отрасль, нам важно сохранить человеческое лицо и помочь ближнему.
Спасибо за левый график. Видимо, вам очень надо было его запостить, раз вы целых три аккаунта сделали, чтобы его выложить. Приятно, когда есть такая фан-база )
Спасибо!