Горячая замена – это когда в работающем сервере заменяют компоненты на лету, без выключения. Как минимум – это блоки питания, ещё такой фокус можно проделывать с жесткими дисками, адаптерами, но это уже зависит от конкретной модели сервера. В данном случае этот экземпляр рассматривается только как донор таких запчастей.
Склад запчастей у нас действует более 15 лет. Мы представляем в России многих крупных производителей (например, Dell, HP, EMC, Cisco и пр.), поэтому за это время накоплена большая и довольно точная статистика по выходу из строя различных компонентов. Исходя из нее под конкретные сервисные проекты формируется склад.
Поддерживаем полный резерв. Любая запчасть должна быть всегда на складе. При формировании склада покупаем как запчасти, так и оборудование в сборе. Те, которые чаще всего выходят из строя — как правило это элементы с подвижными частями – жесткие диски, вентиляторы, БП, либо же аккумуляторы, у которых ограниченный срок службы — их кладем с запасом, опять же исходя из количества и статистики.
Исходим из того, что мы не заменяем оборудование, а именно восстанавливаем (меняем запчасти). Поэтому пожар, наводнение в расчетах не учитывается. Да и не было на практике таких масштабных событий. Максимум – подтопление. Но иногда действительно бывают случаи, когда целиком меняется сервер.
Два самых частых варианта:
1. Router/firewall на freebsd, напимер, заказчика смысла новую железку покупать не видит.
2. Проприетарный софт — исходников уже нет, только образ машины. Поэтому дешевле сапортить старый пень, чем платить за разработку софта заново.
А что дальше рассказывать? Обещал про обычный рабочий день — вот. Про выезды чуть позже ещё расскажу, у нас за последние пару лет новых балалаек накопилось.
Это отдельные люди, незадействованные в проектах. Они сидят и ждут заявок, в это время собирают стенды для обучения, занимаются документацией последних изменений и так далее — то есть делают то, что в случае «пожара» можно отложить или передать другому. Они же занимаются тестами новых для рынка решений (потому что потом им их поддерживать), участвуют в подготовке техдокументов, занимаются обучением коллег и сами повышают квалификацию. И делают ещё много вещей. В общем, понятия «бездействие» и «скука» им чужды.
Я за коллег из другого подразделения говорить не могу. Поэтому и указал адрес. Пишите туда, будем разбираться. А сейчас получается беспредметный разговор.
Этот вопрос не ко мне лично, но к коллегам. Думаю, ваша обратная связь будет более чем полезна. Отправьте, пожалуйста, свой номер телефона и реквизиты заказчика на почту PKolmychek@croc.ru. Павел сможет помочь. На всякий случай отпишите здесь, пожалуйста, как отправите.
Около 15 минут (и больше) уходит на корректную регистрацию заявки. Просто так ехать нельзя — нужно понимать, что случилось, какое оборудование везти, нужно ли что-то на срочную замену брать с собой «по подозрению». Крайне редко заказчик даёт полную информацию сразу, а ехать надо с пониманием что ожидать, хотя бы примерным.
Дальше сборы. Склад у нас прямо на месте, где дежурство, поэтому после регистрации инцидента ещё 10-15 минут уходит до выезда. Или больше, если оборудования много.
До места едем как быстрее: когда на машине, когда на метро или другом общественном транспорте. Может довольно много времени уйти, город большой и склонный к пробкам. Но может получиться и быстро.
Если ехать за пределы Москвы, то приезд в среднем на следующий день.
Пункты SLA про срочное исправление обычно касаются либо оборудования заказчиков на наших площадках (где всегда дежурит команда), либо, реже, ситуаций с возможностью удалённого доступа.
Обсуждать этот вопрос я с вами не могу по двум причинам: во-первых, все факты под соглашением, во-вторых, истории этой, если мне не изменяет память, уже больше 5 лет. Поэтому если было — значит, было. Никто не говорит, что у всех всё идеально, ошибки случаются (правда, с тех самых пор всё стало в разы строже). Единственное, если мы думаем про один и тот же объект, коллеги утверждают, что тезис про большую часть работы — это несколько неверно. Но, думаю, объём там был таким, что большей своя часть показалась обеим сторонам.
Спасибо. похоже форматирование при конвертации разъехалось. поправим обязательно.
про портал не понял, где это? Если есть дополнения/предложения, пишите, дополним во второй версии.
Поддерживаем полный резерв. Любая запчасть должна быть всегда на складе. При формировании склада покупаем как запчасти, так и оборудование в сборе. Те, которые чаще всего выходят из строя — как правило это элементы с подвижными частями – жесткие диски, вентиляторы, БП, либо же аккумуляторы, у которых ограниченный срок службы — их кладем с запасом, опять же исходя из количества и статистики.
Исходим из того, что мы не заменяем оборудование, а именно восстанавливаем (меняем запчасти). Поэтому пожар, наводнение в расчетах не учитывается. Да и не было на практике таких масштабных событий. Максимум – подтопление. Но иногда действительно бывают случаи, когда целиком меняется сервер.
1. Router/firewall на freebsd, напимер, заказчика смысла новую железку покупать не видит.
2. Проприетарный софт — исходников уже нет, только образ машины. Поэтому дешевле сапортить старый пень, чем платить за разработку софта заново.
Дальше сборы. Склад у нас прямо на месте, где дежурство, поэтому после регистрации инцидента ещё 10-15 минут уходит до выезда. Или больше, если оборудования много.
До места едем как быстрее: когда на машине, когда на метро или другом общественном транспорте. Может довольно много времени уйти, город большой и склонный к пробкам. Но может получиться и быстро.
Если ехать за пределы Москвы, то приезд в среднем на следующий день.
Пункты SLA про срочное исправление обычно касаются либо оборудования заказчиков на наших площадках (где всегда дежурит команда), либо, реже, ситуаций с возможностью удалённого доступа.
про портал не понял, где это? Если есть дополнения/предложения, пишите, дополним во второй версии.