20 лет техподдержки: как мир менялся вокруг нас

    image
    Мы в 1995-м

    Мой коллега как-то срочно повёз в Мурманск блоки питания – там завод встал 30 декабря, ни одна служба доставки не работала. Да и с проводником или лётчиком не передашь. Плюс железа такого ни у кого уже лет 5 нет. Нашёл чудом через знакомых, загрузил в машину, сам поехал. По дороге машина сломалась, он её в -25 прямо под сильным ветром чинил. Приехал, они блоки в стойку вставили – так они прямо там сразу погорели.

    В общем, берите чай и заходите внутрь слушать тёплые добрые истории. У нас на поддержке сотни заказчиков, включая самые крупные компании в стране. Случалось всё что угодно. Буду потихоньку рассказывать, как мы начинали, и что делаем сейчас.

    Вступление


    Сразу скажу, что рассказывать я буду именно и только про сервис «тяжелого» дорогостоящего оборудования: RISC-серверы IBM, HP и SUN (который теперь Oracle), системы хранения для больших данных EMC, IBM, Hitachi, коммутаторы уровня ядра CISCO, Nortel, HPN и т.д. От таких систем зависит, например, будут ли работать колл-центры банков, сможем ли мы снять деньги в банкомате, зарегистрироваться на рейс или дозвониться до нужного нам человека в нужное время.

    Тараканы в домашнем ПК всем и так понятны. А вот то, что они живут и в серверах – это немного интереснее, и ответственность системного инженера таких систем и оборудования значительно выше. Заказчиков по понятным причинам называть я не имею права, но кто в курсе, много кого узнает. В половине случаев – ошибочно, потому что одни и те же истории имеют свойство повторяться. Да, и ещё, где совсем критичные баги шли, я поменял некоторые второстепенные детали по просьбе безопасников. Но поехали.

    image
    Вот этим мы занимаемся

    Моя самая запомнившаяся история такая. Настроили мы как-то кластер в одном банке. И базу данных на нём. Всё это прекрасно работает по отдельности, но стоит запустить реальный запрос – он не проходит. Пинги при этом ходят нормально. Из другого места пробуем – всё хорошо. Несколько дней смотрели, стали уже по пакетам разбирать. В итоге нашли в этой подсети с пользователями сетевой принтер, который имел небольшой баг. И вот он как мина замедленного действия всю свою долгую трудовую жизнь ждал звёздного часа. И дождался. В итоге он ловил конкретно наши пакеты. Вынули его из розетки – всё заработало как надо.

    Через год история с Убийцей Пакетов повторилась. Уже у другого заказчика. Они там бились головой об стену пару дней, потом нас позвали разобраться, что не так. Смотрим — по документации все сетевые узлы одинаковые, по факту же одна из коробочек по цвету отличалась. Вынули – трафик сразу пошел. Потом выяснилось, что это был неоригинальный модуль, который поставили при ремонте. И прошивка у него другая. Мы его просто заменили на нормальный.

    Как всё развивалось?


    Сначала было вот так. В 90-х, чтобы собрать компьютер, нужно было ещё собрать всё по отдельности работающее на одной материнской плате – и вот здесь вас могли ждать любые сюрпризы. Совместимость надо было проверить, да и допуски у железа были такие, что две одинаковые вроде железки могли совершенно по-разному работать.

    image
    Это мы в 2002-2003 тестируем компьютеры.

    Сначала техподдержка была своего рода работой на грани микроэлектроники. Потом начали вставать проблемы совместимости железа, а неполадки решались заменой целых модулей. Теперь главная работа в администрировании, потому что всё очень сильно усложняется, и главные инциденты связаны чаще всего с софтом.

    Или вот приезжает оригинальная железка и оригинальный же блок питания к ней. Но почему-то последний в отсек не влезает хоть ты тресни. Не может быть такого, но с реальностью не поспоришь. Запускать надо уже утром, поэтому можно напильником чуть подточить один из углов БП – и он запихивается как надо. Сделаете так?

    Да? А вдруг вы что-то не поняли, и сейчас потеряете гарантию ценой в сотни тысяч долларов? Или, с другой стороны, вдруг вендор ошибся сам? Сейчас вы ему уголок отрежете – а завтра сервис-инженеры поставщика за задницу возьмут – «кто разрешал так поступать?».

    Или вот сервер приезжает, одного драйвера нет. В Рунете дистрибутив лежит, но левый. Будете брать или неделю подождёте? Если возьмёте – то будете пользоваться несертифицированными драйверами, что в случае чего может стать серьёзной проблемой. Если нет – сорвёте дедлайн. У меня, кстати, был такой случай: производитель железа выпустил новый драйвер с патчем для одной экзотической ситуации, а поставщик его в пакет не включил – у них программа тестов на пару месяцев. Я написал официальное письмо с вопросом, можно ли ставить чтобы хоть как-то заработало. К счастью, пошли навстречу, подтвердили, что можно, конечно, только до конца тестов у них не могут обещать, что внезапных перезагрузок не будет.

    Местами нас даже ругают: «здесь бы даже мой сосед починил, вон, только предохранитель заменить». Мы тоже это знаем, только корпус без сертифицированного инженера вскрывать нельзя, гарантия. Но с точки зрения пользователя – мы злые нехорошие люди, которые решили, что буква инструкции важнее всего в мире.

    Кстати, до недавнего времени один специалист паял. Хоть и в большинстве случаев надо целыми блоками менять, паял. Иногда были вентиляторы, когда нельзя, например, железку у вендора найти. Или есть где-то на заводе устройство, которому уже лет 15, и оно там очень нужно. Ломается, а запчастей не найти, ни платных, ни бесплатных, никаких вообще. Приносят к нему, он смотрит, прозванивает. Ну чего бы не спаять? Взял – спаял. Теперь нету этой романтики, да и вендоры очень щепетильно относятся ко всему, что не замена модуля.

    Сегодня ремонт железа выглядит так: на стойке загорается светодиод напротив сбойного модуля, приходит SMS от мониторинга, ты берёшь модуль на складе (а обычно он есть – это как раз наша работа), вытаскиваешь битый и ставишь новый. Всё, ремонт окончен.

    А вот 10 лет назад ещё запомнившаяся история была. Звонит мне в 2 ночи инженер, и говорит:
    — Ой, заказчик звонил, у них там что-то с локальной сетью.
    — А чего?
    — Я не знаю (он студент был, стажер наш, еще не все знал и понимал).
    — У нас сервисный контракт с ними есть?
    — Нет, нету контракта.

    Звоню коллеге, спрашиваю, что делать — помогать или нет? Он говорит:
    — Да ты что! Там к утру всех поувольняют, у них как раз сейчас время отчетов. В общем, если мы можем, давай поможем.
    Звоню обратно инженеру, рассказываю что и как. Ну, в общем, «секс по телефону» — разбираемся, ищем нужные модули, проверяем, что там есть память, софт, всё это собираем. Заказчик всё понял, очень обрадовался, что ему хоть кто-то помогает, прислал машину. «Встречайте молодого человек в очках, в кислотном свитере с разводами, берцы, штаны как у Битлов, волосы дыбом зачёсаны, рядом наш охранник… видите такого?». Нашли. Увидели, привезли на место, всё поменяли, завелось.

    Утром коллега приходит, говорит — «Вот, они мне с утра отдали подписанные контракты, я их там не мог больше месяца подписать, а с утра пришел, а они лежат». Оказалось, мы были не первыми, кому они позвонили, но единственными, кто к ним вообще приехал. Тогда это подвиг был, а сейчас в SLA заложено – туда-то бежать, то-то делать.

    Ещё сейчас у нас для работы на микроуровне вместо паяльника декомпилятор. Вот пример. В конце каждого месяца падал один колл-центр. За время падения могло пропускаться доо 3-4 тысяч звонков. Начали разбираться, пару багов нашли, но туда или нет – непонятно. Вендор всё железо проверил, тоже чисто. Но нет, в следующем месяце колл-центр снова упал, начали уже грешить на сервер виртуализации, поменяли на физический, оказалось снова не то. А если и в следующем месяце опять упадёт – убытки будут огромные. Пришлось декомпилировать смежные системы. Оказалось, в одном месте был неверный таймаут, поменяли. Все заработало. Но так, кстати, декомпилировать тоже не всегда можно, на всё нужно разрешение.

    Иногда приходится реверс-инженирить железо. Бывает, что в старую систему надо воткнуть новый компонент, а управляющего софта нет: надо пытаться понять протокол, дописать функционал. Или же, наоборот, к старому оборудованию надо новую железку. Был вот случай, когда на одном заводе от лазерного станка программатор на перфокартах украли (по ошибке, думали сам станок забирают). Всё же просто – надо понять, что на вход подавать вместо перфокарты, и будет опять работать. Реверс-инжиниринг во всей красе.

    Или бывает, что выходит новое железо, скорости меняются, тайминги плывут. То что было почти константами, на новом оборудовании может и не так вычисляться. И где проблема – непонятно, может, железо сырое, может, софт с багами, а, может, где-то на стыке в почти случайной ситуации накапливается ошибка.

    Что ещё поменялось?


    Ну, наверное, стало больше профилактики. Обычно поломка – это не только прямые убытки, но и репутационные риски. Например, представьте, что банкоматы одного из банков на сутки вылетают из-за аварии в ЦОДе. Потери огромные. Соответственно, все критические системы сами диагностируются и по возможности затачиваются под замену до выхода из строя. Как флеш-диски в серверных хранилищах – точно знают свой момент отказа.

    Или вот раньше мы по стране ездили, а сейчас много чего стало администрироваться удалённо. Но всё равно мы и в Южно-Сахалинск срочно вылетали, и в Якутии на оленях в санях до железа ездили.

    Из старых историй – один раз приезжаем смотреть железо заказчика, где критическая почта тоссится, а там мыши в контуре питания поселились. Им там тепло, вкусно – изоляцию жрут. Тараканов тоже часто встречали. Сервера в тазиках видели (чтобы водой с пола не залило). Кстати, мелкая живность зимой в серверные заводов и крупных складов так и бежит. Перегрызут что-нибудь мелкое, глюки пойдут непонятные, а продиагностировать можно только по месту. Или, лучше, мелкие зверьки выступают в роли проводников. Не очень хороших, но проводников. Отсюда и трудно воспроизводимые проблемы. Тараканы иногда изображают такие спонтанные плавкие предохранители.

    Ещё появилось много новых сервисов. Раньше просто «торговали телами» — отправляли выездных админов. Сейчас у нас есть круглосуточная консалтинг, горячая линия, выделенные сервис-инженеры (это парни, которые, как пожарные, всё время ждут срочного выезда), склады запчастей под конкретные объекты, «детективы» (расследуют инциденты), есть плановые замены железа, куча обязанностей с обновлением ПО, сложное управление базами данных, детальная отчётность, финпланирование, документирование, мониторинг, аудиты, инвентаризации, тестовые стенды для нового железа, аренда железа для горячих замен и так далее. Мы же помогаем переезжать, и мы же «поднимали» и обучали десятки технических команд в крупных компаниях.

    Что заказчику важно?


    Когда мы начинали – чтобы хоть кто-то что-то сделал. Сейчас — качество и скорость. Заказчики становятся требовательны. Если раньше приходил бородатый дядька, говорящий на непонятном языке, к нему с пониманием относились. Потому что другого нет. А сейчас всегда должен быть человек, который понимает процесс в целом – например, если встаёт завод, надо чтобы он быстро смог финансовому директору нарисовать меры исправления ситуации или назвать то, что может ремонт ускорить. И ещё потом надо объяснить, что это было, почему, есть ли шансы, что повториться. И кому оторвать руки, чтобы больше не случилось.
    Также изменятся ситуация у самих вендоров, которые стремятся соответствовать все более высоким стандартам обслуживания. Например, у Cisco организована замена вышедшего из строя оборудования в течение 4х часов не только в Москве, но и в других регионах. При этом специалисты вендора также работают 24х7.

    Поэтому, кстати, часто хорошая поддержка начинается с написания аварийного плана. Есть специально обученные параноики, которые находят самые вероятные или опасные места отказов, мы их резервируем. Что-то не так – переключаем на резервный ЦОД, например, срочно едем разбираться. Планы, кстати, многоуровневые. Например, приезжает по обычному плану запчасть, а её при разгрузке роняют – что делать? Вскрывают на месте конверт «совсем плохо» — там написано, что делать, если план А сорвался.

    Где плана нет, нашим коллегам сложно. У нас как у внешней компании финансовая ответственность, а вот на штатного сисадмина ещё психологическое давление часто очень сильное. «У на все не работает, все сломалось, мы тебя уволим» и так далее. Мало того что проблема, так все кричат, а он в этот момент должен принимать какие-то правильные решения, грамотные. Это потом, через час, можно будет коньяк из-под фальшпола доставать. А сейчас 30 секунд на то чтобы рубильник дёрнуть или кнопку нажать – и ущерб если что, каких-нибудь пару миллионов долларов.

    Или вот совсем типичная ситуация для наших дней. К вам приезжает новая железка. Свеженькая, в здоровенной такой упаковке с китайского завода. Вы прогоняете тесты, затем аккуратно ночью включаете её в боевую конфигурацию. Она отлично работает 20 минут, а потом начинает непоправимо глючить. Вы чертыхаетесь, останавливаете сервис на 10 минут, но успеваете убрать её из системы без потерь. Что случилось? Да чёрт его знает. Производитель пару месяцев тестировал готовое решение под нагрузкой, испытывал разные ситуации, отдавал в реальные компании – разве что детей за машину не пускал. И программа была очень обширная. И тут – бац! – всё останавливается именно у вас. Американцы находят баг. Китайцы на коленке собирают патч, вы его накатываете. И тут же начинают сыпаться неполадки со всех сторон там, где всё уже работало. Откат назад ничего не даёт. Вы, что называется, конкретно встреваете.

    Почему? Потому что софт плюс железо – это очень сложная штука. Вот взять новый Airbus 370, например. Это такой здоровенный самолёт с кучей подсистем. Там всё задублировано, надёжно, критические узлы работают чуть ли не от удара железкой по другой железке. Перед каждым полётом он проверяется. Представили? Это очень сложная конструкция, в которой есть и программная и аппаратная части, которые разрабатываются десятки лет. Баги там стоят сотни жизней, и все части самолета реально хорошо тестируют. Но баги случаются. Программные пакеты уровня ОС могут быть куда сложнее, чем такой объект.

    Теперь посмотрим на любую новую железку или программно-аппаратный комплекс, который внедряется где-то. В любом случае всё это придётся доводить до ума, поддерживать, проверять, обслуживать. В итоге появляются специальные люди, такие своего рода шаманы – знают куда ударить. Это как раз мы.

    Важно диагностировать очень быстро. Время простоя часто на секунды считают, и поэтому опыт тут очень важен. Часами гонять тесты просто нет времени. Надо знать тысячи ситуаций от сотен заказчиков, чтобы приехать на место и сразу смотреть куда надо. Это, кстати, ещё одна причина, почему нас считают шаманами. Как Фейнман – приезжаем, тыкаем, все удивляются. Только он наугад в схему показывал, а мы знаем. На некоторых особо критичных объектах у нас в SLA прописано 15 минут на решение проблемы с момента прибытия специалиста, например. Или 30 минут от регистрации инцидента. Где важно? Да, пожалуйста – сбой у сотового оператора, проблемы у банка и так далее. Понятно, что всё несколько раз зарезервировано, но случается всякое.

    Ссылки



    Вот, пока всё. Думаю, у вас тоже есть куча историй из практики. Расскажите самые интересные в комментариях, пожалуйста.
    КРОК 506,90
    №1 по ИТ-услугам в России
    Поделиться публикацией
    Комментарии 37
      +2
      А как звучит официальная должность у ваших «детективов»?
      Ну просто интересно.
        0
        Официально это всё те же сервисные инженеры, которые решают остальные задачи. А в разных департаментах уже разделение по характеру работы.
        +7
        Отличная история про отличных людей. Немного сисадминской и саппортной романтики. Как говорят «тру» история.
        Господа, я желаю всему вашему коллектив процветания. И надеюсь, что ваш пример будет вдохновлять «пионеров» и «конкурентов».
        Успехов вашему коллективу и поменьше обвалов…
          +4
          Почти константа — шикарно звучит. Надо запомнить =)
          Спасибо, прочитал с удовольствием.
            +18
            Работаю я как раз в этом самом неназванном банке. Очень много и долго общаемся с вашей компанией. Разные ситуации бывают, но и на моей памяти много менее романтичных моментов. Один из них — приехал мальчик внедрять новую версию сервера Exchange. Угробил всю корпоративную почту за много лет, да еще вместе с выданными для восстановления бэкапами. Другие проекты внедряли, тоже приезжали «специалисты-интеграторы» только после института, которые систему видят первый раз. Изучали ее с книжкой под рукой методом научного тыка. Так и получалось, что он и компания получали десятки тысяч долларов за работу, бОльшая часть которой проводилась нашими силами.
              +17
              Спасибо, что разбавили этот елей и повесть о сверхчеловеках :)
                +7
                Обсуждать этот вопрос я с вами не могу по двум причинам: во-первых, все факты под соглашением, во-вторых, истории этой, если мне не изменяет память, уже больше 5 лет. Поэтому если было — значит, было. Никто не говорит, что у всех всё идеально, ошибки случаются (правда, с тех самых пор всё стало в разы строже). Единственное, если мы думаем про один и тот же объект, коллеги утверждают, что тезис про большую часть работы — это несколько неверно. Но, думаю, объём там был таким, что большей своя часть показалась обеим сторонам.
                  0
                  Возможно Вы думаете про другой объект или обладаете не полной картиной. Тезис про бОльшую часть работы действительно не совсем верен. Первые несколько дней этот «специалист» читал книгу и «спотыкался» на элементарных задачах. По моей оценке, это был просто продвинутый пользователь. Потом этот грустный мальчик сидел, заглядывал в книгу и часами смотрел через плечо, как один из моих коллег бросив всю свою работу и начал сам по той же самой книжке разворачивать систему.

                  P.S. Не все проекты так внедрялись. Приезжали и очень хорошие специалисты, которые в указанные сроки отлично исполняли свою работу. Но за ТАКИЕ суммы и этих случаев не должно было быть.
                    0
                    Подтверждаю на 100%, ситуация полностью аналогичная, систему внедрили как курица левой ногой, благо принимали такие же «спецы». В КРОКе без сомнения должны быть инженеры высокого уровня, но их на всех не хватает, вот и работают непонятно кто. Ценники конские, клиентоориентированностью и не пахнет.
                  +2
                  Если бы вы знали, какие в этой компании условия и сколько там платят — такие ситуации не вызывали бы удивления.
                    0
                    У всех интеграторов так — есть отличные специалисты, но их не очень много относительно подаванов с инструкцией. Действительно хороший уровень в консалтинге у вендоров, хотя и там гуру вам выдадут только под очень жирный контракт.
                      +1
                      А еще бывают такие заказчики, над которыми тяготеет злой рок. Я когда работал в интеграторе, у нас такой был. Причем и люди — хорошие, и заказчик интересный, с деньгами, и обижать его ну совершенно никаких нет желаний. Однако, если какие-то факапы и пролеты возможны, то они при работе с ним случаются. Если раз в полгода застревает груз на таможне и срываются сроки — будьте уверены — это груз для [имяневезучегоклиента], если накосячил стажер — это снова с ним.
                      Я не знаю отчего так происходит, но вот есть такие шлимазлы среди клиентов, которым постоянно не везет и все возможные шишки — на них.
                      Они, разумеется, считают, что виноваты интеграторы.
                      +4
                      Старые технологии, полагающиеся на надёжность отдельных узлов и реализующих резервирование на аппаратном уровне. В результате, оно так и не работает хорошо. Вот у того же Сбербанка всё насквозь на Ораклах и мейнфреймах, а что на выходе?

                      commodity железо с easy fall, софтовым резервированием и распределённостью — вот единственное решение для замены «железок на сотни тысяч долларов».
                        +1
                        Не все на ораклах, а всего лишь пару автоматизированных систем. Причем, разработка и внедрение этих систем отдавалось на откуп интегратора-топикстартера. Как внедрили, так и работает. Много систем реализовано не «по уму» из-за постоянного сокращения расходов на технику, централизациии всего и вся. Счета за каналы связи просто астрономические, сами каналы связи не удовлетворяют требованиям по скорости и надежности. Сотрудников ИТ, проработавших 10 и более лет, сокращают и увольняют. Проблема в построении системы, из-за чего всплывают частные ошибки. Это еще будет нести свой отпечаток много лет.
                          0
                          если бы сисадмин из сбера не сделал SHUTDOWN ABORT, то всё вполне можно было бы реанимировать.

                          это уже вопрос конкретного DBA, здесь же было замечательное обсуждение на эту тему.
                            0
                            В каждом из случаев, когда у них не работали банкоматы? Я же не про «Тот Самый Случай» (не имею представления о нём), а про общую тендецию.

                            У других банков тоже случается, кстати.
                              0
                              да у всех случается, чо уж там. Идеальной отказоустойчивости не бывает.
                                +3
                                Я могу открыть такую тайну: в Сбере есть страшное слово — КГБ, которое расшифровывается как коэффициент готовности банкоматов. Он должен быть не ниже 96. Если хоть один день коэффициент опускается ниже, по голове получают все, начиная от руководителя головного офиса. Собираются рабочие группы, анализируются причины, вырабатываются меры недопущения в будущем.

                                Некоторое время назад хватало случаев, когда у многих банкоматов заканчивалась наличность. Сейчас сидит отдел, мониторит текущую загрузку, просчитывает будущие расходы. Не секрет, что в праздничные дни и в выходные, особенно сильно расходуется наличка. В такие дни меняется частота загрузки банкоматов. Есть банкоматы на предприятиях, где в дни зарплаты и аванса нагрузка растет. Такие дни отслеживаются и под них подстраиваются. Сейчас простоев банкоматов по причине отсутствия денег очень мало, считанные доли процентов от общего числа.

                                Каналы связи резервируются. Электропитание резервируется. Медленно, постепенно, но двигаемся к заветным 99,9. Можете себе представить порядок цифр, затрачиваемых на оборудование, когда в области количество банкоматов и УСО исчисляется тысячами. Все сразу не приведешь к идеалу, но я ежемесячно вижу реальные изменения, выраженные в сухих цифрах.
                                  +1
                                  Я сейчас не про подвоз нала, и вообще, я не про сбербанк.

                                  Я к тому, что централизованные системы, работающие по принципу «всё или ничего» начинают со скрипом, медленно, заменяться на распределённые, в которых локальные отказы приводят к постепенному ухудшению сервиса либо кратоквременных перерывах, не мешающих выполнению задачи.

                                  Этот процесс медленный, но неотвратимый. Монстры, в которых всё и вся резервировано и «он просто не имеет права не работать» отмирают.
                                    0
                                    Без статистики это пустой разговор, да и у нас мейнфреймы почти не используют, в лучшем случае в их роли трудятся старшие пешки.
                                    0
                                    Кстати, куда жаловаться, если банкоматы несмотря на ваше страшное слово КГБ все равно не работают? В Москве полным полно банкоматов от Сбербанка на станциях метро, и, по моим прикидкам, половина все время не работает.
                                      +1
                                      1. Обычно, на каждом банкомате висит табличка с указанным номером поддержки по всем вопросам с банкоматами. Номер в каждом городе свой. Я живу не в Москве, поэтому подсказать не могу.
                                      2. В любом филиале пишете жалобу с указанием конкретных банкоматов и времени, когда не работали. Каждая жалоба влечет проблемы начальникам, виновным сотрудникам, собираются комиссии и устраивают разбирательства, как не допустить подобных жалоб в будущем. Если проблема с питанием, ставят мощнее юпсы. Проблема с каналом связи — заводят резервный канал. Проблема с недостаточной загрузкой банкоматов, из-за чего его выгребают — загружают побольше, ездят чаще. Если загружать больше не получается, то ставят банкомат крупнее, куда влазит больше кассет. Все это вытекает в поставку оборудования, заключение договоров, согласование бюджета, привлечение сторонних организаций, выбивание разрешений у них, проведение ими же работ. Поэтому сроки исправления ситуации редко бывают меньше квартала, но и больше двух кварталов. Каждая жалоба — это инцидент, который напрягает кучу людей и в их интересах такого больше не допускать.
                              –1
                              Но так, кстати, декомпилировать тоже не всегда можно, на всё нужно разрешение.

                              Это почему вдруг? Наш закон явно разрешает декомпилировать ПО при необходимости.
                                +1
                                Это был крутой рассказ читается как роман на одном дыхании.
                                  0
                                  выделенные сервис-инженеры (это парни, которые, как пожарные, всё время ждут срочного выезда)

                                  Вы же в Москве работаете? Скажите, сколько в среднем времени уходит у таких ребят на то, чтобы добраться до места?
                                    0
                                    Около 15 минут (и больше) уходит на корректную регистрацию заявки. Просто так ехать нельзя — нужно понимать, что случилось, какое оборудование везти, нужно ли что-то на срочную замену брать с собой «по подозрению». Крайне редко заказчик даёт полную информацию сразу, а ехать надо с пониманием что ожидать, хотя бы примерным.

                                    Дальше сборы. Склад у нас прямо на месте, где дежурство, поэтому после регистрации инцидента ещё 10-15 минут уходит до выезда. Или больше, если оборудования много.

                                    До места едем как быстрее: когда на машине, когда на метро или другом общественном транспорте. Может довольно много времени уйти, город большой и склонный к пробкам. Но может получиться и быстро.

                                    Если ехать за пределы Москвы, то приезд в среднем на следующий день.

                                    Пункты SLA про срочное исправление обычно касаются либо оборудования заказчиков на наших площадках (где всегда дежурит команда), либо, реже, ситуаций с возможностью удалённого доступа.
                                      +1
                                      Они в офисе сидят у вас? Всегда на вызовах? А если нет, то чем занимаются пока бездействуют?
                                        +2
                                        Это отдельные люди, незадействованные в проектах. Они сидят и ждут заявок, в это время собирают стенды для обучения, занимаются документацией последних изменений и так далее — то есть делают то, что в случае «пожара» можно отложить или передать другому. Они же занимаются тестами новых для рынка решений (потому что потом им их поддерживать), участвуют в подготовке техдокументов, занимаются обучением коллег и сами повышают квалификацию. И делают ещё много вещей. В общем, понятия «бездействие» и «скука» им чужды.
                                    +1
                                    Особенно доставила ссылка на «Документы нашего отдела для свободной закачки и использования: пригодятся любой техподдержке и аутсорсингу»
                                    Тут скачивать нечего, банальная декларация громких слов без документации как таковой.
                                    Зато в каждом пункте есть «Критерии для формирования стоимости услуг» и мифические специалисты категории В.
                                      +4
                                      Еще немного разбавить елей:
                                      Меня лично очень вымотал недавний переезд в датацентр КРОК.
                                      Начну с плюсов (оговорюсь «пока»:
                                      -стабильная температура в машзале
                                      -отсутствие пыли
                                      -стабильное электропитание (со звездочками*******)

                                      А вот про минусы поговорить мне не получается в виду пункта 9. «Конфидициальность» текущего договора.
                                      Какая печаль, я написал уже больше листа минусов, полез уточнить один пункт в договоре и столкнулся с таким вот пунктом.
                                      А так как реальной информации на сайте КРОКА практически нет, написать про нее я не могу.
                                      Вот краткое резюме- все как везде, советский сервис, забывчивость, местами размондяйство, бюрократия.
                                      Пока я не встречал мест, где Заказчик, с большой буквы после подписания договора, увы и ах…
                                        0
                                        Этот вопрос не ко мне лично, но к коллегам. Думаю, ваша обратная связь будет более чем полезна. Отправьте, пожалуйста, свой номер телефона и реквизиты заказчика на почту PKolmychek@croc.ru. Павел сможет помочь. На всякий случай отпишите здесь, пожалуйста, как отправите.
                                          +1
                                          Да ты не тушуйся, попроси случайного человека из IRC «украсть» твой лист минусов и слить на pastebin.
                                            0
                                            Мир лучше от этого не станет, хотя «добрым словом и кольтом» легче, чем просто «добрым словом», факт)
                                          0
                                          Александр, чем конкретно мне смогут помочь?

                                          Когда мы въезжали, за месяц до часа «Ч» просили организовать недельное тестирование линий связи. Обговаривалось все скрупулезно и дотошно.
                                          «Да, хоть ставьте оборудование на пол и тестируйте сколько вам угодно» превратилось в итоге «ничего за пределами стойки в машзале быть не должно» и «мы не разрешим подключать PDU без стойки»…
                                          Это потом приходят глупые мысли, что заинтересованный на удовлетворенность заказчика персонал, мог решить эту проблему за пол часа максимум — организовав пустую стойку на стойко место.
                                          Пустое, ибо в итоге электропитание к стойко месту по отчету было подано вечером предшествующего дня до въезда, а когда мы уже завезли оборудование, начался еще один внезапно увлекательный квест — «тестирование линий питания», и после прям закономерное отсутствие питания как такового на розетках еще в течении часа.
                                          Да, у нас переезд был расписан буквально по минутам, график сбился у ворот ДЦ.

                                          Вы разместите понятный ценник и договор на сайте КРОКа?
                                          Разместите там же все внутренние регламенты и инструкции, о наличии которых мы узнаем в тот самый момент, когда downtime тикает?
                                          Напишите внятный HOW-TO въезжающим в ваш ДЦ и разместите в свободный доступ на сайте?

                                          Почините наконец-то интеркомы в машзалах?

                                          и т.д. и т.п. )))
                                            0
                                            Я за коллег из другого подразделения говорить не могу. Поэтому и указал адрес. Пишите туда, будем разбираться. А сейчас получается беспредметный разговор.
                                            +1
                                            Доставила отсылка на самолет А370. Сразу добавилось доверия ко всем остальным фактам в повествовании.
                                              0
                                              Пишите еще, пожалуйста. Обожаю такие байки.
                                              Из моего собственного:
                                              Начинал я карьеру в ГВЦ МПС (теперь РЖД) на Красных Воротах, в конце 90-х, на проекте создания единой сети МПС — ГВЦ МПС. Я еще студентом был, и мы с моим коллегой (тоже студентом) ходили, устанавливали на компьютеры пользователей сетевые карты, подключали их к сети, настраивали компы, кроссы администрировали и все такое. Соответственно, знали, откуда куда идут короба, кто где сидит и прочие нюансы местности. Для понимания: комплекс зданий МПС — это 5 или 6 разной древности зданий, стоящих по кругу. У них не совпадает высота потолков, поэтому переход из здания в здание возможен не на каждом этаже.
                                              И вот как-то из недавно окученного очередного отдела звонит тётя и кричит в трубку, что «нам из вашей сети тут ДУЕТ!!!».
                                              Ну, что делать, тётя настроена серьёзно, нас с моим коллегой отправили посмотреть, что же там дует.
                                              Приходим. Из розетки RJ-45 реально ДУЕТ, мощно и холодно. На улице была ранняя весна.
                                              Стали прикидывать, куда этот короб идёт. Короб шёл в соседнее здание. Пошли смотреть, что там и как. Спустились на 1 этаж, перешли, поднялись на 1. Зашли в комнату. Нет короба. Подняли еще на 1 этаж…
                                              На той стороне оказалась серверная. В ней была открыта форточка для пущего охлаждения стоек (в этом здании вообще не было помещений без окон). Из-за разницы уровней помещений и небольшой, но разницы давлений в разных зданиях короб работал как вытяжная труба.
                                              Если я правильно помню, подрядчик оперативно то ли заложил, то ли запенил короб внутри, после чего тёти уже не имели никаких претензий. И даже наоборот, их начальница позвонила нашему начальнику и выразила благодарность за внимание и оперативное устранение проблемы.
                                              Эта история меня научила внимательно относиться к тому, на что жалуются пользователи, что пригодилось на следующем, сисадминском, этапе карьеры.

                                              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                              Самое читаемое