Невыдуманные истории про сеть: как я учил физику на своих и чужих ошибках

    Привет, Хабр! Меня зовут Антон Клочков, я сетевой архитектор в компании DataLine, а также участник проекта linkmeup. Я занимаюсь сетями более 10 лет и за это время успел поработать в больших и маленьких телеком-операторах, крупных корпорациях и небольших бизнесах. 

    На практике я не раз убеждался, что физика упряма и обязательно отомстит за попытки пренебречь ее законами. За ошибки в физике сети я расплачивался квартальными премиями, исправлением косяков по ночам и «любовью» пользователей.  Зато такая школа жизни запоминается раз и навсегда.

    Сегодня хочу поделиться подборкой историй про физику сетей и сформулировать правила сетевой жизни, которые вывел на практике. 



    Дисклеймер: в статье собраны истории из моего опыта в больших и малых энтерпрайзах и операторах связи. Многие из них случились со мной или коллегами еще на заре карьеры. Большинство персонажей — собирательные образы, любые совпадения случайны. Мое мнение может не совпадать с мнением компании DataLine.

    #1. Судьба энтерпрайза висит на патч-корде 


    Обычный день, ничто не предвещает беды, если не считать Очень-Важное-Совещание топ-менеджеров компании. У технической службы последняя заявка на сегодня: нужно подключить нового пользователя.

    Доблестная техподдержка бежит спокойно идет разбираться с подключением. Необходимо завести патч-корд в кросс и порт свитча, и рабочий день закончен! 

    До важного совещания 15 минут.

    Как назло, органайзер переполнен. Нужно освободить место и «перекоммутировать» некоторые провода. Расчищаем поляну, вставляем все обратно.

    Одно неловкое движение — и тот самый очень важный патч-корд к конференц-системе оказался снаружи. Вот незадача, язычок коннектора был надорван или коннектор почему-то был уже сломан.

    До важного совещания в той самой конференц-системе — 10 минут.

    Недолго думая, воин техподдержки вставляет сломанный патч-корд обратно в коммутатор. В принципе все держится, все работает.

    … На Очень-Важном-Совещании решается судьба энтерпрайза: будет ли у сотрудников годовая премия и прочие важные моменты.

    Во время выступления Самого-Важного-Топ-Менеджера сломанный патч-корд предательски начинает движение и выпадает из разъема коммутатора. Главное событие года остается без связи.  

    Какой была реакция участников, догадаться нетрудно. 


    Правила патч-кордов: 

    • Всегда использую готовые патч-корды с защитой замка — и никакого самопала. Если язычок сломан, лучше не лениться и заменить патч-корд.


    • Если все-таки приходится использовать самопал как временное решение, использую качественный многожильный кабель (stranded или patch) и защитные колпачки. 
    • Не советую проводить работы, если намечается важная задача, где лучше ничего не трогать. В крайнем случае, нужно четко понимать, что вы делаете. Также есть известная примета, что работы в пятницу, особенно во второй половине дня, — к «веселым» выходным.

    #2. «Обеднёнка»


    Отдел закупок телеком-компании узнал про ценовые преимущества омеднённой витой пары из алюминия. Дешево и сердито, берем! Проводов уходит много, так что закупщики взяли большую партию, сэкономили бюджет компании и получили за это свой бонус. 

    Прошло 9 месяцев. Сразу пачкой стали прилетать заявки: что-то линка нет, все флапает, растут ошибки CRC на портах. Где мой интернет и за что я плачу?

    Закупщики не знали, что алюминий и медь образуют гальванопару. За 9 месяцев наша «омеднёнка» испытала немало температурных перепадов, и коннекторы окислились. Но это еще половина боли. Почти все сегменты витой пары были более 40 метров. Мало того, что коннекторы окисляются, так еще линк прыгает из-за большой длины «омеднёнки» .  

    Поэтому два зимних месяца из трех монтажники разъезжали по точкам присутствия оператора связи и перекладывали линии, вместо того чтобы подключать новых клиентов. Переобжим коннекторов продолжался, пока не перешли на чистую медь. 


    Правила витой пары: 

    • Нигде не использую «омеднёнку» (или «обеднёнку», как я ее называю). Основное преимущество — цена, и на этом все плюсы заканчиваются. 
      Если пустить питание по PoE, можно получить непредсказуемые эффекты, вплоть до выхода оборудования из строя. Как правило, «омеднёнка» — это двухпарка, поэтому скорости больше 100 мегабит не видать. Температура и влажность в шкафах бывает разной, контакты окисляются очень быстро, и линки падают на 10 мегабит.
    • Если хозяйство досталось в наследство, проверить витую пару очень просто. Если «омеднёнка» стальная — магнитом. Если алюминиевая — смотрим на торец разъема или достаем кабель из бухты и смотрим маркировку. 


    #3. Мой друг «коротыш»


    В любой инструкции по подключению есть пункт: убедиться в отсутствии напряжения в слаботочке. Администратор шел подключать нового пользователя, но услышал над ухом привычное «быстрее-быстрее» и подключился без проверки. 
     
    Моргнул раз, и POE-панель выключилась. 

    Моргнул второй, и половина офиса осталась без связи — через PoE-панель запитаны телефоны сотрудников. 

    Моргнул третий, и все остались без приложений — по телефону подключались еще и компьютеры пользователей. 

    В это время подключенный сотрудник озадаченно склонился над блоком питания.  Стоило включить компьютер, и можно было услышать звук старого-доброго dialup-модема, который издавал блок питания. Устройство сгорело не полностью и дало нам повод поностальгировать. 

    Остальным сотрудникам повезло больше: у панели была защита от короткого замыкания. Достаточно было выключить и включить, и, о чудо, все заработало. ИТ-отдел отделался легким испугом.


    Правило PoE: 

    Перед подключением проверяю напряжение на патч-корде тестером с поддержкой PoE. Хорошим тоном считается проверять тестером вообще все каналы перед включением. Посмотреть на розетку и на порт коммутатора недостаточно. Пока вы идете к розетке с другой стороны, все может поменяться. 

    #4. Модный* бизнес-центр 


    Как-то раз наш офис переехал в новый бизнес-центр. Время шло, гигабита уже не хватало, LACP не тащил, нужно было переходить на сеть 10G. Начали поднимать.

    Некоторые каналы поднимались на десятке сразу, некоторые не поднимались совсем. Один поднимался как-то странно: на портах было слишком много ошибок. Проект рисковал не завершиться в срок, и я начал копать. 

    Маркировка на кабеле в БЦ отсутствовала. Пришлось забраться под самый потолок и найти кабели с маркировкой. Выяснилось, что подключение организовано так: с одной стороны идут многомодовые патч-корды, дальше одномодовое волокно, и на другой стороне — снова многомодовые патч-корды. 

    Как мы знаем, одномод и многомод отличаются не только диаметром, но и длиной волны. Получилась такая ситуация: 



    Представителям бизнес-центра пришлось признать ошибку и переварить все кабели. 


    * то ли одномодный, то ли многомодный

    Правила оптики: 

    • Не верю написанному на бумаге и проверяю все сам. Типы оптических кабелей проверяю обязательно, но правило касается не только оптики. 
    • Использую ВОЛС нужного класса OM (2-5) и не смешиваю разные OM. Иначе нужно быть готовым к работе на понижение.
    • Перед приемкой ВОЛС получаю результаты тестирования рефлектометра от специалистов, которые варили муфты и кросс.

    #5. Еще про оптику и патч-корды


    Чем отличается медь от оптики, всем сетевикам понятно. Одно из практических отличий — в экстренной ситуации медный патч-корд можно сделать самостоятельно. Да, мы против самопала, но для хотфикса или тестирования это делают быстро и непринужденно. Оптический патчкорд либо есть, либо нет, поэтому все держат запас на складе. 

    Сломать оптический патч-корд довольно сложно, но однажды мне повезло: рука просто с мясом вырвала его из коннектора. На мое счастье, архитектура сети была отказоустойчивой, кабели в сервера шли с двух плечей, и сервер продолжил работать. Я отправился на склад и — сюрприз! — не обнаружил ни единого оптического патч-корда.  

    Спокойно сел за компьютер и вбил патч-корд нужной длины. И тут выяснилось, что в огромном Санкт-Петербурге купить его сегодня практически негде.

    Тем временем я заметил сбой на устройстве, которое обеспечивает отказоустойчивость серверов. Один из портов вывалился, и получился шахматный порядок: один сервер недоступен с первого юнита, второй сервер недоступен со второго. 

    Поиски кабеля продолжились в менее спокойном темпе. Нашлось только одно (Карл!) место, где забрать патч-корд можно СЕГОДНЯ! Пришлось включить режим RUN AS ADMINISTRATOR.


    Правило запасных принадлежностей: 

    Всегда держу запас оптических патч-кордов. Это не медь, быстро обжать времянку не получится.

    #6. Бродкастовый шторм и телефоны


    Запускали в пилоте одну железку. Там, где она крутилась, сеть находилась в одном-единственном первом влане. Не сказать, что система мониторинга отсутствовала как класс, были какие-то зачатки. Но так исторически сложилось, что она не видела, когда сеть заваливает бродкастовым трафиком. 

    Именно это и произошло. Не без помощи кривых рук администратора устройство собрало на себе петлю, и все выходные молотил бродкастовый  шторм. 

    После этого в прямом смысле сгорело 18 телефонов Avaya: CPU оплавились.   Естественно, это большая дыра в бюджете. Повезло, что не сгорела телефонная станция,
    иначе меняй работу. 

    Часть пользователей в это время работали. Они не заметили неудобств, потому что работали на старых телефонах с обычной коммутацией каналов. Ну разве что все выходные «сетка подтормаживала» и отчеты с десятого раза отправлялись.

    Казалось бы, при чем тут физика? Сгорели аппараты физически, из-за физически подключенного кабеля в прод, где шаловливые ручонки собрали петлю.


    Правила настройки оборудования:

    • Слежу, чтобы мониторинг был всегда.
    • Правильно настраиваю storm control на BMU traffic.
    • Если у вас до сих пор есть STP*, его тоже нужно настраивать.
    • Оборудование должно быть управляемым.
    • Если эксперименты на проде неизбежны, проверяю что изменилось во время и после эксперимента, а не просто ухожу домой. 

    #7. Поиски утраченного линка


    Когда я работал в маленьком интернет-провайдере, на чердаке одного дома был ящик. Ящик служил центром агрегации всех оптических соединений. Открывать его было опасно само по себе: можно обломать патч-корды, идущие в кроссы. Но, вдобавок ко всему, эту стойку не оборудовали органайзерами. По воспоминаниям, это было вот так:


     
    Попытки разобраться в ящике работали как не до конца оттестированный медикамент: в одном месте лечишь, в другом калечишь. Создать аварию можно было на ровном месте. Однажды я хотел переставить из порта номер 2 в номер 3, что в итоге привело к отказу целого региона. Но это уже совсем другая история.


    Правила стоек и кроссов: 

    • Всегда использую органайзеры или угловые панели. Понятно, это стоит денег, но потом будет проще разобраться, что к чему. 
    • Маркирую стойки, панели, кабель, патчи, даже всю активку. 
    • Использую стяжки и липучки при укладывании и закреплении кабелей для удобного доступа к оборудованию и лучшей вентиляции в стойке. Для оптики использую ТОЛЬКО липучки.
    • Стойки выбираю под задачу, но если количество оборудования нельзя спланировать заранее, беру высокий шкаф на 42U.
    • Обязательная земля в каждом шкафу и правильный монтаж коннекторов экранированной витой пары.

    В идеале стремлюсь вот к этому:



    Это далеко не все истории из жизни сетевика. Буду рад, если поделитесь своими. Какие истории помогли вам не повторять популярных ошибок?
    DataLine
    Экосистема на базе дата-центров TIER III

    Комментарии 64

      +7
      Немного добавлю, в основном не про сеть, а про остальное, что есть в ЦОД, особенно в маленьких «домашних»:

      Приходилось видеть стойки, подключенные в сеть электропитания кабелями по полу, фальшпола или лотков над стойками не было, каждое посещение — увлекательный челлендж, как бы на что-нибудь не наступить, шаг влево или вправо мог закончится выключением какого-нибудь оборудования или даже целой стойки.

      Еще один прикол с электропитанием — ИБП, через которые подключен ЦОД, находятся в отдельном помещении, для прокидывания питания в ЦОД частично использована имеющаяся электропроводка в здании, в самом ЦОД стойки подключены банально в обычную розетку в стенке, ту самую, которая на 15 ампер максимум. Иногда эти розетки выгорают с кучей дыма и прочими спецэффектами.

      В одном маленьком домашнем ЦОД, расположенном в подвале, не было системы откачивания конденсата из кондиционеров, под кондиционерами стояла большая пластиковая бутылка из под питьевой воды, которую нужно было периодически проверять и менять на пустую. Кстати, видели когда-нибудь стойку, возвышающуюся над поверхностью воды как нефтяная вышка? Можно вокруг нее запускать бумажные кораблики…

      Знаете что бывает, если в ЦОД перестают работать кондиционеры? Когда температура в помещении превышает градусов этак 50 оборудование само выключается. Обычно во всем современном оборудовании при перегреве все выключается корректно, ничего не сгорело в итоге, но лучше не рассчитывать, что все обойдется…

      С почти каждым современным сервером в комплекте идет штука, которая называется cable management arm, регулярно вижу как сервера ставят в стойку без неё, а очень зря — когда при проведении техобслуживания нужно сервер выдвинуть — приходится отключать от него с десяток различных кабелей и патч-кордов, а если они еще и не промаркированы — совсем беда…

      Почему то куча сетевого оборудования имеет только один блок питания. Как то ЦОД обрадовал, что они будут проводить регламентные работы на вводах и каждый луч электропитания будет отключен на несколько часов. Пришлось в бодром темпе закупать устройства автоматического ввода резерва и планировать работы по их подключению…
        +3
        Спасибо что поделились! :)
        Я тоже видел такое ранее, особенно орнул в голос от бутылки под конденсат, к сожалению все так и было…
          +2
          У меня тоже есть интересная история.
          Веселый Maintenance Window, или сказ о том, как большой сетевой инженер патчкорды поломал.

          Работал я как-то давно в одной компании, компании О, в городе N. Трудился я дежурным инженером, эдакий ночной царь сети, которому подвластно было всё: и IP-сеть, и PDH\SDH и маленький такой ЦОДик, где и собственная инфраструктура была, и клиентское оборудование. Шкафчики открытие были в основном.

          Была у нас традиция: в ночь с субботы на воскресенье работы плановые проводить. Работ в ту весёлую ночь было было много. И по плану коллега, тоже инженер, должен был проводить работы на оборудовании в ЦОД. Он огромный был детина, косая сажень в плечах, да и ростом такой же был. Проводя работы, он перемещался по ЦОДу туда-сюда.

          И тут мы стали замечать ошибочки на мониторинге, деградацию, заявочки от недовольных клиентов пошли… Долго мы искали причину, думали — в чём же дело?

          А детина наш, оказывается, вредителем стал: проходя между стоек, он плечами задевал оптические патчкорды, изломы да перегибы после себя оставлял.

          Где-то просто поправить патчкорды помогло, некоторые пришлось менять…

          Мораль сей истории проста: не пускайте слона в посудную лавку и используйте глубокие стойки в ЦОД, чтобы дверцы можно было беспрепятственно и безопасно закрывать.
            +2
            Спасибо!
            Подобную историю слышал в одном из СПб ЦОД, там есть некое «помещение» важного отдела из 3-х букв госухи, так вот там все было сложно с местом для обслуживания оборудования. И по лучшей традиции супер инженер, который все это дело облагораживал был моей комплекции (190), только шире раза в полтора, а может и два.
            Т.е. ему было физически очень сложно протиснуться между стойками, не говоря уже о проведении работ, сколько было аварий из-за этого и были ли они вообще история предусмотрительно умалчивает ;)
            +1
            Бутылка под конденсат это классика. Как и её объём, от 5 до 19 литров. Появляется обычно с фразой «пока поставим бутылку, пока в канализацию не врежем сток».
              +1
              на этот счет народная мудрость гласит: «нет ничего более постоянного, чем временное!»
            0
            Про перегревающиеся сервера…
            Еще веселее было, когда выключившиеся в 4 ночи от перегрева сервера начинают включаться после падения температуры в 9 утра когда ты такой примчался в офис и открыл дверь в серверную. Температура-то всего на 5 градусов упала, но им было достаточно, чтобы включиться. А потом опять выключиться по перегреву.
            PS
            Вспомнилось как потом я обещал разбить определенные части тела главинженеру бизнес-центра до того как успеет добежать охрана, если он еще раз вырубить серверную линию кондиционеров и как он потом от меня за охранниками прятался ;-)…
              +1

              Cable management arm идёт только с серверами от большой тройки как опция к топовым рельсам и требует глубокую стойку, то есть массовые Intel/Supermicro в коммерческом ЦОД сразу мимо.

                0
                Ни разу не видел вживую в ЦОДе Supermicro. Только Dell/HP, ну разве что после начала «импортозамещения» стали появляться другие варианты.
                  0
                  В том же Далайне целые залы Супермикры.
                    0
                    Мне в Даталайне не понравилось, там картинки на стенах не в моем вкусе.
                    0
                    Селе-кхе-тел, апчхи.
                      0
                      Мы размещали свои. И Supermicro, и Asus (если память не изменяет). В конце концов перешли на HPE.
                    +1
                    Кстати, видели когда-нибудь стойку, возвышающуюся над поверхностью воды как нефтяная вышка?


                    Я видел стойки которые возвышались над поверхностью «черного золота» как нефтяные вышки. Мораль: не надо ставить стойки в подвале под канализационным отводом многоэтажного здания.
                      0
                      Подвал — вообще крутая штука, особенно если нет лифта, как то привезли демо-стойку HPE, чтобы ее затащить в подвал нужно было ее полностью разобрать, а потом собрать обратно уже на месте. Когда демо закончилось — обратная процедура с разборкой и сборкой…
                    +3
                    Мощная антиреклама Avaya… От левых пакетов, валящих на вход, дохнут физически аппараты — что это?! Неадекватное охлаждение CPU по принципу «и так сойдет» плюс отсутствие термоконтроля, который хотя бы вырубит железку, если температура компонента закритическая. Читаем между строк — не берите ЭТО! :-)
                      +2
                      К сожалению все было именно так, сам в шоке :) Модели были 1616, не помню уже аппаратную ревизию, но серийники шли один за одним… Партия вот такая вот и вся на тот свет :)
                      ¯\_(ツ)_/¯
                        +3
                        Ну к слову там были модели которые так некисло перегревались и без сетевых штормов. И мне кажется что как раз 16xx это было…
                        0
                        Эхх… Avaya… Я мог бы книгу написать про несуразности и баги их коммутаторов. Но плюс у них всё же есть — работать могут в совершенно адских условиях окружающей среды
                        +2
                        Оптический патчкорд либо есть, либо нет, поэтому все держат запас на складе.

                        Скалыватель + фастконнектор спасут в кретической ситуации.
                          +2
                          Да, который нужно ещё купить )
                          А в реальности услышишь в ответ — «в бюджете не заложено, обоснованию отказать, держите пару патчкородов и всего делов» :)
                            0
                            Дак надо заложить в бюджет)
                          +5
                          Я однажды обнулил cisco свитч в продакшене: при коммутации патч-кордов в стойке пачка проводов нажала на кнопочку «mode» — а это через какое то время (минута-две) обнуляет конфиг и перезагружает циску…
                          Отключается в настройках.

                          А вот ещё страшилка связанная с питанием.
                          Вытаскиваем обычную вилку (обычный чёрный или белый компьютерный провод) из PDU («сетевой фильтр») в стойке. ПЕРЕВОРАЧИВАЕМ вилку! Казалось бы, да? Вставляем обрано в PDU и получаете коротыш — из пдушки идёт дым и искры.
                          Оказывается, в пдушке, внутри, оплавился ноль и земля. В обычном режиме вы ничего не заметите, но как только в эти ноль\землю воткнёте фазу (то есть перевернёте вилку) то всё.
                            +4
                            А ещё бывают ультра-бюджетные PDUшки с Schuko розетками. Внутри у них весьма «какчественно» закреплённая шина заземления. Так вот, как и в самых дешевых удлинителях с кнопкой (которые по ошибке зовут «сетевой фильтр») эта шина имеет недокументированную функцию «фейерверк», вызываемую отламыванием её фиксаторов(т.к. фиксируется расплавлением пластмассы(тоже очень высокого качества) на производстве этого фекальдэ). После того, как несколько её фиксаторов отламываются, начинается игра, которая идёт до первого включения очередной вилки. При включении эта шина спокойно ложится поверх нуля и фазы (вилочка подталкивает через усы заземления), вызывая генерацию высококачественного мата и отключения вводного автомата, ну и бубух в подарок.
                              0
                              Воу-воу, видел такое, отказал на стадии закупки, считай повезло не иметь с этим дело :)
                              Спасибо!
                                0
                                У нас когда-то были такие, что контакты заземления при вставлении вилки уходили вниз и замыкали перемычкой, которая под розеткой, шины фазы и нуля. Фейерверка не было, но поняли не сразу, несколько пользователей приходило с жалобой, что от нового пилота (эти мы прозвали «киллер-пилот») вышибло автоматы в кабинете. Лечилось раздвиганием контактов земли в сторону, прежде чем выдать пользователю.
                                  0
                                  Повезло, у меня такие фекальдины даже этажный автомат вышибали. И, что самое обидное, одно такое фекальде испортило красивую белую вилку своими брызгами расплавления шин.
                              +2
                              Однажды разбирался с большой системой видеонаблюдения (>200 камер), в которой иногда разваливались кадры видеоизображения, транслирующиеся на некоторые посты охраны.

                              Разбирался долго, теорий такого необычного поведения была масса.
                              Оказалось, что в какой-то момент часть системы отключилась из-за плохого патч-корда, соединяющего в стойке два неуправляемых гигабитных коммутатора, стоящих вплотную друг к другу. Пришёл техник и из 2-х парной (за неимением другой) витой пары сделал новый патч-корд и устранил проблему. Но коммутаторы стояли гигабитные и трафик выше 100 Мбит/с поднимался редко, а когда это происходило — видеопоток разваливался. А поскольку коммутаторы были неуправляемые, отследить софтово такие вещи было нельзя.
                                +3
                                Читаю и плачу. Про жизнь.
                                  +2
                                  История от меня — стартап, совещание с потенциальными инвесторами о втором раунде инвестиций. Презентация сайта на живом сайте и дедлайн по переезду на новый роутер. Сервер в датацентре, разумеется. Физически сервер подключен, нужно «всего лишь» в конфиге вбить новый айпишник и перезапустить службу. Разумеется, я ошибаюсь в одной цифре и осознаю это когда уже все сделано. Холодный пот, истерические крики в офисе, седые волосы и все остальное. Спасло то, что я не поленился соединить резервный сервер прямым патч-кордом и зашел через него. Лет десять прошло, помню как вчера.
                                    0
                                    Охх, план Б и DR спасает не только квартальные премии… )))
                                    +1
                                    А у меня как-то в коннекторе патчкорда надломился один из проводов витой пары. Изменение волнового сопротивления привело к полному отражению передаваемого сигнала. В результате от двойного уровня сигнала была повреждена одна из сетевых карт.
                                    Еще одна идиотская проблема. Я столкнулся дважды. На старом сервере деградировал сетевой интерфейс. Интерфейс подвисал при достижении определенной интенсивности обмена данными. Проблема исчезла после установки в сервер новой дискретной сетевой карты.
                                    Но перед этим я зря разорил компанию на новый свич.
                                      0
                                      Ну, если был свитч «тупнячок», а поставили «умник», это в принципе правильное вложение :)
                                      Опять же если ))
                                      +3
                                      Отличная статья! Посидел, посмеялся) Спасибо за хорошее настроение!
                                        +1
                                        Пожалуйста :) Самому было приятно было вспомнить несколько этих эпизодов ещё раз и посмеяться над собой и не только ))
                                        +2
                                        Иногда стреляет совсем экзотическим образом. Например, проблема в AToM (Ethernet поверх MPLS) линке между 76-й и 38-й Cisco. Формально всё хорошо, но пакеты на оборудовании клиента со стороны 38-й выглядят так, будто за 76-й на стороне клиента есть петля. А её нет, как того суслика. Есть отражение части трафика, приходящего в AToM на 76-ю, в сторону 38-й. «Полечилось» перезагрузкой и, впоследствии, обновлением IOS на 76-й.
                                          0
                                          cisco tac support:
                                          please reboot all your devices.JPG )))
                                            +1
                                            У циски такой нехороший баг был в памятью. Несколько лет ставили память которая лет через 5 умирала. И циска работала при этом, но до перезагрузки. Перегружаешь — получаешь кирпич, перегружаешь резерв и тоже получаешь кирпич ) Я столкнулся.
                                            Сама циска говорит меняйте за свои деньги «Some ASR1000 Products Might Fail to Boot Up After a Power Cycle — Replace on Failure»
                                              0
                                              Сурово…
                                                0
                                                Там постарадала куча продуктов, а потом были бракованные процессоры.
                                            +2

                                            Работал лет 10 назад в одной организации, которая принимает платежи от населения. И все данные уходили по vpn на простом adsl модеме. Вот в один прекрасный день связь обваливается, модем не видит линию, у себя все проверил. Пошел к нашему оператору связи. Как я был удивлен, на другой стороне стоял такой же модем, включенный в обычную розетку. Так вот эта розетка понадобилась им чтобы попить чайку.

                                              0
                                              Классика :)
                                                0
                                                Наверное все-таки SHDSL. ADSL мо
                                                +1
                                                Моя любимая ошибка не научила физике, но подтолкнула стать программистом. Я снял питание не с выключенного сервера, а с включенного Exchange, бэкап которого должен был быть ночью. На следующий день я некоторое время размышлял: изучать PowerShell  и писать скрипт, или «делать всё ручками». К сожалению времени на PowerShell не хватило, и за ту пятницу я доставил более 10 000 «ручками» из уцелевшего журнала по ящикам пользователей через графический интерфейс :)
                                                Никаких полезных советов здесь быть не может, разве что запомнить на всю жизнь про то, что самоуверенности место есть не везде. Именно после того дня, я стал в несколько раз внимательнее, спокойнее и последовательнее выполнять все рабочие задачи.
                                                  0
                                                  Да, спешка и самоуверенность порой приводит к достаточно печальным последствиям.
                                                    +2
                                                    В корзинах c7000 у серверов шестого и седьмого поколений рукоятка, за которую вынимается сервер, расположена между лезвиями. Один раз вынул не то лезвие. vSphere HA отработал, конечно, но было неприятно. В восьмом поколении ручки переделали, чтобы такую ошибку было практически невозможно совершить.
                                                    +2
                                                    Не физика, но чую такое было у многих:
                                                    Датацентр, на коллокейшене стоит наш сервак, ДЦ уведомляет, что сорри дорогие клиенты, но мы меняем адреса, поэтому с х по y часов такого-то числа пожалста переконфигурируйте ваши серваки на новые адреса, они у вас в ЛК есть. Естественно лучшее время для этого ближе к ночи, а то простой и всё такое. Ну не беда, ночь, остаётся всего ничего до окончания окна, выделенного на перенастройку, лезу по ssh и без задней мысли начинаю перенастройку с ifconfig eth0 down. Естественно получаю от putty ответ «Connection terminated» и понимаю, что кажется я только что оформил себе услугу «ноги в руки и вали в ДЦ на такси»(хорошо хоть, что ДЦ в одном со мной городе и пропуск туда был круглосуточный выписан), т.к. IP-KVM и прочего нет. В ДЦ встречаю ещё некоторое кол-во народа, который тоже начал поездку с ifconfig xxxx down.
                                                      0
                                                      Да без ip-kvm\ipmi, это прям печально :)
                                                      Примета есть такая:
                                                      Перенастройка железки не только лишь в ночи без плана Б, к дальней дороге :)

                                                      Обычно там reload in N, rollback, shutdown -r 300 + старт скрипта востановления сети, помогает не отстрелить себе ногу при работе на сети и настройки FW :)
                                                      +3
                                                      У нас как-то колпачки с защитой «язычка» за год задубели в камень. Так что для того чтобы вынуть патчкорд пришлось просовывать иголку между колпачком и коммутом чтобы надавить на «язычек» коннектора.
                                                        0
                                                        Есть такое, все зависит также от качества витухи, сейчас например современный язычок идет как монолитное крепление полудугой и там очень сложно будет зацепиться.
                                                          0
                                                          надеваемые колпачки от брендового гиперлайна дубеют и сейчас
                                                          0
                                                          Прекраснее этого может быть только пригоревший SFP модуль, который нужно выдергивать пассатижами, потому что он пригорел настолько, что ну совсем никак по другому уже не вытащить :)
                                                          +2
                                                          Случай в начале моей карьеры, который научил меня, что нельзя нарушать стандарты.
                                                          Работал инженером техподдержки у маленького оператора, звонит клиент и жалуется на постоянные потери, а иногда пропадание связи на 1-2 часа. Клиент важный для компании.
                                                          Так как отсутствовала документация на его включение, а предыдущая команда инженеров уволилась всем техотделом, выясняем как и чем клиент подключен (уходит на это полдня).
                                                          Значится, FastEthernet, медь, все дела. Проверяем линию — визуальных повреждений нет, с линией все ок. Перевод интерфейса в режим 10Mb не сильно помогают, потери остались, но поменьше стало, периодические разрывы тоже есть… Никто ничего не знает, идей нет…
                                                          Даю команду технику прозвонить флюкой линию, может там что увидим. В общем сообщает, что длина линии 220 метров!!! Как оно работало раньше? Тогда я не знал…
                                                          Решили проблему просто — поставили 2 SHDSL модема, которые подняли 4Mb линк и все полетело, благо клиент брал всего 2Mb.
                                                          На все про все ушло неделя объективного времени, трудозатраты, затраты на оборудование и неисчислимое количество нервных клеток (как наших, так и клиента).
                                                          Из данного сюжета я сделал ряд далеко идущих выводов, в числе которых самый главный — стандарты связи писали не дураки. А еще, что отсутствие документации — это маленькое начало большого конца организации.
                                                          Делай все по чертежу — меньше будет… разговоров
                                                            0
                                                            Вот история про радиосвязь:

                                                            Работал в одном из операторов (тогда еще) Большой Тройки. Город разделен на две части, соединенные друг с другом двумя дорогами протяженностью в пару километров, есть естественные преграды, то есть с земли радиосигнал не пройдет.
                                                            Вдруг внезапно у всех трех операторов ложатся все базовые станции в правой половине города на 4 часа!!!
                                                            Ну естественно паника, шок, что случилось??? Через 4 часа все поднялось.
                                                            Раз причину не выяснили, то значит ружье выстрелит снова.
                                                            На следующий день наши доблестные инженеры, вооружившись соответствующим оборудованием, едут искать источник помех.
                                                            Снова падают все базовые станции, находим источник…
                                                            Выясняется. В неподалеку стоящей военной части сменилось начальство и молодой командир части за несколько дней до этого решил произвести инвентаризацию оборудования.
                                                            На складе находят древнюю РЛС (радиолокационную станцию), годов так 50-60
                                                            Ну и естественно он решил поохранять мирное небо, включив сей чудо-мега-девайс…
                                                            В общем эта РЛС мочила в очень широком спектре, задевая все нужные частоты.
                                                            А мощность луча составляла 2 Мега Вт!!! Интерференция гасила все попытки базовых станций связаться с BSC (а тогда транспорт всей правой части города работал только по РРЛ).
                                                              0
                                                              И про оптику есть куча историй, вот одна из них:

                                                              Оператор фиксированной связи, ядро сети, агрегаторы с оптическими линками 40G/100G Ethernet, дальностью до 100 км (точно не помню, но расстояния хорошие). Запускает инженер подрядчика в помещение протянуть ВОЛС и сварить там оптический кросс.
                                                              Не знаю, что нашло на подряда, но решил он оптический патч с работающим линком «сжать» рукой, создав угол 270 градусов, а то и больше…
                                                              Патч расплавился.
                                                              Возможно я ошибаюсь, поправьте — при угле 90 градусов и больше лазер «упирается» в границу двух сред (самого волокна и его стеклянной оболочки с другим коэффициентом преломления). В результате происходит поляризация с выделением тепла.
                                                              Выделение тепла было настолько мощным, что патчкорд просто потек каплями стекла на пол.
                                                                0
                                                                Это так то не байка :) Вполне реальная ситуация, когда сварщик не очень.
                                                                Изоляция вполне может оплавится от такого нарушения правил эксплуатации.
                                                                +2
                                                                Ну и под занавес — про природу и электричество:

                                                                Прямо в силовой кабель до базовой станции ударила молния. Кабель выгорает 600 метров в одну сторону, 300 метров до базухи…
                                                                Приезжают ребята на базу, заходят в помещение, а там…
                                                                Там где стоял Emerson (стойка ЭП, на которую приходил кабель) — черное выгоревшее пятно, по всему помещению кляксы расплавленного металла. Рвануло там будь здоров.
                                                                Нет, все на базе было сделано как надо и по стандартам — заземление, молниезащита, грозозащита и т.д.
                                                                Вот только природе было плевать на наши защиты.
                                                                Стойка с аккумуляторами выжила, весь удар принял на себя Emerson, земля ему пухом.
                                                                Пока подряды меняли кабель, наши инженеры целый месяц ездили 2 раза в сутки на базу с генератором, чтобы ее подзарядить и дать связь поселку, который стоит неподалеку от нее.
                                                                  0
                                                                  А еще, что отсутствие документации — это маленькое начало большого конца организации.
                                                                  Да и подобные случаи тоже обычно намекают:
                                                                  а предыдущая команда инженеров уволилась всем техотделом
                                                                    0
                                                                    Полностью с вами согласен.
                                                                    Просто так всей толпой не увольняются. Значит, либо у руководства дурь в голове, либо сетку построили настолько ужасно, что зашивались решать тикеты.
                                                                    Как показала дальнейшая практика, в этой конторе было и то, и то.
                                                                    Зато такие компании являются идеальным тренажером для прокачки скилла инженера.
                                                                  +2
                                                                  Заело деталь? — Надави на нее!
                                                                  Сломалась? — Не расстраивайся,
                                                                  все равно, нужно было менять.
                                                                    +3
                                                                    Приезжает подрядчик делать ТО UPS… А серверная обслуживает фабрику, час простоя которой обходится 100К баксов… Ну и на случай, если отрешится питание — решаем запитаться от дизеля (штатного на тот момент не было). Для этого надо было отключить входное питание, подключить дизель, а потом спокойно обслуживать UPS… Согласно политикам компании, это должен делать только электрик. Приходит электрик, объясняем ему что нам необходимо… В шкафу стоят автоматы на ввод и на выход с UPS. На двери шкафа приклеена схема, все автоматы подписаны, электрику несколько раз сказано, что нужно отрубить только входные автоматы, отключить входную линию и вместо нее подключить ДГУ.
                                                                    В итоге этот м… к кивает головой, говорит — мол плевое дело — и быстро рубит вход и выход с UPS… В серверной тишина… выйдя на улицу — аналогичная тишина, т.к. фабрика остановилась (мельницы, грохоты, конвейеры...)
                                                                    В общем электрика больше мы не видели… А инженеры с завода потом долго прикалывались — мол по правилам — для остановки фабрики надо 1,5 часа… А какой-то электрик — за минуту все остановил… Сразу нашлись деньги для ДГУ с АВР, быстро сделали монтаж…
                                                                      0
                                                                      Мельницы, грохоты… добыча Aurum?
                                                                        0
                                                                        Медный концентрат.
                                                                      +3
                                                                      Из недавнего.
                                                                      Фотография называется «Что-то у нас интернет перестал работать».
                                                                      Зажато так, что оптика не вытаскивается, только откручивать болты.

                                                                      image

                                                                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                                      Самое читаемое