Как стать автором
Обновить

Невыдуманные истории про сеть: как я учил физику на своих и чужих ошибках

Время на прочтение 7 мин
Количество просмотров 22K
Всего голосов 58: ↑57 и ↓1 +56
Комментарии 64

Комментарии 64

Немного добавлю, в основном не про сеть, а про остальное, что есть в ЦОД, особенно в маленьких «домашних»:

Приходилось видеть стойки, подключенные в сеть электропитания кабелями по полу, фальшпола или лотков над стойками не было, каждое посещение — увлекательный челлендж, как бы на что-нибудь не наступить, шаг влево или вправо мог закончится выключением какого-нибудь оборудования или даже целой стойки.

Еще один прикол с электропитанием — ИБП, через которые подключен ЦОД, находятся в отдельном помещении, для прокидывания питания в ЦОД частично использована имеющаяся электропроводка в здании, в самом ЦОД стойки подключены банально в обычную розетку в стенке, ту самую, которая на 15 ампер максимум. Иногда эти розетки выгорают с кучей дыма и прочими спецэффектами.

В одном маленьком домашнем ЦОД, расположенном в подвале, не было системы откачивания конденсата из кондиционеров, под кондиционерами стояла большая пластиковая бутылка из под питьевой воды, которую нужно было периодически проверять и менять на пустую. Кстати, видели когда-нибудь стойку, возвышающуюся над поверхностью воды как нефтяная вышка? Можно вокруг нее запускать бумажные кораблики…

Знаете что бывает, если в ЦОД перестают работать кондиционеры? Когда температура в помещении превышает градусов этак 50 оборудование само выключается. Обычно во всем современном оборудовании при перегреве все выключается корректно, ничего не сгорело в итоге, но лучше не рассчитывать, что все обойдется…

С почти каждым современным сервером в комплекте идет штука, которая называется cable management arm, регулярно вижу как сервера ставят в стойку без неё, а очень зря — когда при проведении техобслуживания нужно сервер выдвинуть — приходится отключать от него с десяток различных кабелей и патч-кордов, а если они еще и не промаркированы — совсем беда…

Почему то куча сетевого оборудования имеет только один блок питания. Как то ЦОД обрадовал, что они будут проводить регламентные работы на вводах и каждый луч электропитания будет отключен на несколько часов. Пришлось в бодром темпе закупать устройства автоматического ввода резерва и планировать работы по их подключению…
Спасибо что поделились! :)
Я тоже видел такое ранее, особенно орнул в голос от бутылки под конденсат, к сожалению все так и было…
У меня тоже есть интересная история.
Веселый Maintenance Window, или сказ о том, как большой сетевой инженер патчкорды поломал.

Работал я как-то давно в одной компании, компании О, в городе N. Трудился я дежурным инженером, эдакий ночной царь сети, которому подвластно было всё: и IP-сеть, и PDH\SDH и маленький такой ЦОДик, где и собственная инфраструктура была, и клиентское оборудование. Шкафчики открытие были в основном.

Была у нас традиция: в ночь с субботы на воскресенье работы плановые проводить. Работ в ту весёлую ночь было было много. И по плану коллега, тоже инженер, должен был проводить работы на оборудовании в ЦОД. Он огромный был детина, косая сажень в плечах, да и ростом такой же был. Проводя работы, он перемещался по ЦОДу туда-сюда.

И тут мы стали замечать ошибочки на мониторинге, деградацию, заявочки от недовольных клиентов пошли… Долго мы искали причину, думали — в чём же дело?

А детина наш, оказывается, вредителем стал: проходя между стоек, он плечами задевал оптические патчкорды, изломы да перегибы после себя оставлял.

Где-то просто поправить патчкорды помогло, некоторые пришлось менять…

Мораль сей истории проста: не пускайте слона в посудную лавку и используйте глубокие стойки в ЦОД, чтобы дверцы можно было беспрепятственно и безопасно закрывать.
Спасибо!
Подобную историю слышал в одном из СПб ЦОД, там есть некое «помещение» важного отдела из 3-х букв госухи, так вот там все было сложно с местом для обслуживания оборудования. И по лучшей традиции супер инженер, который все это дело облагораживал был моей комплекции (190), только шире раза в полтора, а может и два.
Т.е. ему было физически очень сложно протиснуться между стойками, не говоря уже о проведении работ, сколько было аварий из-за этого и были ли они вообще история предусмотрительно умалчивает ;)
Бутылка под конденсат это классика. Как и её объём, от 5 до 19 литров. Появляется обычно с фразой «пока поставим бутылку, пока в канализацию не врежем сток».
на этот счет народная мудрость гласит: «нет ничего более постоянного, чем временное!»
Про перегревающиеся сервера…
Еще веселее было, когда выключившиеся в 4 ночи от перегрева сервера начинают включаться после падения температуры в 9 утра когда ты такой примчался в офис и открыл дверь в серверную. Температура-то всего на 5 градусов упала, но им было достаточно, чтобы включиться. А потом опять выключиться по перегреву.
PS
Вспомнилось как потом я обещал разбить определенные части тела главинженеру бизнес-центра до того как успеет добежать охрана, если он еще раз вырубить серверную линию кондиционеров и как он потом от меня за охранниками прятался ;-)…

Cable management arm идёт только с серверами от большой тройки как опция к топовым рельсам и требует глубокую стойку, то есть массовые Intel/Supermicro в коммерческом ЦОД сразу мимо.

Ни разу не видел вживую в ЦОДе Supermicro. Только Dell/HP, ну разве что после начала «импортозамещения» стали появляться другие варианты.
В том же Далайне целые залы Супермикры.
Мне в Даталайне не понравилось, там картинки на стенах не в моем вкусе.
Селе-кхе-тел, апчхи.
Мы размещали свои. И Supermicro, и Asus (если память не изменяет). В конце концов перешли на HPE.
Кстати, видели когда-нибудь стойку, возвышающуюся над поверхностью воды как нефтяная вышка?


Я видел стойки которые возвышались над поверхностью «черного золота» как нефтяные вышки. Мораль: не надо ставить стойки в подвале под канализационным отводом многоэтажного здания.
Подвал — вообще крутая штука, особенно если нет лифта, как то привезли демо-стойку HPE, чтобы ее затащить в подвал нужно было ее полностью разобрать, а потом собрать обратно уже на месте. Когда демо закончилось — обратная процедура с разборкой и сборкой…
Мощная антиреклама Avaya… От левых пакетов, валящих на вход, дохнут физически аппараты — что это?! Неадекватное охлаждение CPU по принципу «и так сойдет» плюс отсутствие термоконтроля, который хотя бы вырубит железку, если температура компонента закритическая. Читаем между строк — не берите ЭТО! :-)
К сожалению все было именно так, сам в шоке :) Модели были 1616, не помню уже аппаратную ревизию, но серийники шли один за одним… Партия вот такая вот и вся на тот свет :)
¯\_(ツ)_/¯
Ну к слову там были модели которые так некисло перегревались и без сетевых штормов. И мне кажется что как раз 16xx это было…
Эхх… Avaya… Я мог бы книгу написать про несуразности и баги их коммутаторов. Но плюс у них всё же есть — работать могут в совершенно адских условиях окружающей среды
Оптический патчкорд либо есть, либо нет, поэтому все держат запас на складе.

Скалыватель + фастконнектор спасут в кретической ситуации.
Да, который нужно ещё купить )
А в реальности услышишь в ответ — «в бюджете не заложено, обоснованию отказать, держите пару патчкородов и всего делов» :)
Дак надо заложить в бюджет)
Я однажды обнулил cisco свитч в продакшене: при коммутации патч-кордов в стойке пачка проводов нажала на кнопочку «mode» — а это через какое то время (минута-две) обнуляет конфиг и перезагружает циску…
Отключается в настройках.

А вот ещё страшилка связанная с питанием.
Вытаскиваем обычную вилку (обычный чёрный или белый компьютерный провод) из PDU («сетевой фильтр») в стойке. ПЕРЕВОРАЧИВАЕМ вилку! Казалось бы, да? Вставляем обрано в PDU и получаете коротыш — из пдушки идёт дым и искры.
Оказывается, в пдушке, внутри, оплавился ноль и земля. В обычном режиме вы ничего не заметите, но как только в эти ноль\землю воткнёте фазу (то есть перевернёте вилку) то всё.
А ещё бывают ультра-бюджетные PDUшки с Schuko розетками. Внутри у них весьма «какчественно» закреплённая шина заземления. Так вот, как и в самых дешевых удлинителях с кнопкой (которые по ошибке зовут «сетевой фильтр») эта шина имеет недокументированную функцию «фейерверк», вызываемую отламыванием её фиксаторов(т.к. фиксируется расплавлением пластмассы(тоже очень высокого качества) на производстве этого фекальдэ). После того, как несколько её фиксаторов отламываются, начинается игра, которая идёт до первого включения очередной вилки. При включении эта шина спокойно ложится поверх нуля и фазы (вилочка подталкивает через усы заземления), вызывая генерацию высококачественного мата и отключения вводного автомата, ну и бубух в подарок.
Воу-воу, видел такое, отказал на стадии закупки, считай повезло не иметь с этим дело :)
Спасибо!
У нас когда-то были такие, что контакты заземления при вставлении вилки уходили вниз и замыкали перемычкой, которая под розеткой, шины фазы и нуля. Фейерверка не было, но поняли не сразу, несколько пользователей приходило с жалобой, что от нового пилота (эти мы прозвали «киллер-пилот») вышибло автоматы в кабинете. Лечилось раздвиганием контактов земли в сторону, прежде чем выдать пользователю.
Повезло, у меня такие фекальдины даже этажный автомат вышибали. И, что самое обидное, одно такое фекальде испортило красивую белую вилку своими брызгами расплавления шин.
Однажды разбирался с большой системой видеонаблюдения (>200 камер), в которой иногда разваливались кадры видеоизображения, транслирующиеся на некоторые посты охраны.

Разбирался долго, теорий такого необычного поведения была масса.
Оказалось, что в какой-то момент часть системы отключилась из-за плохого патч-корда, соединяющего в стойке два неуправляемых гигабитных коммутатора, стоящих вплотную друг к другу. Пришёл техник и из 2-х парной (за неимением другой) витой пары сделал новый патч-корд и устранил проблему. Но коммутаторы стояли гигабитные и трафик выше 100 Мбит/с поднимался редко, а когда это происходило — видеопоток разваливался. А поскольку коммутаторы были неуправляемые, отследить софтово такие вещи было нельзя.
Читаю и плачу. Про жизнь.
История от меня — стартап, совещание с потенциальными инвесторами о втором раунде инвестиций. Презентация сайта на живом сайте и дедлайн по переезду на новый роутер. Сервер в датацентре, разумеется. Физически сервер подключен, нужно «всего лишь» в конфиге вбить новый айпишник и перезапустить службу. Разумеется, я ошибаюсь в одной цифре и осознаю это когда уже все сделано. Холодный пот, истерические крики в офисе, седые волосы и все остальное. Спасло то, что я не поленился соединить резервный сервер прямым патч-кордом и зашел через него. Лет десять прошло, помню как вчера.
Охх, план Б и DR спасает не только квартальные премии… )))
А у меня как-то в коннекторе патчкорда надломился один из проводов витой пары. Изменение волнового сопротивления привело к полному отражению передаваемого сигнала. В результате от двойного уровня сигнала была повреждена одна из сетевых карт.
Еще одна идиотская проблема. Я столкнулся дважды. На старом сервере деградировал сетевой интерфейс. Интерфейс подвисал при достижении определенной интенсивности обмена данными. Проблема исчезла после установки в сервер новой дискретной сетевой карты.
Но перед этим я зря разорил компанию на новый свич.
Ну, если был свитч «тупнячок», а поставили «умник», это в принципе правильное вложение :)
Опять же если ))
Отличная статья! Посидел, посмеялся) Спасибо за хорошее настроение!
Пожалуйста :) Самому было приятно было вспомнить несколько этих эпизодов ещё раз и посмеяться над собой и не только ))
Иногда стреляет совсем экзотическим образом. Например, проблема в AToM (Ethernet поверх MPLS) линке между 76-й и 38-й Cisco. Формально всё хорошо, но пакеты на оборудовании клиента со стороны 38-й выглядят так, будто за 76-й на стороне клиента есть петля. А её нет, как того суслика. Есть отражение части трафика, приходящего в AToM на 76-ю, в сторону 38-й. «Полечилось» перезагрузкой и, впоследствии, обновлением IOS на 76-й.
cisco tac support:
please reboot all your devices.JPG )))
У циски такой нехороший баг был в памятью. Несколько лет ставили память которая лет через 5 умирала. И циска работала при этом, но до перезагрузки. Перегружаешь — получаешь кирпич, перегружаешь резерв и тоже получаешь кирпич ) Я столкнулся.
Сама циска говорит меняйте за свои деньги «Some ASR1000 Products Might Fail to Boot Up After a Power Cycle — Replace on Failure»
Сурово…
Там постарадала куча продуктов, а потом были бракованные процессоры.

Работал лет 10 назад в одной организации, которая принимает платежи от населения. И все данные уходили по vpn на простом adsl модеме. Вот в один прекрасный день связь обваливается, модем не видит линию, у себя все проверил. Пошел к нашему оператору связи. Как я был удивлен, на другой стороне стоял такой же модем, включенный в обычную розетку. Так вот эта розетка понадобилась им чтобы попить чайку.

Классика :)
Наверное все-таки SHDSL. ADSL мо
НЛО прилетело и опубликовало эту надпись здесь
Да, спешка и самоуверенность порой приводит к достаточно печальным последствиям.
В корзинах c7000 у серверов шестого и седьмого поколений рукоятка, за которую вынимается сервер, расположена между лезвиями. Один раз вынул не то лезвие. vSphere HA отработал, конечно, но было неприятно. В восьмом поколении ручки переделали, чтобы такую ошибку было практически невозможно совершить.
Не физика, но чую такое было у многих:
Датацентр, на коллокейшене стоит наш сервак, ДЦ уведомляет, что сорри дорогие клиенты, но мы меняем адреса, поэтому с х по y часов такого-то числа пожалста переконфигурируйте ваши серваки на новые адреса, они у вас в ЛК есть. Естественно лучшее время для этого ближе к ночи, а то простой и всё такое. Ну не беда, ночь, остаётся всего ничего до окончания окна, выделенного на перенастройку, лезу по ssh и без задней мысли начинаю перенастройку с ifconfig eth0 down. Естественно получаю от putty ответ «Connection terminated» и понимаю, что кажется я только что оформил себе услугу «ноги в руки и вали в ДЦ на такси»(хорошо хоть, что ДЦ в одном со мной городе и пропуск туда был круглосуточный выписан), т.к. IP-KVM и прочего нет. В ДЦ встречаю ещё некоторое кол-во народа, который тоже начал поездку с ifconfig xxxx down.
Да без ip-kvm\ipmi, это прям печально :)
Примета есть такая:
Перенастройка железки не только лишь в ночи без плана Б, к дальней дороге :)

Обычно там reload in N, rollback, shutdown -r 300 + старт скрипта востановления сети, помогает не отстрелить себе ногу при работе на сети и настройки FW :)
У нас как-то колпачки с защитой «язычка» за год задубели в камень. Так что для того чтобы вынуть патчкорд пришлось просовывать иголку между колпачком и коммутом чтобы надавить на «язычек» коннектора.
Есть такое, все зависит также от качества витухи, сейчас например современный язычок идет как монолитное крепление полудугой и там очень сложно будет зацепиться.
надеваемые колпачки от брендового гиперлайна дубеют и сейчас
Прекраснее этого может быть только пригоревший SFP модуль, который нужно выдергивать пассатижами, потому что он пригорел настолько, что ну совсем никак по другому уже не вытащить :)
Случай в начале моей карьеры, который научил меня, что нельзя нарушать стандарты.
Работал инженером техподдержки у маленького оператора, звонит клиент и жалуется на постоянные потери, а иногда пропадание связи на 1-2 часа. Клиент важный для компании.
Так как отсутствовала документация на его включение, а предыдущая команда инженеров уволилась всем техотделом, выясняем как и чем клиент подключен (уходит на это полдня).
Значится, FastEthernet, медь, все дела. Проверяем линию — визуальных повреждений нет, с линией все ок. Перевод интерфейса в режим 10Mb не сильно помогают, потери остались, но поменьше стало, периодические разрывы тоже есть… Никто ничего не знает, идей нет…
Даю команду технику прозвонить флюкой линию, может там что увидим. В общем сообщает, что длина линии 220 метров!!! Как оно работало раньше? Тогда я не знал…
Решили проблему просто — поставили 2 SHDSL модема, которые подняли 4Mb линк и все полетело, благо клиент брал всего 2Mb.
На все про все ушло неделя объективного времени, трудозатраты, затраты на оборудование и неисчислимое количество нервных клеток (как наших, так и клиента).
Из данного сюжета я сделал ряд далеко идущих выводов, в числе которых самый главный — стандарты связи писали не дураки. А еще, что отсутствие документации — это маленькое начало большого конца организации.
Делай все по чертежу — меньше будет… разговоров
Вот история про радиосвязь:

Работал в одном из операторов (тогда еще) Большой Тройки. Город разделен на две части, соединенные друг с другом двумя дорогами протяженностью в пару километров, есть естественные преграды, то есть с земли радиосигнал не пройдет.
Вдруг внезапно у всех трех операторов ложатся все базовые станции в правой половине города на 4 часа!!!
Ну естественно паника, шок, что случилось??? Через 4 часа все поднялось.
Раз причину не выяснили, то значит ружье выстрелит снова.
На следующий день наши доблестные инженеры, вооружившись соответствующим оборудованием, едут искать источник помех.
Снова падают все базовые станции, находим источник…
Выясняется. В неподалеку стоящей военной части сменилось начальство и молодой командир части за несколько дней до этого решил произвести инвентаризацию оборудования.
На складе находят древнюю РЛС (радиолокационную станцию), годов так 50-60
Ну и естественно он решил поохранять мирное небо, включив сей чудо-мега-девайс…
В общем эта РЛС мочила в очень широком спектре, задевая все нужные частоты.
А мощность луча составляла 2 Мега Вт!!! Интерференция гасила все попытки базовых станций связаться с BSC (а тогда транспорт всей правой части города работал только по РРЛ).
И про оптику есть куча историй, вот одна из них:

Оператор фиксированной связи, ядро сети, агрегаторы с оптическими линками 40G/100G Ethernet, дальностью до 100 км (точно не помню, но расстояния хорошие). Запускает инженер подрядчика в помещение протянуть ВОЛС и сварить там оптический кросс.
Не знаю, что нашло на подряда, но решил он оптический патч с работающим линком «сжать» рукой, создав угол 270 градусов, а то и больше…
Патч расплавился.
Возможно я ошибаюсь, поправьте — при угле 90 градусов и больше лазер «упирается» в границу двух сред (самого волокна и его стеклянной оболочки с другим коэффициентом преломления). В результате происходит поляризация с выделением тепла.
Выделение тепла было настолько мощным, что патчкорд просто потек каплями стекла на пол.
Это так то не байка :) Вполне реальная ситуация, когда сварщик не очень.
Изоляция вполне может оплавится от такого нарушения правил эксплуатации.
Ну и под занавес — про природу и электричество:

Прямо в силовой кабель до базовой станции ударила молния. Кабель выгорает 600 метров в одну сторону, 300 метров до базухи…
Приезжают ребята на базу, заходят в помещение, а там…
Там где стоял Emerson (стойка ЭП, на которую приходил кабель) — черное выгоревшее пятно, по всему помещению кляксы расплавленного металла. Рвануло там будь здоров.
Нет, все на базе было сделано как надо и по стандартам — заземление, молниезащита, грозозащита и т.д.
Вот только природе было плевать на наши защиты.
Стойка с аккумуляторами выжила, весь удар принял на себя Emerson, земля ему пухом.
Пока подряды меняли кабель, наши инженеры целый месяц ездили 2 раза в сутки на базу с генератором, чтобы ее подзарядить и дать связь поселку, который стоит неподалеку от нее.
А еще, что отсутствие документации — это маленькое начало большого конца организации.
Да и подобные случаи тоже обычно намекают:
а предыдущая команда инженеров уволилась всем техотделом
Полностью с вами согласен.
Просто так всей толпой не увольняются. Значит, либо у руководства дурь в голове, либо сетку построили настолько ужасно, что зашивались решать тикеты.
Как показала дальнейшая практика, в этой конторе было и то, и то.
Зато такие компании являются идеальным тренажером для прокачки скилла инженера.
Заело деталь? — Надави на нее!
Сломалась? — Не расстраивайся,
все равно, нужно было менять.
Приезжает подрядчик делать ТО UPS… А серверная обслуживает фабрику, час простоя которой обходится 100К баксов… Ну и на случай, если отрешится питание — решаем запитаться от дизеля (штатного на тот момент не было). Для этого надо было отключить входное питание, подключить дизель, а потом спокойно обслуживать UPS… Согласно политикам компании, это должен делать только электрик. Приходит электрик, объясняем ему что нам необходимо… В шкафу стоят автоматы на ввод и на выход с UPS. На двери шкафа приклеена схема, все автоматы подписаны, электрику несколько раз сказано, что нужно отрубить только входные автоматы, отключить входную линию и вместо нее подключить ДГУ.
В итоге этот м… к кивает головой, говорит — мол плевое дело — и быстро рубит вход и выход с UPS… В серверной тишина… выйдя на улицу — аналогичная тишина, т.к. фабрика остановилась (мельницы, грохоты, конвейеры...)
В общем электрика больше мы не видели… А инженеры с завода потом долго прикалывались — мол по правилам — для остановки фабрики надо 1,5 часа… А какой-то электрик — за минуту все остановил… Сразу нашлись деньги для ДГУ с АВР, быстро сделали монтаж…
Мельницы, грохоты… добыча Aurum?
Медный концентрат.
Из недавнего.
Фотография называется «Что-то у нас интернет перестал работать».
Зажато так, что оптика не вытаскивается, только откручивать болты.

image
Зарегистрируйтесь на Хабре , чтобы оставить комментарий