Комментарии 89
Я в подобных случаях надеваю на разъём на проводе маленький пакетик и фиксирую его стяжкой.
Вспомнил давнишний случай. Работал админом в одной небольшой компании. С утра проснулся от звонка коллег. Жаловались, что в одном из офисов жутко глючит интернет на всех машинах (около 50ти штук). Я первым делом, разумеется, стал звонить провайдеру. У тех всё хорошо, пинг до нашего роутера стабильный. Когда приехал в офис, обнаружил, что проблема именно в ЛВС: пакеты ходят с жуткими задержками и большой процент потерь между узлами. Свитчи были неуправляемые, поэтому первое, что пришло на ум - отключать их по одному. Нашел проблемный свитч, далее уже на нем стал отключать кабели от портов. Нашел порт с виновником, а по нему вышел на Ethernet-розетку у рабочего места (благо, розетки были пронумерованы и была схема сети под рукой). Подхожу к этой розетке и вижу, что она закоммутирована с соседней розеткой. Оказывается, кто-то из менеджеров отключил свой ПК и перенес его за другой стол, а утром уборщица, увидев на полу сиротливо лежащий хвост патчкорда, воткнула его в ближайшую розетку. Классика жанра, только обычно уборщицы выдергивают шнуры, а тут был более изощрённый вариант.
Может она подумала что случайно выдернула и побыстрее вернула на место "как было"?
Вывод - если у тебя неуправляемые свитчи - неиспользованные розетки не подключать к свитчам вообще. Хотя тупому юзеру ничего не мешает сделать петлю у себя на свитче под столом. Еще вывод - неуправляемые свитчи с количеством клиентов более чем 5 - зло. Поэтому на всех аццесс портах spanning-tree bpduguard enable - must have!
Что в обоих случаях заставляло людей так обращаться с железом, мы не знаем. У нас нет админопсихологов.
Или перестала работать сеть -> увидели выткнутый кабель -> воткнули. А сеть не работала совсем по другой причине. И если про сетевые петли знает большинство админов, то с кабелем питания не всё так однозначно.
А чем чреваты перепутанные фаза и ноль? Современным БП вроде пофигу?
Скорее всего речь о трёх фазах и о случайном подключении оборудования между двух фаз, а не между фазой и нулём.
На устройство приходит две фазы. но это к вопросу организации подключения - узм это не роскошь, а насущная необходимость.
Сослепу прочитал "ум это не роскошь..." и согласно закивал головой
Ха! На заре моей работы на текущем месте, наблюдал ввод ЭПУ в эксплуатацию. Заведено 3 фазы, подключено на разъем, смонтировано все по феншую... Руководитель подрядчиков подходит к распредшкафу, щелкает автоматом, тот моментально отщелкивается, руководитель от неожиданности садится на попу. Быстрое расследование показало что ЭПУ может работать как от одной фазы, так и от трех, но для работы от одной фазы нужно поставить перемычки... Которые на заводе естественно поставили, чтобы на месте не искать.
Зато на следующих объектах перемычки вынимались сразу после вскрытия коробки ;)
Перепутать фазу и ноль ничем не чревато, если одна фаза в сети. Если в сети три фазы, то будет замыкание.
ээээ, как? вы же берете только одну из фаз, как она с остальными пересечется? Вот взять две фазы вместо фазы и нуля да, вариант.
UPD: дошло, как раз вариант с двумя фазами и получается, если потребители 220в распределены по трёхфазной сети
Если я не ошибаюсь, то если вдруг электрик решил сделать зануление вместо заземления, то перемена фазы с нулём может быть неприятна. Да и даже без заземления - если ты привык, что выключатель света у тебя выключает именно фазу, то неаккуратное ползание в электросети после такой перемены может нанести неприятности.
и что? как это влияет на потребителей 220в?
Это как ?
С учётом того что выход от входа отвязан .
Не знаю, ведут ли себя так все однофазные онлайновые ИБП, но APC SURT2000XLI определённо да.
Частоту с входящей сетью он кстати тоже синхронизирует по умолчанию, хотя можно выбрать стабильные 50/60 Гц.
Мы разок вообще в сервис бесперебойник потащили, ругаться как же так - нулёвый, только из коробки, ИБП отказывается работать!
Он причём так невнятно на экране пишет, типа "проверьте питающий кабель" или как-то так. Ну проверили. В нём 220. не расшатанный :D
Как-то до этого у нас все итоны были либо трехфазными, либо однофазными большими, без вилки, и тогда там уже однозначно L и N подписаны.
А как дела у крысы? (Раз уж ностальгии пост)
ЕЁ РАЗОРВАЛО В ХЛАМ!
Или вы про другую?
Там вроде одну разорвало, вторая где-то выжила. Мне интересно, была ли в этом посте где-нибудь крыса, в каком-нибудь сервере, например ;)
Эх, хотел перечитать, как её разорвало - а пост закрыт. (Ну, хоть клон кое-как нашёл...)
Спасибо за нарядные истории.
С другой стороны все эти дополнительные процессоры, память, диски, контроллеры, хранящиеся годами — замороженные немалые средства, косвенно учтённые в стоимости сервера.А отсутствие ЗиП, когда он срочно нужен — это эпически просранные полимеры и ещё более немалый ущерб. И совершенно непонятно — что делать?
Они бы и сами собрали, если бы не разница слотов.
Скорее прочитали сектора с заголовками дисков.
Изначально всё было просто: если разобрать старые логи массива парсером (а это VNX, там старые логи не удаляются) — можно вытащить правильное расположение. Непросто было убедить диски одной RG, у которых сигнатура, записанная на диск повредилась, что они все впятером из 1 RG, а не из трех разных.
Непростой вопрос для краткого ответа. Попробую объяснить: основная проблема понять, что повреждено, а что не очень, тут помог вендор, запустили проверку целостности девайсов, но она заняла без малого 12 суток! (мне немного надоело ходить к заказчику утром и вечером на 5 минут, чтобы убедиться, что ещё не всё). Большинство томов собралось более-менее консистентно, а действительно повреждённые были в реплике, ave SRDF. Учитывая дату события, на системе не было активности больше 4-х дней, так что файлы пользователей сохранились. В немалой степени нам повезло.
Склад роскошен и напоминает не то пещеру Аладдина, не то археологические раскопки. А голова у заказчика так и осталась в форме лампочки?
"два бортпитания — мне и контроллеру"
Что предпочёл контроллер?
Курицу или рыбу?
:)
Автор - молодец, пишите еще!
HP вообще очень многие интересные проекты закрыл, потому что здесь и сейчас они не приносили денег или чего-то ещё — это были процессоры Альфа (DEC), кластеры VAX...
Да, это как раз было то время когда царицей HP была Карли Фиорина. В каждом офисе HP должены были висеть её портреты (кто помнит СССР, понимает о чем тут речь...) Потом царицу Фиорину из HP выгнали и она ушла в политику (официально, конечно, она просто перешла на работу, где её таланты были более востребованы). А потом, в 2016, она решила выдвинуть свою кандидатуру на пост царицы всего США... Х̶о̶р̶о̶ш̶о̶ ̶ч̶т̶о̶ ̶е̶ё̶ ̶п̶р̶о̶к̶а̶т̶и̶л̶и̶!̶ Выбрали Трампа...
Маленькая хранилка одним прекрасным утром обнаружила, что одному диску стало плохо и выплюнула его, прописав на почту, что «this disk is now ex-disk», спокойно подобрала hotspare и начала на него восстанавливаться (RAID50), одновременно, чтобы было видно, сменив цвет «лампочки» на оранжевый. Что сделали «мудрые» люди, увидев оранжевую лампаду? Прааавильно, начали дёргать диски (на горячую, оно же hotswap да и вообще что-то делать перед физическим отключением диска это не путь джЫдая), мол наверное «контакт отошел», в один прекрасный момент они дёрнули диски от разных пятёрок, и перепутали их местами. Результат немного предсказуем, маленькая хранилка отрапортовала на почту «your array is now ex-array» и сменила цвет лампочки на красный (попутно включив ещё кучку красных лампочек около дисков). Результат — дёргатели остались на белой части зп, дверь в серверную таки подключили к СКУД-у, местный админ очень долго икал, но данные частично удалось восстановить.
Прааавильно, начали дёргать диски (на горячую, оно же hotswap да и вообще что-то делать перед физическим отключением диска это не путь джЫдая), мол наверное «контакт отошел»
Пфф, когда-то видел статистику вендора по отказам дисковых систем, так там в тройке лидеров была «когда нужно было поменять сломавшийся диск, не тот диск выдернули».
RAID50? Это ахтунг! Что только люди не придумают чтобы не сделать всё сразу и по-человечески. Почему нельзя тупо "нарезать" зеркал, а уже на уровне ОС объединять их в бОльшие массивы, или вообще планировать дробное размещение размещение данных? На месте вендоров я бы эти самые RAID5 и все остальные гибридные массивы убрал бы из поддержки совсем и безвозвратно. Абсолютно везде где я встречался с чем-то отличным от RAID1 - везде были проблемы, начинавшиеся с затянувшегося на пару недель ребьюлда, а кончавшиеся выходом из строя остальных дисков с последующей потерей данных. А потом ойой - вы все плохие, ваш сервер сдох.
Ради интереса к RAID50 я даже взгуглнул:
(+): высокая скорость передачи данных и обработки запросов.
(+): хорошая скорость восстановления данных и стойкость при отказе.
(-): требуется, как минимум, 6 дисков.
...и ужаснулся - в одном флаконе собраны сразу два костыля - абсолютная ненадёжность RAID0, и ненадёжность (еще одна!) и медлительность RAID5. Всё псевдобыстродействие страйпа улетучивается с использованием тормознутого RAID5. Кем надо быть чтобы :
во-первых придумать такое?
во-вторых - додуматься пользовать "это" в проде.
...и убедился - зеркало и только зеркало!!! - самое простое и надежное. Да, оферхэд, особенно если уже больше 2-х пар дисков. Да, велик соблазн весь этот оверхэд заюзать. Но в итоге надежнее просто докупить пару дисков и сделать еще одно зеркало и фиг с ним с оверхэдом. По крайней мере если разбивается одно из зеркал - страдает от этого только это разбитое зеркало, а не весь массив - с вытекающими последствиями в виде тормозов и рисков потерять еще диски за время ребьюлда.
У нас в далеком 2004м собрали RAID5 на 20 дисках +4 hotspare. Массив проработал 4 дня, не выдержав стартового переноса данных с предыдущего хранилища.
Под нагрузкой сдох диск — я был тогда ещё эникеем и не был допущен к расследованию, не могу сказать, было что-то не то с дисками как целым или нет. Массив начал ребилдиться на одну из хотспар, помер второй. Собственно нашим был урок от жадности :D
Звучит как бракованная партия дисков, собственно из-за подобных явлений и рекомендуется брать диски из разных партий. Осталось только найти 24 диска из попарно разных партий...
"Элементарно, Ватсон!" - видел подобную картину, когда "российский производитель серверов" (надеюсь, уже не являющийся "производителем" - лет 10 не попадается на глаза его реклама) отгрузил "SAS-полку", начинённую SATA-хардами линейки "AS" - заказчик даже смог (с не первой, как потом выяснилось, попытки) на ней собрать RAID 5E, и даже около года на нём проработал... благо, диски были маленького объёма (гигов по 80) и "за мзду малую" я смог софтово пересобрать выпавший в offline массив с минимальными потерями.
Тёплые ламповые истории КРОКа о том как кто то на праздники летел через всю страну - всегда радуют. А как удается договариваться с транспортной безопасностью аэропортов? По работе тоже частенько вожу всякое, но не получается контакт налаживать...
Железка — та, что на фото справа. Там корпус из 5-миллиметровой стали, чтобы пару кубов забортной воды не помяло. Так что обычно просят развинтить, назначение каждой микросхемы объяснить…
Как-то недобро эта коробка стоит на изломе кабеля (ну, так выглядит)
Это P-серия блейдов HP. Я видел её только в лабораториях и в ЗИПе, но никогда — в проде. Никто из моих знакомых и коллег тоже не видел её в проде. Если вы вдруг знаете, с чем она конкурировала и для чего была незаменима, — скажите, пожалуйста, но вместо неё в проде всегда стояло что-то другое. Но такая штука существовала, вот доказательство.
Я никогда не видел ее вживую в проде, но точно знаю компанию которая их так использовала
Это BL20PG2. На Xeon-ах, но судя по свидетельствам там были и BL25P, на оптеронах, что выглядит совсем уж дикой дичью =)
ithappens мертв, да здравствует Хабр!
Или вот другая история произошла пару лет спустя — кабель (уже питания) свисал из сервера, и втыкание его обратно вызвало очень быструю цепочку событий, которые привели к отключению подстанции.
Любопытно, почему включение сервера в сеть привело к отключению подстанции?
Сервер управлял этой подстанцией или это вопрос какой-то перегрузки?
Я понимаю так, что произошло примерно следующее: сервер был отключен от питания, но не от локальной сети или сети управления, после его включения сработал или wake-on-lan или настройка БИОС и он пошел загружаться, вызвал конфликт IP-адресов или конфликт команд управления из-за двух одновременно комплектов работающего управляющего ПО, ну и что-то нехорошее передал на подстанцию, очего она вырубилась.
Расскажу свою "байку" про слабоумие и отвагу. Собираю слаботочный щиток для видеонаблюдения. Раскладываю все по местам: роутер, видеорегистратор с жестким диском, пое-коммутатор, блоки питания. Случайно путаю два штекера, и вставляю тот, что от блока питания пое-коммутатора (53В) в видеорегистратор, рассчитанный на 12В, поскольку они абсолютно одинакового типа и размера. Поскольку все на этапе сборки, ни один прибор к питанию не подключен. Но это меня не спасает, - остаточный заряд, накопленный в конденсаторах блока питания убивает мне и видеорегистратор (4т.р.) и жесткий диск WD Red Plus 4Tb (10т.р.). Причем, диск я взял первый попавшийся под руку, и не собирался его вообще включать, просто хотел прикинуть все по размерам. Как назло, это оказался диск с ценными данными (семейный фото-видео архив), бекап для которого я, конечно же, своевременно не сделал.
Слава богу, в диске пробило по линии питания (12В), а не по линии данных (5В). Ремонт обошелся в 6500р (как сказал мастер, - половина рыночной цены девайса), данные не пострадали.
Регистратор, как мне сказали, проще купить новый.
Вот так цепь случайных действий, каждое из которых вполне "безобидное", привела к неприятностям. Мне еще повезло, - если бы пострадали узлы внутри гермоблока HDD,то для восстановления данных пришлось бы принести в жертву еще пару таких дисков.
Этот жизненный урок стоил мне 10т.р. и нескольких клок выдранных волос ниже спины.
Спасибо, Саша, знатно поностальгировал. Будет время и свои байки из тех и еще более ранних времен напишу) Была романтика в северном и схдшном железе
Cуперски, по ностальгировал!
P.S. Для знающих: у меня раз на машине с масивом фраза всплыла "One half".
"Dis is one half"
RAID0+1 один диск вылетел?
Он же DrWeb'ом отлично расшифровывался! Главное не "вылечить" тело в загрузчике, содержащее ключ шифрования до расшифровки... Наши как раз дипломы писали, когда эпидемия пошла...
Вот хуже было с более поздней заразой, "Win95 CIH" или "ВинЧих", из начала нулевых, которая BIOS запарывала и первые несколько мегабайт на харде нулями переписывала, а удобных утилит восстановления тогда ещё не было (была пара утилей, но они кириллицу не любили). Микросхемы BIOS, со всех знакомых, я тогда на работу чуть не пригоршнями носил к нечастому на тот момент прибору - программатору.
Он же DrWeb'ом отлично расшифровывался!
Только пока он не успел "зашифровать" нулевой сектор, в котором хранится ключ расшифровки. После того как он он это сделал — расшифровка диска перестаёт быть тривиальным занятием и становится статистической угадайкой.
Сколько помню, "половинка" шифровала небольшие куски диска при каждом включении - визуально - пара секунд задержки перед появлением загрузочного меню DOS/Win95, у кого оно было (а было оно у многих), а надпись "дис из ванхалф" появлялась, когда зашифрованными становилась половина объёма диска. Ну, по крайней мере мне, из полутора десятков "пациентов" ни одного невосстановимого не попалось. А вот про харды, у которых какой-нибудь "дискинфоскоп" или другой антивирус/ревизор удалил из загрузочной области тело вируса вместе с ключём расшифровки - читать доводилось.
Интересно, как можно отказаться открывать коробки в аэропорту? Оборудование ведь вряд ли фоточувствительное едет. Просвечивать - ладно. Ну и что, что 40-60 тыс. зелени в бумажке сопроводительной написано? Самолет и пассажиры всяко дороже стоят в случае бонбы, проехавшей на борт.
Интересно, а в каком месте сервера или СХД может использоваться контроллер, который на картинке?
(если что, у нас на складе исовые мультипортовки тоже лежат... мы ничего не выбрасываем, но наши всё же моложе 1992 года)
Скорее всего, это от упомянутой недалеко в тексте "486-й АСУ ТП" - порты управления каким-нибудь "хитрым оборудованием" - чего я только не насмотрелся в котельных и кондиционерных пристройках - от совсем аналоговых панелей до интерактивных мониторов на резистивных матрицах, под управлением "странных железных ящиков", пишущих при загрузке "VIA TM CPU 667 GHz"...
>Собственно, он как был железкой смутного назначения, так и остался, только теперь на новых написано Lenovo.
Да ладно? Сейчас это называется IBM System z - мейнфреймы от IBM. Выпускаются и развиваются активно до сих пор. Наследники System/370 System/390.
Есть еще бывшие eServer iSeries - ныне IBM System i, наследники System/36 System/38 AS/400 Позиционируются как middleware и тоже активно развиваются и выпускаются.
Отличная статья!
Помню, как мы смеялись ещё раньше над сановскими кодами ошибок про космическое излучение, но вот пригодились же.
А расскажите про это подробнее.
Ответили, что нужно нажать на кнопку на лицевой панели.
Следующим вопросом был: «А что делать, если стример находится на орбите?»
Возможно и у контроллеров упомянутого типа был подобный опыт.
Тут особо не о чем рассказывать, когда-то давно, как уже писалось в посте, я занимался обслуживанием серверов компании Sun. Как-то раз вечером более опытные коллеги обсуждали то-ли ответ вендора по кейсу, то-ли из взятые из документации описания кодов ошибок, где прям дословно говорилось, что причина сбоя чипов — cosmic rays. На детали я тогда внимания не обратил, но само обсуждение запомнил. Тогда же вспоминали забавную инструкцию для топовой ленточной библиотеки, которую продавал через себя Sun microsystems, инструкция называлась в стиле: «Что делать, если вас заперли внутри».
Интересные байки. Благодарю.
Перевозил как-то маршрутизатор плюс IDS из Петербурга в Калининград в салоне самолета.
Цена конечно не 60т.$, но тоже эпично было.
Стойки с массивами так же возили, стену как-то в ЦОДе разбирали - иначе никак не занести, но полы выдерживали.
Как же блин поэтично про "Крик" вышло! Не думал о такой трактовке...
Не помню конкретную модель, но Саны использовались как серверы с ORACLE + ORACLE FORMS в банке. Конкуренция была в том, что тогда ORACLE был SUN. Обеспечивал в общем то легкую разработку и деплоймент по меркам динозавровой эпохи.
Железа и баек ностальгии пост