Pull to refresh

Comments 89

UFO just landed and posted this here

Я в подобных случаях надеваю на разъём на проводе маленький пакетик и фиксирую его стяжкой.

не проще ли провод со второго конца отключить и вытащить из стойки? Чтобы не возникало у "молодняка" включать висящие концы обратно?

Так не всегда можно сделать. Например, второй конец провода куда-то припаян. Не отрезать же его.

UFO just landed and posted this here

Вспомнил давнишний случай. Работал админом в одной небольшой компании. С утра проснулся от звонка коллег. Жаловались, что в одном из офисов жутко глючит интернет на всех машинах (около 50ти штук). Я первым делом, разумеется, стал звонить провайдеру. У тех всё хорошо, пинг до нашего роутера стабильный. Когда приехал в офис, обнаружил, что проблема именно в ЛВС: пакеты ходят с жуткими задержками и большой процент потерь между узлами. Свитчи были неуправляемые, поэтому первое, что пришло на ум - отключать их по одному. Нашел проблемный свитч, далее уже на нем стал отключать кабели от портов. Нашел порт с виновником, а по нему вышел на Ethernet-розетку у рабочего места (благо, розетки были пронумерованы и была схема сети под рукой). Подхожу к этой розетке и вижу, что она закоммутирована с соседней розеткой. Оказывается, кто-то из менеджеров отключил свой ПК и перенес его за другой стол, а утром уборщица, увидев на полу сиротливо лежащий хвост патчкорда, воткнула его в ближайшую розетку. Классика жанра, только обычно уборщицы выдергивают шнуры, а тут был более изощрённый вариант.

Может она подумала что случайно выдернула и побыстрее вернула на место "как было"?

Вывод - если у тебя неуправляемые свитчи - неиспользованные розетки не подключать к свитчам вообще. Хотя тупому юзеру ничего не мешает сделать петлю у себя на свитче под столом. Еще вывод - неуправляемые свитчи с количеством клиентов более чем 5 - зло. Поэтому на всех аццесс портах spanning-tree bpduguard enable - must have!

Что в обоих случаях заставляло людей так обращаться с железом, мы не знаем. У нас нет админопсихологов.

Или перестала работать сеть -> увидели выткнутый кабель -> воткнули. А сеть не работала совсем по другой причине. И если про сетевые петли знает большинство админов, то с кабелем питания не всё так однозначно.

А чем чреваты перепутанные фаза и ноль? Современным БП вроде пофигу?

Скорее всего речь о трёх фазах и о случайном подключении оборудования между двух фаз, а не между фазой и нулём.

На устройство приходит две фазы. но это к вопросу организации подключения - узм это не роскошь, а насущная необходимость.

Сослепу прочитал "ум это не роскошь..." и согласно закивал головой

Ха! На заре моей работы на текущем месте, наблюдал ввод ЭПУ в эксплуатацию. Заведено 3 фазы, подключено на разъем, смонтировано все по феншую... Руководитель подрядчиков подходит к распредшкафу, щелкает автоматом, тот моментально отщелкивается, руководитель от неожиданности садится на попу. Быстрое расследование показало что ЭПУ может работать как от одной фазы, так и от трех, но для работы от одной фазы нужно поставить перемычки... Которые на заводе естественно поставили, чтобы на месте не искать.

Зато на следующих объектах перемычки вынимались сразу после вскрытия коробки ;)

Перепутать фазу и ноль ничем не чревато, если одна фаза в сети. Если в сети три фазы, то будет замыкание.

ээээ, как? вы же берете только одну из фаз, как она с остальными пересечется? Вот взять две фазы вместо фазы и нуля да, вариант.

UPD: дошло, как раз вариант с двумя фазами и получается, если потребители 220в распределены по трёхфазной сети

если в 3хфазной сети при коммутации перепутать фазу и 0 - к потребителю в результате две фазы и придут

Если я не ошибаюсь, то если вдруг электрик решил сделать зануление вместо заземления, то перемена фазы с нулём может быть неприятна. Да и даже без заземления - если ты привык, что выключатель света у тебя выключает именно фазу, то неаккуратное ползание в электросети после такой перемены может нанести неприятности.

К примеру фаза с нулём на выходе онлайнового ИБП могут меняться местами при включении/отключении входного напряжения в случае неправильного подключения входной фазы.

и что? как это влияет на потребителей 220в?

Кратковременно во время переключения на потребителе перепад до 600 В.

Это как ?

С учётом того что выход от входа отвязан .

Но на выходе же есть фаза? При холодном старте фаза на выходе слева, при восстановлении питания справа — ИБП синхронизирует фазу со входящей сетью, если исходно не выбрать правильный вариант поворотом вилки.
Не знаю, ведут ли себя так все однофазные онлайновые ИБП, но APC SURT2000XLI определённо да.
Частоту с входящей сетью он кстати тоже синхронизирует по умолчанию, хотя можно выбрать стабильные 50/60 Гц.
UFO just landed and posted this here
Спасибо, не знал. Это кажется более правильным подходом. Полагаю, определить положение ноля при подключении в обесточенную розетку должно быть возможно.

Мы разок вообще в сервис бесперебойник потащили, ругаться как же так - нулёвый, только из коробки, ИБП отказывается работать!
Он причём так невнятно на экране пишет, типа "проверьте питающий кабель" или как-то так. Ну проверили. В нём 220. не расшатанный :D

Как-то до этого у нас все итоны были либо трехфазными, либо однофазными большими, без вилки, и тогда там уже однозначно L и N подписаны.

ЕЁ РАЗОРВАЛО В ХЛАМ!

Или вы про другую?

Там вроде одну разорвало, вторая где-то выжила. Мне интересно, была ли в этом посте где-нибудь крыса, в каком-нибудь сервере, например ;)

UFO just landed and posted this here
Запас комплектующих на складе производителя на весь срок жизни сервера греет душу. С другой стороны все эти дополнительные процессоры, память, диски, контроллеры, хранящиеся годами — замороженные немалые средства, косвенно учтённые в стоимости сервера. Кажется Dell'у когда-то удалось запрыгнуть в серверный сегмент именно за счёт оптимизации логистики при отсутствии складов.

Спасибо за нарядные истории.
С другой стороны все эти дополнительные процессоры, память, диски, контроллеры, хранящиеся годами — замороженные немалые средства, косвенно учтённые в стоимости сервера.
А отсутствие ЗиП, когда он срочно нужен — это эпически просранные полимеры и ещё более немалый ущерб. И совершенно непонятно — что делать?
«Мы подготовили и расставили все диски». Вам это удалось, а владельцу не удалось. В чём разница? Почему вам удалось, а штатный сотрудник не сделал?
Возможно где-то были записаны серийники дисков в порядке установки. Или была нанесена маркировка на самих дисках. Штатному могло быть не до мелочей, если на него авторитетом давили.
Если знать про то, какие слоты для дисков горячей замены, проблемы нет: втыкаем любой диск в обычный незанятый слот, смотрит, загорается ли лампочка ошибки. Если нет, то GOTO 1, повторяем операцию со следующим слотом. Если да, вытаскиваем диск и GOTO 1.
Они бы и сами собрали, если бы не разница слотов.

Скорее прочитали сектора с заголовками дисков.

Изначально всё было просто: если разобрать старые логи массива парсером (а это VNX, там старые логи не удаляются) — можно вытащить правильное расположение. Непросто было убедить диски одной RG, у которых сигнатура, записанная на диск повредилась, что они все впятером из 1 RG, а не из трех разных.

«Никаких целых данных на нём больше нет». Как же удалось собрать данные в таком массиве?

Непростой вопрос для краткого ответа. Попробую объяснить: основная проблема понять, что повреждено, а что не очень, тут помог вендор, запустили проверку целостности девайсов, но она заняла без малого 12 суток! (мне немного надоело ходить к заказчику утром и вечером на 5 минут, чтобы убедиться, что ещё не всё). Большинство томов собралось более-менее консистентно, а действительно повреждённые были в реплике, ave SRDF. Учитывая дату события, на системе не было активности больше 4-х дней, так что файлы пользователей сохранились. В немалой степени нам повезло.

Склад роскошен и напоминает не то пещеру Аладдина, не то археологические раскопки. А голова у заказчика так и осталась в форме лампочки?

"два бортпитания — мне и контроллеру"

Что предпочёл контроллер?

Курицу или рыбу?

:)

Водку. Ему вообще чистый спирт полезен (В небольших количествах) :)

 HP вообще очень многие интересные проекты закрыл, потому что здесь и сейчас они не приносили денег или чего-то ещё — это были процессоры Альфа (DEC), кластеры VAX...

Да, это как раз было то время когда царицей HP была Карли Фиорина. В каждом офисе HP должены были висеть её портреты (кто помнит СССР, понимает о чем тут речь...) Потом царицу Фиорину из HP выгнали и она ушла в политику (официально, конечно, она просто перешла на работу, где её таланты были более востребованы). А потом, в 2016, она решила выдвинуть свою кандидатуру на пост царицы всего США... Х̶о̶р̶о̶ш̶о̶ ̶ч̶т̶о̶ ̶е̶ё̶ ̶п̶р̶о̶к̶а̶т̶и̶л̶и̶!̶ Выбрали Трампа...

Ох, как я люблю «ну мы тут диски потыкали и оно того...»(вернее я таких действительно люблю, т.к. после такого за восстановление данных люди готовы платить, а кушать хочется всегда).
Маленькая хранилка одним прекрасным утром обнаружила, что одному диску стало плохо и выплюнула его, прописав на почту, что «this disk is now ex-disk», спокойно подобрала hotspare и начала на него восстанавливаться (RAID50), одновременно, чтобы было видно, сменив цвет «лампочки» на оранжевый. Что сделали «мудрые» люди, увидев оранжевую лампаду? Прааавильно, начали дёргать диски (на горячую, оно же hotswap да и вообще что-то делать перед физическим отключением диска это не путь джЫдая), мол наверное «контакт отошел», в один прекрасный момент они дёрнули диски от разных пятёрок, и перепутали их местами. Результат немного предсказуем, маленькая хранилка отрапортовала на почту «your array is now ex-array» и сменила цвет лампочки на красный (попутно включив ещё кучку красных лампочек около дисков). Результат — дёргатели остались на белой части зп, дверь в серверную таки подключили к СКУД-у, местный админ очень долго икал, но данные частично удалось восстановить.
Прааавильно, начали дёргать диски (на горячую, оно же hotswap да и вообще что-то делать перед физическим отключением диска это не путь джЫдая), мол наверное «контакт отошел»

Пфф, когда-то видел статистику вендора по отказам дисковых систем, так там в тройке лидеров была «когда нужно было поменять сломавшийся диск, не тот диск выдернули».

RAID50? Это ахтунг! Что только люди не придумают чтобы не сделать всё сразу и по-человечески. Почему нельзя тупо "нарезать" зеркал, а уже на уровне ОС объединять их в бОльшие массивы, или вообще планировать дробное размещение размещение данных? На месте вендоров я бы эти самые RAID5 и все остальные гибридные массивы убрал бы из поддержки совсем и безвозвратно. Абсолютно везде где я встречался с чем-то отличным от RAID1 - везде были проблемы, начинавшиеся с затянувшегося на пару недель ребьюлда, а кончавшиеся выходом из строя остальных дисков с последующей потерей данных. А потом ойой - вы все плохие, ваш сервер сдох.

Добро пожаловать в реальность, я и RAID5 на 16 дисках наблюдал (к сожалению того, кто этот массив собрал я лицезреть не смог, а очень хотелось повесить в рамочку «идиёт года»). Лично я очень благодарен вендорам за RAID50 и прочие гибриды, поскольку RADI50 на 10+ дисках вполне себе живёт и даже переносит ребилды, а вот RAID5 — нет.

Ради интереса к RAID50 я даже взгуглнул:

(+): высокая скорость передачи данных и обработки запросов.

(+): хорошая скорость восстановления данных и стойкость при отказе.

(-): требуется, как минимум, 6 дисков.

...и ужаснулся - в одном флаконе собраны сразу два костыля - абсолютная ненадёжность RAID0, и ненадёжность (еще одна!) и медлительность RAID5. Всё псевдобыстродействие страйпа улетучивается с использованием тормознутого RAID5. Кем надо быть чтобы :

во-первых придумать такое?

во-вторых - додуматься пользовать "это" в проде.

...и убедился - зеркало и только зеркало!!! - самое простое и надежное. Да, оферхэд, особенно если уже больше 2-х пар дисков. Да, велик соблазн весь этот оверхэд заюзать. Но в итоге надежнее просто докупить пару дисков и сделать еще одно зеркало и фиг с ним с оверхэдом. По крайней мере если разбивается одно из зеркал - страдает от этого только это разбитое зеркало, а не весь массив - с вытекающими последствиями в виде тормозов и рисков потерять еще диски за время ребьюлда.

У нас в далеком 2004м собрали RAID5 на 20 дисках +4 hotspare. Массив проработал 4 дня, не выдержав стартового переноса данных с предыдущего хранилища.

Под нагрузкой сдох диск — я был тогда ещё эникеем и не был допущен к расследованию, не могу сказать, было что-то не то с дисками как целым или нет. Массив начал ребилдиться на одну из хотспар, помер второй. Собственно нашим был урок от жадности :D

Звучит как бракованная партия дисков, собственно из-за подобных явлений и рекомендуется брать диски из разных партий. Осталось только найти 24 диска из попарно разных партий...

"Элементарно, Ватсон!" - видел подобную картину, когда "российский производитель серверов" (надеюсь, уже не являющийся "производителем" - лет 10 не попадается на глаза его реклама) отгрузил "SAS-полку", начинённую SATA-хардами линейки "AS" - заказчик даже смог (с не первой, как потом выяснилось, попытки) на ней собрать RAID 5E, и даже около года на нём проработал... благо, диски были маленького объёма (гигов по 80) и "за мзду малую" я смог софтово пересобрать выпавший в offline массив с минимальными потерями.

Тёплые ламповые истории КРОКа о том как кто то на праздники летел через всю страну - всегда радуют. А как удается договариваться с транспортной безопасностью аэропортов? По работе тоже частенько вожу всякое, но не получается контакт налаживать...

Это просто. Показываешь бумажку с большой надписью «ФСБ РФ» и безопасники сами от тебя бегают. То, что бумажка подписана всего лишь командиром погранчасти — это не важно уже. Её никто и не читал, главное — логотип и печать на месте.

Железка — та, что на фото справа. Там корпус из 5-миллиметровой стали, чтобы пару кубов забортной воды не помяло. Так что обычно просят развинтить, назначение каждой микросхемы объяснить…
Фото
image
Могу спросить у конструктора, но скорее всего ничего не будет. На судне кабель питания зачастую тоже примерно так изогнут. Это ж корабельная техника, пару кубов водно-ледовой смеси для неё штатно, а уж кабель забортного питания… Скорее всего эти кабели просто физически нельзя загнуть на тот радиус, который был бы им вреден.

Это P-серия блейдов HP. Я видел её только в лабораториях и в ЗИПе, но никогда — в проде. Никто из моих знакомых и коллег тоже не видел её в проде. Если вы вдруг знаете, с чем она конкурировала и для чего была незаменима, — скажите, пожалуйста, но вместо неё в проде всегда стояло что-то другое. Но такая штука существовала, вот доказательство.

Я никогда не видел ее вживую в проде, но точно знаю компанию которая их так использовала

Это BL20PG2. На Xeon-ах, но судя по свидетельствам там были и BL25P, на оптеронах, что выглядит совсем уж дикой дичью =)

Он уже лет пять как мертв. Поздновато вы.
Или вот другая история произошла пару лет спустя — кабель (уже питания) свисал из сервера, и втыкание его обратно вызвало очень быструю цепочку событий, которые привели к отключению подстанции.


Любопытно, почему включение сервера в сеть привело к отключению подстанции?
Сервер управлял этой подстанцией или это вопрос какой-то перегрузки?

Я понимаю так, что произошло примерно следующее: сервер был отключен от питания, но не от локальной сети или сети управления, после его включения сработал или wake-on-lan или настройка БИОС и он пошел загружаться, вызвал конфликт IP-адресов или конфликт команд управления из-за двух одновременно комплектов работающего управляющего ПО, ну и что-то нехорошее передал на подстанцию, очего она вырубилась.

Вы правы, скорее всего. Иначе, сразу было бы понятно, что-то не так, по мгновенно сгоревшему кабелю или автоматам.

Расскажу свою "байку" про слабоумие и отвагу. Собираю слаботочный щиток для видеонаблюдения. Раскладываю все по местам: роутер, видеорегистратор с жестким диском, пое-коммутатор, блоки питания. Случайно путаю два штекера, и вставляю тот, что от блока питания пое-коммутатора (53В) в видеорегистратор, рассчитанный на 12В, поскольку они абсолютно одинакового типа и размера. Поскольку все на этапе сборки, ни один прибор к питанию не подключен. Но это меня не спасает, - остаточный заряд, накопленный в конденсаторах блока питания убивает мне и видеорегистратор (4т.р.) и жесткий диск WD Red Plus 4Tb (10т.р.). Причем, диск я взял первый попавшийся под руку, и не собирался его вообще включать, просто хотел прикинуть все по размерам. Как назло, это оказался диск с ценными данными (семейный фото-видео архив), бекап для которого я, конечно же, своевременно не сделал.
Слава богу, в диске пробило по линии питания (12В), а не по линии данных (5В). Ремонт обошелся в 6500р (как сказал мастер, - половина рыночной цены девайса), данные не пострадали.
Регистратор, как мне сказали, проще купить новый.
Вот так цепь случайных действий, каждое из которых вполне "безобидное", привела к неприятностям. Мне еще повезло, - если бы пострадали узлы внутри гермоблока HDD,то для восстановления данных пришлось бы принести в жертву еще пару таких дисков.
Этот жизненный урок стоил мне 10т.р. и нескольких клок выдранных волос ниже спины.

Спасибо, Саша, знатно поностальгировал. Будет время и свои байки из тех и еще более ранних времен напишу) Была романтика в северном и схдшном железе

Cуперски, по ностальгировал!

P.S. Для знающих: у меня раз на машине с масивом фраза всплыла "One half".

Он же DrWeb'ом отлично расшифровывался! Главное не "вылечить" тело в загрузчике, содержащее ключ шифрования до расшифровки... Наши как раз дипломы писали, когда эпидемия пошла...

Вот хуже было с более поздней заразой, "Win95 CIH" или "ВинЧих", из начала нулевых, которая BIOS запарывала и первые несколько мегабайт на харде нулями переписывала, а удобных утилит восстановления тогда ещё не было (была пара утилей, но они кириллицу не любили). Микросхемы BIOS, со всех знакомых, я тогда на работу чуть не пригоршнями носил к нечастому на тот момент прибору - программатору.

Он же DrWeb'ом отлично расшифровывался!

Только пока он не успел "зашифровать" нулевой сектор, в котором хранится ключ расшифровки. После того как он он это сделал — расшифровка диска перестаёт быть тривиальным занятием и становится статистической угадайкой.

Сколько помню, "половинка" шифровала небольшие куски диска при каждом включении - визуально - пара секунд задержки перед появлением загрузочного меню DOS/Win95, у кого оно было (а было оно у многих), а надпись "дис из ванхалф" появлялась, когда зашифрованными становилась половина объёма диска. Ну, по крайней мере мне, из полутора десятков "пациентов" ни одного невосстановимого не попалось. А вот про харды, у которых какой-нибудь "дискинфоскоп" или другой антивирус/ревизор удалил из загрузочной области тело вируса вместе с ключём расшифровки - читать доводилось.

Интересно, как можно отказаться открывать коробки в аэропорту? Оборудование ведь вряд ли фоточувствительное едет. Просвечивать - ладно. Ну и что, что 40-60 тыс. зелени в бумажке сопроводительной написано? Самолет и пассажиры всяко дороже стоят в случае бонбы, проехавшей на борт.

Чуть выше описал, как я ехал из бумажкой, на которой написано «ФСБ РФ» Было бы надо — мог бы и не просвечивать. Но нашей железке пофиг.

Интересно, а в каком месте сервера или СХД может использоваться контроллер, который на картинке?

(если что, у нас на складе исовые мультипортовки тоже лежат... мы ничего не выбрасываем, но наши всё же моложе 1992 года)

Скорее всего, это от упомянутой недалеко в тексте "486-й АСУ ТП" - порты управления каким-нибудь "хитрым оборудованием" - чего я только не насмотрелся в котельных и кондиционерных пристройках - от совсем аналоговых панелей до интерактивных мониторов на резистивных матрицах, под управлением "странных железных ящиков", пишущих при загрузке "VIA TM CPU 667 GHz"...

>Собственно, он как был железкой смутного назначения, так и остался, только теперь на новых написано Lenovo.

Да ладно? Сейчас это называется IBM System z - мейнфреймы от IBM. Выпускаются и развиваются активно до сих пор. Наследники System/370 System/390.

Есть еще бывшие eServer iSeries - ныне IBM System i, наследники System/36 System/38 AS/400 Позиционируются как middleware и тоже активно развиваются и выпускаются.

Отличная статья!

Помню, как мы смеялись ещё раньше над сановскими кодами ошибок про космическое излучение, но вот пригодились же.

А расскажите про это подробнее.

В службу поддержки HP как-то поступил вопрос: «Как можно извлечь картридж из стримера?»
Ответили, что нужно нажать на кнопку на лицевой панели.
Следующим вопросом был: «А что делать, если стример находится на орбите?»
Возможно и у контроллеров упомянутого типа был подобный опыт.

Тут особо не о чем рассказывать, когда-то давно, как уже писалось в посте, я занимался обслуживанием серверов компании Sun. Как-то раз вечером более опытные коллеги обсуждали то-ли ответ вендора по кейсу, то-ли из взятые из документации описания кодов ошибок, где прям дословно говорилось, что причина сбоя чипов — cosmic rays. На детали я тогда внимания не обратил, но само обсуждение запомнил. Тогда же вспоминали забавную инструкцию для топовой ленточной библиотеки, которую продавал через себя Sun microsystems, инструкция называлась в стиле: «Что делать, если вас заперли внутри».

Интересные байки. Благодарю.

Перевозил как-то маршрутизатор плюс IDS из Петербурга в Калининград в салоне самолета.

Цена конечно не 60т.$, но тоже эпично было.
Стойки с массивами так же возили, стену как-то в ЦОДе разбирали - иначе никак не занести, но полы выдерживали.

Как же блин поэтично про "Крик" вышло! Не думал о такой трактовке...

UFO just landed and posted this here
А что вы делаете с оборудованием, которое совсем-совсем вышло из употребления? Неужели выбрасываете на помойку или уничтожаете? Есть у вас какой-нибудь подшефный музей электронной техники?

Не помню конкретную модель, но Саны использовались как серверы с ORACLE + ORACLE FORMS в банке. Конкуренция была в том, что тогда ORACLE был SUN. Обеспечивал в общем то легкую разработку и деплоймент по меркам динозавровой эпохи.

Sign up to leave a comment.