Ошибки и проблемы серверов большой тройки: часть первая. Dell

    Занимаясь восстановленными (refurbished) серверами, мы накопили приличный опыт общения с проблемами разных брендов, которым хотим поделиться на примере машин большой тройки: Dell, HP и IBM. Чтобы никому не было обидно, мы пойдём в алфавитном порядке.



    В этом посте мы собрали отзывы наших инженеров, которые имеют большой опыт в диагностировании, восстановлении и обслуживании серверов — каждая описанная ошибка решалась их потом и кровью. Эта информация не пригодится вам в случае, если вы обслуживаетесь по гарантии, но, тем не менее, может быть полезна.

    Обновление ПО


    Проблема при обновлении ПО актуальна для оборудования DELL старше 3-5 лет. Напомним, что все манипуляции с сервером Dell производятся при помощи Lifecycle, которая встроена в программное обеспечение сервера, а также iDRAC.

    Интегрированный контроллер удаленного доступа Dell 7 (iDRAC7) — программное обеспечение для серверов Dell, которое удаленно подключается к серверу, даже если у сервера нет питания, но подключен интернет и блок питания. При подключении к серверу, ПО выводит на экран данные о состоянии системы, а также позволяет протестировать и обновить все компонентами: начиная от биоса и заканчивая драйверами на материнскую плату, блоки питания и т. д., а также прошивку.

    Здесь, при стандартном сценарии, есть два варианта. Первый, обновление в ручном режиме, с флеш-карты — в случае, если нет подключенного к серверу интернета. Тогда заходим в Lifecycle и обновляемся с флеш-накопителя. Если что-то не пошло, подключаем сервер к интернету и обновляемся, либо заходим через iDRAC и восстанавливаем первоначальные настройки, устанавливаем необходимые обновления.

    Однако, если сервер достаточно старый, проблемы ждут почти сразу: при попытке установить программное обеспечение через Интернет из системы обновления и диагностики Lifecycle. Причина такой проблемы в том, что производитель изначально, ещё на заре этой системы, не использовал протокол защиты на FTP — сервере обновления прошивок компонентов своих серверов. Сейчас, когда такие сертификаты защиты введены, старое оборудование трёх-пятилетней давности выпуска иногда с трудом может обновиться через Интернет.

    Решается проблема достаточно просто и многие из вас уже наверняка догадались, как это можно сделать: обновить ПО, а именно Lifecycle, но сначала обновите систему IDRAC. Обновления доступны бесплатно на официальном сайте техподдержки Dell. (Проверка гарантии и скачивание обновлений на ваш сервер Dell).

    После этой манипуляции вы сможете удобно загрузить все драйверы и остальные обновления через Интернет, вне зависимости от года выпуска вашего сервера — если, конечно, на сайте производителя есть для него набор обновлений.

    Ошибка обновления iDRAC


    Напомним, что iDRAC представлен в вариантах «стандартный», «экспресс» и «enterprise». Стандарт идёт в комплекте при покупке сервера. Если заказываем комплектацию «экспресс», то на материнскую плату сервера нам ставят соответствующую лицензионную микросхему. Таким образом, мы получаем новый порт, который позволяет нам получать более информативные данные через Web.

    При стандартной лицензии, когда мы на рабочем компьютере подключаемся через браузер к системе iDRAC, мы можем увидеть обзор информации о системе на стандартной вкладке, сервис-тег сервера, модель и не более того.



    Через экспресс, т. е. если у нас 7 версия iDRAC, мы уже можем обновлять BIOS, Lifecycle, и т.д. непосредственно через систему удалённого доступа iDRAC. В ранних версиях системы, к сожалению, эта возможность не предусмотрена: там можно обновляться только через флеш-накопитель.

    Enterprise – самый полный комплект доступных функций по управлению сервером через порт iDRAC, который позволяет полноценно отслеживать и обновления, и полный список компонентов, и текущее состояние сервера. Это удобный и функциональный комплект, но мы сумели найти в нём один небольшой, но существенный недостаток.

    После обновления версии iDRAC Enterprise 1.30.30 либо 1.45.45, система перестаёт инициализироваться и не стартует из-за неправильных настроек. Как результат, если мы входим в iDRAC в настройках через BIOS, мы не можем его ни отключить, ни что бы то ни было предпринять для того, чтобы восстановить его или перезагрузить.

    Для большинства пользователей, единственный выход в такой ситуации, это обращение в техподдержку. Если ваш сервер на гарантии, то специалисты приедут и заменят материнскую плату. Мы, в свою очередь, сталкивались с этой проблемой и, как ни странно, помогло вполне стандартное решение, описанное на официальном форуме Dell: сервер пришлось обесточить на 5 минут, вытащить блоки питания и отключить все провода. Правда, если это не помогло, то вам, всё же, придётся заменить материнскую плату.

    Ошибка Е1410


    Ошибка Е1410 выдаётся после апгрейда: вы добавили ещё один процессор, но с ним сервер почему-то не стартует. Вернее, он включается, индикаторы попеременно загораются, он громко шумит, но при этом на экране ничего нет и пишет ошибку на дисплее диагностической панели.



    Проблема в данном случае заключается в том, что на сокете CPU 1, загнуты ножки сокета, которые прилегают к процессору – либо одна, либо сразу несколько. На изображении вы видите исправные ножки сокета (слева) и место, где они загнуты (справа). Ножки можно вручную выправить, на этом проблема будет исчерпана.

    Как вы уже догадались, при данной ошибке второй процессор не стартует потому, что часть функциональности первого процессора оказалась отключена. Какая именно? Вариантов может быть множество, одни из них: либо это ножки отвечающие за старт второго процессора, либо блок оперативной памяти не стартует от второго процессора. Это зависит от того, какая ножка загнута.

    Некорректная установка оперативной памяти


    Проблема часто встречается при апгрейде. В данном случае речь идёт целиком и полностью о человеческом факторе. Однако ошибка эта крайне распространена в силу того, что на каждую модель присутствует своя спецификация по установке. Во-первых, в зависимости от модели, почти в каждом сервере разное количество портов. Соответственно, определённое количество оперативки нужно добавлять в свои порты. Иногда задача усложняется многократно: например, у модели DELL R610 оперативная память трехканальная, поэтому необходимо добавлять по три планки на один канал. Легко можно ошибиться, выбирая из 12 слотов и 4 каналов.

    Память типа DDR3 интерфейс состоит из трех каналов до двух модулей Rdimm или UDIMMs на канал
    для одиночного или двойного ранга и до двух модулей Rdimm на канал для квадра ранга. Интерфейс использует 2 ГБ, 4 ГБ, 8 ГБ или 16 ГБ модулей Rdimm. Также поддерживается 1 ГБ или 2 ГБ UDIMMs.

    Поэтому часто получается при неверном расчете памяти одна из планок или несколько установлены в неверные слоты, либо вовсе не хватает для оптимальной конфигурации.

    Второй момент, часто приводящий к несовпадению по оперативной памяти заключается в том, что память для серверов подразделяется по питанию на 1,35 V и 1,5 V. Оперативка 1,35 вольт стартует только на начиная с 56-й версии процессора. На более ранних версиях серверов можно использовать только планки, рассчитанные на 1,5 вольт. Если в сервере будут стоять разные планки, то он не запустится и выдаст соответствующую ошибку.

    Выглядит это таким же образом как в случае с загнутыми сокетами и ошибкой запуска второго процессора. Если ошибки на экране дисплея не отображается, сервер пишет “Server is booting...” и на экране ничего не отображается, попробуйте проверить конфигурацию памяти. Замените память в соответствии со спеками и установите в правильные слоты, чтобы получить оптимальную конфигурацию.

    Преимущества серверов Dell


    Справедливости ради хотелось бы закончить статью, поговорив о плюсах серверов Dell. А они, по нашему мнению, полностью нивелируют те проблемы, которые мы описали выше. Ведь, в первую очередь, эти проблемы встречаются при реконфигурации серверов.

    • Сервер «как-он-есть» от Dell, пожалуй, наиболее беспроблемный и удобный для всех действий с серверами. Это первое, что мы можем сказать на основе нашего опыта.
    • Так же у Dell есть поддержка мощнейших процессоров на данный момент: как поколения Е3 так и Е5, до 12-ядерных процессоров (R720, R720XD).
    • Холодный старт сервера у Dell намного быстрее других вендоров большой тройки.
    • В серверах Dell большой выбор корзин для подключения HDD дисков – 2,5 дюйма и 3,5 дюйма, в которые можно подключить до 12 HDD (в случае с R720XD). С переходниками можно подключать SSD диски. На 3,5 дюйма существуют корзины на 4, 6, 8, 12 дисков, а на 2,5 дюйма — до 8.
    • Почти во всех моделях Dell присутствует возможность подключения резервных блоков питания.
    • Техподдержка на заявки реагирует очень быстро.
    • Поэтому, несмотря на то, что серверы Dell чуточку дороже аналогов от других поставщиков, инвестиции вложенные в эти сервера оправдываются.

    Надеемся, что наша статья поможет вам при апгрейде, диагностике и приобретении б/у-сервера. Остались вопросы? Пишите в комментариях.

    Сервер Молл

    68,46

    серверы HP, Dell и Lenovo: новые и восстановленные

    Поделиться публикацией
    Комментарии 18
      0
      Если обновлять через Lifecycle, то, как мне кажется, удобней всего подсовывать образ с прошивками, созданный с помощью Dell Repository Manager Data Center.
      А, если Lifecycle глючит, то через iDRAC обновить сам Lifecycle с помощью LifeCycle Controller Repair Package (бывает не срабатывает с первого раза — не сдавайтесь!).

      В целом, если сервер под ОС Linux (Windows тоже поддерживается, но не FreeBSD), то удобней осуществить обновление прошивок из операционной системы, перезагрузившись один раз после установки новой версии BIOS.

      Ваше начинание хорошее, но конкретики мало.
        +2
        Хорошие варианты! Но пару раз у нас было, что после обновления Lifecycle через iDRAC отваливался намертво сам iDRAC. И один раз сервер без ОСи не заводился после кривого обновления Lifecycle, при этом iDRAC работал, но отказывался подкачивать с флешки образы с прошивкой. Из под ОСи очень редко что-то делаем.
        А по поводу конкретики: это пока разобрали только наиболее часто встречающиеся проблемы. По мере накопления ошибок и решений будем делиться информацией.
          0
          Хм. У нас, если и отваливался Lifecycle, то при загрузке сервера об этом можно было прочесть на экране, но чтобы из-за этого клинило сам iDRAC или сервер не включался…
          Как вариант, в следующий раз предлагаю попробовать из ОС передёрнуть iDRAC ipmitool'ом — тоже помогало неоднократно.
          Про конкретику я говорил как раз применимо к тем проблемам, которые вы описали, т.к. путей их решения больше и написано недостаточно подробно, чтобы сразу понять новичку (вроде бы для них материал написан).
          В общем, когда руки дойдут перебрать наши материалы из Confluence и выложить в блог, то покажу на примере, о чём я.

          p.s. в целом, серверы Dell из A-брендов наиболее интересны по соотношению цена/качество/производительность/поддержка.
            0
            Такое же было сразу с двумя машинами ( PowerEdge R420 ). Что порадовало, так это оперативность поддержки. На 3-й день с момента обращения приехал техник с материнками и за 10 минут всё поменял.
          0
          Какая ещё IBM? :-)

          А вообще интересно, ждём продолжения.
            0
            ИМХО, выбор серверного обеспечения уже давно остался за рамками технических особенностей железки. Тут уже надо полагатся на сколько гибко интегрируется то или иное решение в существующию инфраструктуру.
              0
              Я бы добавил к плюсам:
              1. Самые низкие цены среди большой тройки.
              2. Загрузки доступны без регистрации и SMS, в отличии от HP и IBM.
              3. Максимально стандартное и унифицированное железо.
              4. Оперативное обновление своего образа VMware ESXi и его регулярная пересборка с патчами. Тут немного выигрывает HP, но они вместо пересборки образов отдают обновления через репозиторий для VUM.

              Из проблем: сталкивался с пропадением сети после обновления прошивок NICов, помогло повтороное их обновление из CentOS по совету поддержки. И недавно угробил один БП во время обновления их прошивок (да, прошивок БП), причем так и не понял — сам не дождался завершения процесса или из-за разных P/N с одной мощностью. Заменили без вопросов.
                0
                над первыми 3 пунктами смеется супермирка. 4 — ну наверное да, только зачем кому то нужна ESXI в конце 2015 года я не понимаю.
                  0
                  Можете пояснить чем вас не устраивает ESXi? Интерес не праздный. Изредка приходится сталкиваться с клиентами, у которых стоит ESXi и несмотря на то, что вроде бы система вполне себе энтерпрайзная, с ней очень тяжело работать. Тормоза, проблемы, сложности с миграцией и бекапами. Серьезных плюсов с легковесной оберткой над KVM/OpenVZ в виде Proxmox не заметил. Напомню, говорим про фактически одиночные сервера. С фермой ESXi машин я еще не работал.

                  Спасибо за комментарий.
                    0
                    так вы же сами и отвечаете на свой вопрос.
                      0
                      ESXi в случае единичной машины бесполезен.
                      В случае фермы альтернативы по возможностям, поддержке производителями железа и сопутствующего софта (бэкап, балансеры, вирт. коммутаторы) особон не наблюдается.
                        0
                        В единичном экземпляре он приятнее Hyper-V — есть проброс USB, встроенный мониторинг производительности, реже обновляется и не нужен комп с Windows 10 8.1 для управления. Сейчас активно пилят встроенный клиент на HTML5 для ESXi 6.
                        Но для бекапов требуется лицензия, цены на которую начинаются от 45 тыр за 3 хоста (AnywhereUSB стоит от 35 тыр), а при росте потребностей придётся заплатить существенно больше.
                          0
                          Не работал плотно с Hyper-V, поэтому не берусь судить. В случае единичной машины есть вариант использовать XenServer (бесплатно) — правда «официального» проброса USB там нет. Ну или kvm и proxmox.
                          Кстати web-версия vShpere появилась, емнип, в 5.5 или 5.6
                          Для бэкапов лицензию требуется не только ESXi, тот же XenServer вполне — это, скорее, политика производителей бэкап-софта.
                            0
                            Кстати web-версия vShpere появилась, емнип, в 5.5 или 5.6

                            По ссылке клиент для самого хоста, который должен заменить старый клиент на C#. Ему vCenter не нужен, да и там сейчас флешевый ужас.
                            это, скорее, политика производителей бэкап-софта

                            Про XenServer не знаю, а у ESXi в бесплатной версии заблокированы некоторые API, в том числе для бекапа.
                              0
                              По ссылке клиент для самого хоста, который должен заменить старый клиент на C#. Ему vCenter не нужен, да и там сейчас флешевый ужас.

                              Это да, увы :)

                              Про XenServer не знаю, а у ESXi в бесплатной версии заблокированы некоторые API, в том числе для бекапа.

                              Я как раз работал с бесплатной версией XenServer и почти не работал с ESXi (у нас его админят VI-админы). Так вот, у XenServer, емнип, нельзя объединять хосты в кластер и делать live migration между ними. Наверняка еще есть какие-то ограничения, но сталкиваться на практике с ними не приходилось.
                  0
                  Раз уж упомянули IBM надо было и Oracle помянуть
                    0
                    Какой IBM? Lenovo же!
                    +1
                    Уважаемый автор, вы напрасно поместили этот пост в хаб «Серверная оптимизация», восстановление железа не имеет к его тематике ни малейшего отношения.

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое