Технологии обеспечения максимальной надежности (RAS) для оперативной памяти в серверах / Хабр

Технологии обеспечения максимальной надежности (RAS) для оперативной памяти в серверах HPE ProLiant и HPE Synergy Gen10 Plus с процессорами Intel Xeon Scalable

Сбои в оперативной памяти, могут привести к возникновению существенных инцидентов и даже сбоям сервера. Современные серверы оснащаются всё большими объемами оперативной памяти и вероятность отказа устройств памяти увеличивается пропорционально. Поскольку отказы устройств оперативной памяти являются одними из наиболее частых типов отказов серверов (помимо отказов устройств хранения), серверы HPE ProLiant Gen10 Plus с современными процессорами Intel Xeon Scalable предоставляют наиболее полный набор функций обеспечения надежности, доступности и удобства обслуживания (RAS) памяти, разделенных на следующие категории:

обнаружение и исправление ошибок;
резервирование и отказоустойчивость;
техническое обслуживание.

В этом документе представлен краткий обзор некоторых технологий обеспечения максимальной надёжности (RAS – Reliability, Availability, Serviceability) для оперативной памяти в серверах HPE ProLiant Gen10 Plus, ключевых характеристик этих технологий, минимальных требований и способов их активации. Данная информация поможет вам выбрать наиболее подходящие технологии RAS для оперативной памяти, чтобы обеспечить необходимый уровень предоставления услуг центра обработки данных (ЦОД) для требовательных рабочих нагрузок, и в особенности для критически важных для бизнеса рабочих нагрузок.

Примечание

Этот документ посвящен исключительно функциям RAS для оперативной памяти сервера. В нем не рассматривается полный набор других технологий RAS в портфелях HPE ProLiant и HPE Synergy.

Зачем нужны технологии RAS для оперативной памяти

Время безотказной работы серверов по-прежнему остается одним из наиболее важных аспектов обслуживания ЦОД. К сожалению, при эксплуатации серверов могут возникать различные проблемы, например, с программным обеспечением, перебои в подаче электроэнергии или ошибки в оперативной памяти. Мы отслеживаем и управляем тремя основными категориями ошибок памяти: исправимыми (correctable errors), неисправимыми (uncorrectable errors) и восстановимыми (recoverable errors) ошибками. Определение того, какие ошибки можно исправить, а какие нет, полностью зависит от возможностей контроллера памяти.

Исправимые ошибки — это ошибки, которые могут быть обнаружены и исправлены набором микросхем. Исправимые ошибки являются однобитовыми. Все серверы HPE могут обнаруживать и исправлять однобитовые ошибки с помощью расширенного кода исправления ошибок (ECC). В системах HPE пользователь получает предупреждение о том, что в модуле DIMM превышен порог исправимых ошибок (максимальное количество исправимых ошибок, допустимое за определенный период времени), посредством индикаторов на передней панели, на системной плате (при наличии) или с помощью журнала HPE Integrated Management Log (IML).

Неисправимые ошибки — это ошибки, которые могут быть обнаружены, но не могут быть исправлены набором микросхем. Это всегда многобитовые ошибки памяти, они обязательно регистрируется в HPE IML. Неисправимые ошибки обычно можно изолировать до одного модуля DIMM. Как правило, неисправимые ошибки сразу приводят к сбою или отключению системы. Но в некоторых случаях благодаря поддержке ОС и процессорам с расширенными возможностями (Intel Xeon Platinum и Intel Xeon Gold) сбоя системы удается избежать. Мы называем это восстановимыми ошибками. Для получения дополнительных сведений о восстановлении работы после таких ошибок, необходима также поддержка со стороны операционной системы.

Ошибки памяти бывают двух типов: аппаратные (hard) и программные/случайные (soft).

Аппаратные ошибки обычно указывают на проблему с самим модулем DIMM. Хотя аппаратные исправимые ошибки исправляются системой и не приводят к простою системы или повреждению данных, они указывают на проблему с оборудованием. Из-за аппаратных ошибок в модуле DIMM может быть превышен допустимый для систем HPE порог ошибок и пользователь получит предупреждение об этих ошибках.
Программные/случайные ошибки не указывают на какие-либопроблемы с DIMM. Они возникают, когда биты данных и (или) биты ECC в DIMM неверны, но исчезают после исправления этих битов данных.
Программные/Случайные ошибки, как правило, не приводят к тому, что в модуле DIMM превышается пороговое значение исправимых ошибок, установленное для систем HPE, поэтому никаких признаков аппаратной проблемы не отображается.
Любая ошибка, если ее неправильно обработать, может в конечном итоге вызвать отключение системы. На заре появления серверов базового набора механизмов корректировки ошибок памяти (ECC) было достаточно для устранения большинства сбоев DRAM. Однако современные серверы существенно сложнее, поэтому для обеспечения ожидаемой стабильности и времени безотказной работы сервера необходимы дополнительные функции RAS. Важно отметить, что, избежав критического отказа памяти, можно избежать сбоя системы. Замена вышедших из строя устройств памяти осуществляется в рамках периодического обслуживания. Кроме того, технологии памяти RAS способны обнаруживать в слоте DIMM устройство памяти, в котором возникло много программных/случайных ошибок, и рекомендовать его замену до того, как произойдет аппаратный отказ.

RAS технологии для оперативной памяти в серверах HPE ProLiant и HPE Synergy

HPE Fast Fault Tolerance

Обзор

HPE Fast Fault Tolerance — новая технология обеспечения бесперебойной работы оперативной памяти, впервые представленная в серверах HPE ProLiant Gen10 Plus с процессорами Intel Xeon Scalable. Серверы с модулями памяти HPE SmartMemory и технологией HPE Fast Fault Tolerance предлагают дополнительный уровень защиты от простоев и сбоев серверов. HPE Fast Fault Tolerance, усовершенствованная версия адаптивной двойной коррекции ошибок (adaptive double device data Correction – ADDDC), является результатом сотрудничества Hewlett Packard Enterprise и Intel. По сравнению с ADDDC, технология HPE Fast Fault Tolerance имеет больший размер резервных областей (то есть части памяти, выделенной только для замены поврежденных участков памяти) и больше возможностей для определения дефектных секторов. Это позволяет обеспечить значительно большую надежность и доступность памяти по сравнению с остальными поставщиками, использующими только ADDDC.

Характеристики

В прошлых поколениях серверов HPE ProLiant самой передовой технологией защиты памяти была двойная коррекция данных устройства (DDDC). Основным недостатком было то, что эту функцию нужно было включать при загрузке и она значительно уменьшала пропускную способность памяти. Заказчикам приходилось выбирать между отказоустойчивостью и производительностью. HPE Fast Fault Tolerance обеспечивает значительное улучшение по сравнению с DDDC, поскольку объединяет преимущества производительности одинарной коррекции данных (SDDC) с доступностью двойной коррекции (DDDC). HPE Fast Fault Tolerance позволяет системе загружаться с полной производительностью памяти и блокирует только небольшие области (банки) памяти, когда это необходимо для исправления сбоев, что приводит к значительно более высокой производительности, чем у DDDC. Когда неисправный раздел больше банка, может наблюдаться несколько большее негативное влияние на производительность.

Краткие выводы

HPE Fast Fault Tolerance выдерживает до двух отказов DRAM (обнаружение и устранение).
Эта функция RAS сочетает в себе отказоустойчивость DDDC с производительностью SDDC.

Минимальные требования

На каждом заполненном канале должна использоваться как минимум одноранковая память. Кроме того, поддерживается только HPE SmartMemory с организацией x4.

Как включить HPE Fast Fault Tolerance

Функция HPE Fast Fault Tolerance по умолчанию включена для всех профилей рабочих нагрузок, кроме профиля с низкой задержкой.

HPE Fast Fault Tolerance можно включить или отключить на любом сервере HPE Gen10 Plus с
помощью

RBSU или HPE RESTful API. Чтобы изменить настройку по умолчанию в профиле
рабочей нагрузки, сначала необходимо выбрать нужный профиль рабочей нагрузки, а
затем изменить его на «Пользовательский» (Custom). На этом этапе функция HPE
Fast Fault Tolerance может быть соответственно включена или отключена в меню «Параметры памяти — расширенная защита памяти» (Memory Options — Advanced
Memory Protection).

Требования к конфигурации HPE Fast Fault Tolerance для каждой серии серверов могут отличаться, но поддержка ОС или специального программного обеспечения, помимо базовой системы ввода-вывода (BIOS), не требуется.

Функция HPE Fast Fault Tolerance активирована в RBSU

Технические требования

При выходе из строя области оперативной памяти DRAM будет наблюдаться минимальное снижение производительности, но лишь в небольшой части (наиболее распространенный размер — банк) модуля памяти. Никаких значительных потерь для нагрузок с произвольным доступом к памяти не ожидается, поскольку доступ к области памяти, находящейся в режиме блокировки, будет осуществляться нечасто. Потеря производительности может быть значительной только при наличии виртуальной блокировки всего ранка памяти (rank level virtual lockstep), или если приложение часто обращается к данной области памяти до замены модуля DIMM. Ожидается, что общее снижение пропускной способности при работе HPE Fast Fault Tolerance будет минимальным для подавляющего большинства заказчиков, однако это зависит от приложения, размера затронутой области и конфигурации памяти.

Поддержка расширенного ЕСС

Обзор

Стандартные механизмы ECC могут исправлять однобитовые и обнаруживать многобитовые ошибки памяти. При обнаружении многобитовых ошибок при использовании ECC, сигнал об ошибке передаётся серверу и сервер останавливается.

Расширенный ECC уже более двух десятилетий является схемой исправления ошибок по умолчанию в серверах HPE. Он защищает серверы не только от однобитовых, но и некоторых многобитовых ошибок памяти, в особенности возникающих в пределах одной микросхемы DRAM.

Расширенный ECC может исправить как однобитовые, так и 4-битовые ошибки памяти, если все вышедшие из строя биты находятся на одном устройстве DRAM в модуле DIMM. Расширенный ECC обеспечивает более высокий уровень защиты по сравнению со стандартным ECC, поскольку позволяет исправить определенные ошибки памяти, которые в противном случае не были бы исправлены и привели к сбою сервера. Когда модуль DIMM подаёт признаки скорого возможного выхода из строя или возрастает вероятность возникновения неисправимых ошибок в памяти, сервер отправляет уведомление, используя передовую технологию обнаружения ошибок памяти HPE.

Минимальные требования

Для поддержки расширенного ECC нет никаких особых правил заполнения памяти или настроек RBSU. Она включена по умолчанию на платформах, использующих процессоры Intel Xeon Scalable.

Как включить поддержку расширенного ЕСС

Поддержка расширенного ECC — это режим расширенной защиты памяти по умолчанию в RBSU > «Параметры памяти» (Memory Options).

Поддержка расширенного ECC — функция RBSU по умолчанию

Технические сведения

Хотя расширенный ECC обеспечивает защиту от сбоев, он способен надежно исправлять многобитовые ошибки, только если они возникают в пределах одной микросхемы DRAM. Расширенный ECC не обеспечивает возможности переключения (failover) при отказе. Если происходит отказ памяти, перед ее заменой систему необходимо выключить. Последние поколения серверов HPE ProLiant и HPE Synergy с процессорами Intel Xeon Scalable предлагают три уровня расширенной защиты памяти (включая HPE Fast Fault Tolerance), которые обеспечивают повышенную отказоустойчивость для приложений, требующих наивысшего уровня доступности.

Зеркалирование памяти с поддержкой расширенного ECC

Обзор

Зеркалирование памяти с поддержкой расширенного ECC обеспечивает защиту от некоторых неисправимых ошибок, которые в противном случае привели бы к отказу системы. Доступны два режима: поддержка полностью и частично зеркалированной памяти.

В режиме полностью зеркалированной памяти используется половина объема системной памяти для хранения одной копии всех данных.
Режим частично зеркалированной памяти дает возможность пользователю назначить меньший объем системной памяти для зеркалирования. Эта функция поддерживается продвинутыми версиями процессоров Intel Xeon Platinum и Gold.

Если в защищенной области зеркалированной памяти возникает неисправимая ошибка, система автоматически получает правильные данные из резервной копии. Система продолжает нормально работать без вмешательства пользователя. Обеспечивая дополнительное резервирование в подсистеме памяти, зеркалирование памяти гарантирует максимальную защиту от сбоев памяти, которые не исправляются с помощью ECC, SDDC, DDDC, ADDDC и Online Spare Memory.

Характеристики

При включении полностью зеркалированной памяти только половина установленной памяти может использоваться в качестве видимой для системы оперативной памяти. Поскольку полное зеркалирование памяти занимает 50 % объема установленной памяти, оно предназначено для серверных рабочих нагрузок, которым требуется наивысший уровень защиты от сбоев устройств памяти. Зеркалирование памяти имеет смысл рассматривать для тех рабочих нагрузок, где недопустим риск простоя и остановки сервера для плановой замены вышедших из строя модулей памяти.

Частичное зеркалирование памяти может быть настроено пользователем и поддерживает различные режимы:

настройка в ОС;
первые 4 ГБ памяти сервера.

Дополнительные сведений о поддержке частичного зеркалирования памяти можно получить у поставщика ОС.

Влияние зеркалирования памяти на производительность обычно невелико. Поскольку при частичном зеркалировании используется меньше памяти, стоимость его внедрения будет значительно ниже, чем у полного зеркалирования.

Минимальные требования

Третье поколение семейства процессоров Intel Xeon Scalable поддерживает четыре контроллера памяти на процессор. Каждый контроллер управляет двумя каналами памяти. При включении режима зеркалирования памяти, два канала, подключенные к одному контроллеру памяти, становятся зеркальной парой. Чтобы включить зеркалирование, эти каналы должны быть заполнены одинаково. Если модули DIMM установлены на нескольких парах каналов, заполнение каждой пары может отличаться от остальных — при условии, что оно является допустимым. Обратите внимание, что неоднородное заполнение будет иметь негативные последствия для производительности.

Схемы зеркалирования памяти для серверов HPE Proliant GEN 10 Plus

Серверы HPE DL360/DL380 Gen10 Plus Передняя часть сервер

Серверы HPE Apollo 4200 Gen10 Plus Передняя часть сервера

К частичному зеркалированию памяти применяются те же правила установки модулей памяти, что и к полному зеркалированию, поддерживаемому платформой.

Как включить зеркалирование памяти

Поддержку зеркалирования памяти с расширенным ECC можно включить в RBSU, выбрав этот параметр в меню «Расширенная защита памяти». Для полностью зеркалированной памяти заказчик назначает половину банков памяти как системную память, а остальные банки — как зеркальное отображение. Все банки памяти должны быть настроены идентично.

Функция зеркалированной памяти — включена в RBSU

Для настройки частичного зеркалирования в вариантах расширенной защиты памяти следует выбрать зеркальную память с расширенным ECC (Mirrored Memory with Advanced ECC), а в режимах зеркального отображения памяти — соответствующий параметр, как показано на рисунке ниже.

Частичное зеркалирование памяти — расширенная функция включена в RBSU

Примечание

Опция Partial Mirror (OS Configured) поддерживается только некоторыми ОС. За дополнительной информацией необходимо обращаться к поставщику ОС.

Технология Memory scrubbing (чистка памяти, патрульная и по требованию)

Обзор

Технология Memory scrubbing (чистка памяти) — это стандартная функция памяти RAS, которая предотвращает накопление случайных ошибок и, в конечном итоге, превращение их в неисправленную ошибку. Это достигается за счет упреждающей записи правильных данных обратно в память при каждом обнаружении ошибки. Иногда достаточно крупные области памяти подолгу остаются невостребованными, поскольку к ним не происходит обращения, и этом случае и возникает необходимость использования дополнительной чистки памяти. В современных системах есть два типа чистки: патрульная и по требованию. Оба варианта делают одно и то же, при обнаружении ошибки они исправляют ее в памяти. Существенная разница в том, как обнаруживается ошибка. Патрульная чистка — это, скорее, упреждающий поиск ошибок, постоянно возникающих в фоновом режиме, в то время как чистка по требованию происходит только тогда, когда память считывается ОС или приложением.

Характеристики

Когда функция патрульной чистки включена, она проактивно ищет в системной памяти исправимые ошибки и исправляет их. Это предотвращает накопление однобитовых ошибок, которые становятся неисправимыми, когда пороговое количество исправимых ошибок превышено или преобразовано в многобитовые ошибки. На каждый интегрированный контроллер памяти (IMC) приходится один механизм патрульной чистки.

Минимальные требования

Для патрульной чистки нет никаких особых правил заполнения памяти или настроек RBSU. Она включена по умолчанию на платформах процессоров Intel Xeon Scalable и может быть отключена пользователем. Чистка по запросу всегда включена по умолчанию и не может быть отключена.

Как включить патрульную чистку

Она включена по умолчанию в любом режиме расширенной защиты памяти, выбираемом в RBSU > «Параметры памяти» (Memory Options).

Технические требования

BIOS активирует механизм патрульной чистки во время загрузки и устанавливает интервал чистки. Чистка включает в себя следующее.

Один раз в день выполняется чтение каждой строки кэша для проверки ошибок.
При обнаружении ошибок правильные данные записываются обратно в память.

Патрульная чистка предназначена для того, чтобы исправимые ошибки не оставались в DRAM слишком долго и не могли объединиться с временной ошибкой, вызвав в результате неисправимую ошибку. Патрульная чистка работает во всех режимах памяти RAS, таких как расширенный ECC, зеркалирование или резервирование ранков, и помогает уменьшить количество неисправимых событий.

Спрос на серверы с большей емкостью памяти неуклонно растет. Это обусловлено все более сложными и требовательными к памяти приложениями и более мощными процессорами. Увеличение плотности и емкости памяти повышает вероятность ошибок, поэтому перед производителями серверов стоит задача не только удовлетворять потребность в большем объеме системной памяти, но и поддерживать ее надежность.

Компания Hewlett Packard Enterprise решает эту задачу, предлагая отказоустойчивые технологии защиты памяти, такие как Online Spare Memory (динамическое переключение в случае сбоя), зеркалирование памяти и HPE Fast Fault Tolerance. Функция Online Spare Memory полезна для заказчиков, которые не могут позволить себе простои из-за ошибок памяти, но могут дожидаться запланированной остановки сервера для замены вышедших из строя модулей памяти. Зеркалированная память обеспечивает более высокий уровень доступности и отказоустойчивости, гарантируя полную защиту от однобитовых и многобитовых ошибок. HPE Fast Fault Tolerance, новейшая технология, представленная в серверах HPE ProLiant и HPE Synergy Gen10 Plus с процессорами Intel Xeon Scalable, сочетает в себе значительно улучшенную надежность памяти и доступность для заказчика.

Эти передовые технологии защиты памяти HPE позволяют заказчикам выбирать систему с нужным уровнем доступности, чтобы повысить надежность конечного решения.

Официальный сайт HPE ⬝ Группа ВКонтакте ⬝ Telegram-канал

Технологии обеспечения максимальной надежности (RAS) для оперативной памяти в серверах

Технологии обеспечения максимальной надежности (RAS) для оперативной памяти в серверах HPE ProLiant и HPE Synergy Gen10 Plus с процессорами Intel Xeon Scalable

Зачем нужны технологии RAS для оперативной памяти

RAS технологии для оперативной памяти в серверах HPE ProLiant и HPE Synergy

HPE Fast Fault Tolerance

Поддержка расширенного ЕСС

Зеркалирование памяти с поддержкой расширенного ECC

Технология Memory scrubbing (чистка памяти, патрульная и по требованию)

Публикации

Информация