Согласно нашим наблюдениям, в последние годы в дополнение к традиционным бизнес-критичным задачам, работающим в окружениях Unix, всё большее количество приложений под управлением Linux и Windows входят в разряд критически важных для бизнеса наших заказчиков. Сторонние аналитики связывают эти изменения с рядом факторов, таких как изменение стиля IT, появление новых технологий – Cloud, Big Data, Mobility. Помимо этого не последнюю роль играет цена и большое количество приложений, написанных под системы x86.
При этом наблюдается неуклонный рост сегмента x86:
Отгрузки серверов x86 и non-x86 систем по данным IDC, 2014
Как результат, можно наблюдать зарождение нового сегмента рынка IT и все возрастающую потребность в системах mission critical x86, сочетающих в себе надежность и высокую доступность из мира Unix и стандартную архитектуру х86 (по данным аналитиков – 67% заказчиков требуют для своих бизнес-критичных задач уровень доступности 99.99% и выше).
67% организаций требуют уровень доступности своих бизнес приложений не ниже 99.99%, ITIC 2013
В 2011 году НР анонсировала проект Odyssey, который отражает стратегию развития вычислительных платформ для критически важных корпоративных приложений. Этот проект предусматривает расширение уже имеющегося и хорошо зарекомендовавшего себя набора решений этой категории, а также создание новой бизнес-критичной платформы на базе архитектуры х86.
Что с Itanium? Системы никуда не уходят, они востребованы нашими заказчиками, поэтому их развитие продолжается (подробнее о Superdome на Itanium).
В рамках проекта Odyssey НР переносит на архитектуру х86 часть своих технологий, интеллектуальную собственность и весь опыт, наработанный в течение десятилетий в области традиционных бизнес-критичных окружений HP-UX, OpenVMS и NonStop на базе Integrity, усиливая тем самым окружения Linux и Windows для решения критически важных задач наших пользователей. Это позволяет повысить производительность, масштабируемость, устойчивость к сбоям и общий уровень доступности в сравнении с современным рынком систем х86.
Результатом реализации проекта Odyssey явилась новая серверная платформа HP Superdome X, эта система предназначена для ресурсоемких критически важных нагрузок, но при этом спроектирована с использованием индустриально стандартной архитектуры х86. Одно из основных применений HP Superdome X – аналитические и транзакционные нагрузки. При этом заказчик получает высокую масштабируемость (до 16 процессоров в одной системе с 48 слотами памяти DIMM на каждом серверном блейде, до сих пор — это единственная система на рынке x86, обеспечивающая подобную масштабируемость).
Помимо большой масштабируемости каждый блейд сервер обладает высокой отказоустойчивостью: HP Superdome X унаследовал от Integrity Superdome набор специальных микросхем HP sx3000, резервные каналы передачи данных с автоматическим подтверждением завершения транзакции, надежную систему обнаружения ошибок и неисправностей.
Коммутация между узлами HP Superdome X выполнена по архитектуре Crossbar, её отличает:
• Повторная передача пакетов данных от начала до конца, в том числе и по резервным путям, для гарантированного завершения транзакции;
• Электрическая изоляция аппаратных разделов для максимальной гибкости, ремонтопригодности (независимое вкл/выкл питания) и физического обеспечения безопасности данных
Архитектура связи блейд-серверов в корзине HP Superdome X
Пропускная способность Crossbar составляет более 1.2TB/s, что позволяет использовать HP Superdome X даже для самых производительных задач. Совокупная пропускная способность, замеренная внутренними тестами, составляет более 1TB/s.
Важно заметить, что HP и Intel разрабатывали платформу совместно, результатом этого стало перенесение функционала RAS (resilience, availability, serviceability) с платформы Itanium на платформу Xeon E7.
Помимо этого шла активная работа с сообществом Linux, что позволило добавить поддержку RAS функционала в саму ОС Linux.
Внедрение RAS функционала в процессоры Intel E7, память сервера, его поддержка со стороны Linux OS в сочетании с микрокодом Firmware First позволило говорить об уровне доступности HP Superdome X на x86 99.999%+, сопоставимом с уровнем доступности RISC систем и превосходящим традиционные системы x86 (отчет компании ITIC, сравнивающий уровни доступности RISC и x86 систем, в отчете приведены цифры стоимости внепланового простоя):
Отчёт компании ITIC о доступности систем x86 в сравнении с традиционными RISC системами
Принципиальным отличием архитектуры Mission Critical x86 (MC x86) от традиционной архитектуры х86 является способ обработки ошибок и неисправностей. В обычной системе х86, после обнаружения некорректируемой ошибки на аппаратном уровне, системное ПО (firmware) останавливает работу операционной системы с целью избежать дальнейшего распространения ошибки и, в конечном счете, повреждения данных.
В отличие от этого в системе HP Superdome X в обработке ошибок главную роль играет специальный микрокод системы Firmware First. Архитектура процессоров E7v2 (Enhanced Machine Check Architecture) позволяет микрокоду системы HP Superdome X «изучать» логи ошибок и выполнять действия по устранению последствий этих ошибок еще до перехода их на уровень ОС и приложения.
Firmware First обрабатывает как корректируемые, так и некорректируемые ошибки в компонентах системы (Процессоры, память, ввод/вывод), также микрокодом выполняется сбор всех данных об произошедших инцидентах с целью их дальнейшего анализа администратором. Таким образом, система останавливает работу только отдельных затронутых ошибкой процессов и пытается обойти неисправность и восстановить работу уже на программном уровне системного ПО, ОС или даже приложения.
В случае невозможности продолжения работы, система инициирует автоматическую управляемую перезагрузку с дальнейшей реконфигурацией компонентов и сохранением полной информации об ошибке и состоянии модулей для отчета администратору. Такой механизм обработки неисправностей становится возможным только при тесной интеграции всех уровней системы – аппаратного обеспечения, firmware и операционной системы.
Функционал RAS, внедренный в HP Superdome X:
• Deconfiguration of failed or failing components (позволяет продолжить выполнять работу приложения и системы в случае проблемы с модулями памяти или CPU);
• Blade deconfiguration (позволяет продолжить работу приложения или системы в случае выхода из строя целого блейд-сервера в multi blade конфигурации);
• Corrupt data containment (режим, в котором данным, содержащим ошибку присваивается бит «Error Containment», после этого firmware и ОС применяют сценарии восстановления, включая UCNA, SRAO, SRAR. HP Superdome X поддерживает все эти сценарии);
• Live error containment (Отработка Firmware HP Superdome X ошибок ввода/вывода «на лету»);
• Viral error containment (режим, схожий по принципу работы с Corrupt data containment, отслеживающий фатальные ошибки адресации, и препятствующий их распространению в устройства ввода/вывода);
• Processor interconnect fault resiliency (все связи между CPU, включая QPI, интерконнект памяти и PCIe имеют избыточные пути с проверкой CRC и механизмом самовосстановления);
• Advanced MCA recovery (Отработка Firmware HP Superdome X ошибок памяти);
• Clock Redundancy (Дублирование генераторов тактовой частоты);
• Partition and error isolation (пассивный мидплейн, обеспечивающий электрическую излояцию блейд-серверов).
А может ли ваш производитель бизнес-критичного оборудования предложить такой функционал?
Во второй части цикла статей про HP Superdome X мы рассмотрим подробнее механизмы Advanced Error Recovery, Live Error Containment, Partition and Error Isolation.
Q1: Есть ли открытые тесты производительности системы HP Superdome X?
A1: Есть, HP Superdome X показал высокую производительность в стандартном тесте SPECjbb2013, первым среди систем x86 преодолев отметку в 1-млн jOPS.
Июнь 2014 | Ноябрь 2014 | Декабрь 2014
Тест SPEC CPU2006
Q: Я слышал, что с ростом количества процессоров в системе производительность растет не линейно, это так?
A: Да, при использовании стандартной архитектуры Intel это так, но в системе HP Superdome X при добавлении процессоров наблюдается почти линейный рост производительности благодаря использованию высокопроизводительной архитектуры Crossbar (фактор 1.92x при росте системы с 4 до 8 сокетов и фактор 1.86x при росте системы с 8 до 16 сокетов, подтверждение можно увидеть из результатов теста выше.
Q: Есть ли открытые внедрения системы HP Superdome X у российских заказчиков?
A: Есть, например, компания МТС.
Q: Есть ли цифры производительности HP Superdome X для баз данных?
A: Есть, например, для SQL 2014.
Q: А есть ли документы, показывающие испытание HP Superdome X на Oracle?
A: Да, есть на Oracle 12c, есть реальные заказчики, протестировавшие свои данные на HP Superdome X под Oracle, референсы не публичные, но цифры доступны при обсуждении.
Q: А поддерживается ли установка гипервизора на HP Superdome X?
A: Да, например, VMware, это можно проверить в матрице совместимости (http://www.vmware.com/resources/compatibility/search.php)
» Running Linux on BL920c Gen8
» Running Windows on HP Superdome X
» Running SQL 2014 on HP Superdome X – reference guide
» Лучшие практики по оптимизации производительности Superdome X в среде Linux: NUMA, энергопотребление, сеть, I/O
При этом наблюдается неуклонный рост сегмента x86:
Отгрузки серверов x86 и non-x86 систем по данным IDC, 2014
Как результат, можно наблюдать зарождение нового сегмента рынка IT и все возрастающую потребность в системах mission critical x86, сочетающих в себе надежность и высокую доступность из мира Unix и стандартную архитектуру х86 (по данным аналитиков – 67% заказчиков требуют для своих бизнес-критичных задач уровень доступности 99.99% и выше).
67% организаций требуют уровень доступности своих бизнес приложений не ниже 99.99%, ITIC 2013
В 2011 году НР анонсировала проект Odyssey, который отражает стратегию развития вычислительных платформ для критически важных корпоративных приложений. Этот проект предусматривает расширение уже имеющегося и хорошо зарекомендовавшего себя набора решений этой категории, а также создание новой бизнес-критичной платформы на базе архитектуры х86.
Что с Itanium? Системы никуда не уходят, они востребованы нашими заказчиками, поэтому их развитие продолжается (подробнее о Superdome на Itanium).
В рамках проекта Odyssey НР переносит на архитектуру х86 часть своих технологий, интеллектуальную собственность и весь опыт, наработанный в течение десятилетий в области традиционных бизнес-критичных окружений HP-UX, OpenVMS и NonStop на базе Integrity, усиливая тем самым окружения Linux и Windows для решения критически важных задач наших пользователей. Это позволяет повысить производительность, масштабируемость, устойчивость к сбоям и общий уровень доступности в сравнении с современным рынком систем х86.
Результатом реализации проекта Odyssey явилась новая серверная платформа HP Superdome X, эта система предназначена для ресурсоемких критически важных нагрузок, но при этом спроектирована с использованием индустриально стандартной архитектуры х86. Одно из основных применений HP Superdome X – аналитические и транзакционные нагрузки. При этом заказчик получает высокую масштабируемость (до 16 процессоров в одной системе с 48 слотами памяти DIMM на каждом серверном блейде, до сих пор — это единственная система на рынке x86, обеспечивающая подобную масштабируемость).
Помимо большой масштабируемости каждый блейд сервер обладает высокой отказоустойчивостью: HP Superdome X унаследовал от Integrity Superdome набор специальных микросхем HP sx3000, резервные каналы передачи данных с автоматическим подтверждением завершения транзакции, надежную систему обнаружения ошибок и неисправностей.
Коммутация между узлами HP Superdome X выполнена по архитектуре Crossbar, её отличает:
• Повторная передача пакетов данных от начала до конца, в том числе и по резервным путям, для гарантированного завершения транзакции;
• Электрическая изоляция аппаратных разделов для максимальной гибкости, ремонтопригодности (независимое вкл/выкл питания) и физического обеспечения безопасности данных
Архитектура связи блейд-серверов в корзине HP Superdome X
Пропускная способность Crossbar составляет более 1.2TB/s, что позволяет использовать HP Superdome X даже для самых производительных задач. Совокупная пропускная способность, замеренная внутренними тестами, составляет более 1TB/s.
Важно заметить, что HP и Intel разрабатывали платформу совместно, результатом этого стало перенесение функционала RAS (resilience, availability, serviceability) с платформы Itanium на платформу Xeon E7.
Помимо этого шла активная работа с сообществом Linux, что позволило добавить поддержку RAS функционала в саму ОС Linux.
Внедрение RAS функционала в процессоры Intel E7, память сервера, его поддержка со стороны Linux OS в сочетании с микрокодом Firmware First позволило говорить об уровне доступности HP Superdome X на x86 99.999%+, сопоставимом с уровнем доступности RISC систем и превосходящим традиционные системы x86 (отчет компании ITIC, сравнивающий уровни доступности RISC и x86 систем, в отчете приведены цифры стоимости внепланового простоя):
Отчёт компании ITIC о доступности систем x86 в сравнении с традиционными RISC системами
Принципиальным отличием архитектуры Mission Critical x86 (MC x86) от традиционной архитектуры х86 является способ обработки ошибок и неисправностей. В обычной системе х86, после обнаружения некорректируемой ошибки на аппаратном уровне, системное ПО (firmware) останавливает работу операционной системы с целью избежать дальнейшего распространения ошибки и, в конечном счете, повреждения данных.
В отличие от этого в системе HP Superdome X в обработке ошибок главную роль играет специальный микрокод системы Firmware First. Архитектура процессоров E7v2 (Enhanced Machine Check Architecture) позволяет микрокоду системы HP Superdome X «изучать» логи ошибок и выполнять действия по устранению последствий этих ошибок еще до перехода их на уровень ОС и приложения.
Firmware First обрабатывает как корректируемые, так и некорректируемые ошибки в компонентах системы (Процессоры, память, ввод/вывод), также микрокодом выполняется сбор всех данных об произошедших инцидентах с целью их дальнейшего анализа администратором. Таким образом, система останавливает работу только отдельных затронутых ошибкой процессов и пытается обойти неисправность и восстановить работу уже на программном уровне системного ПО, ОС или даже приложения.
В случае невозможности продолжения работы, система инициирует автоматическую управляемую перезагрузку с дальнейшей реконфигурацией компонентов и сохранением полной информации об ошибке и состоянии модулей для отчета администратору. Такой механизм обработки неисправностей становится возможным только при тесной интеграции всех уровней системы – аппаратного обеспечения, firmware и операционной системы.
Функционал RAS, внедренный в HP Superdome X:
• Deconfiguration of failed or failing components (позволяет продолжить выполнять работу приложения и системы в случае проблемы с модулями памяти или CPU);
• Blade deconfiguration (позволяет продолжить работу приложения или системы в случае выхода из строя целого блейд-сервера в multi blade конфигурации);
• Corrupt data containment (режим, в котором данным, содержащим ошибку присваивается бит «Error Containment», после этого firmware и ОС применяют сценарии восстановления, включая UCNA, SRAO, SRAR. HP Superdome X поддерживает все эти сценарии);
• Live error containment (Отработка Firmware HP Superdome X ошибок ввода/вывода «на лету»);
• Viral error containment (режим, схожий по принципу работы с Corrupt data containment, отслеживающий фатальные ошибки адресации, и препятствующий их распространению в устройства ввода/вывода);
• Processor interconnect fault resiliency (все связи между CPU, включая QPI, интерконнект памяти и PCIe имеют избыточные пути с проверкой CRC и механизмом самовосстановления);
• Advanced MCA recovery (Отработка Firmware HP Superdome X ошибок памяти);
• Clock Redundancy (Дублирование генераторов тактовой частоты);
• Partition and error isolation (пассивный мидплейн, обеспечивающий электрическую излояцию блейд-серверов).
А может ли ваш производитель бизнес-критичного оборудования предложить такой функционал?
Во второй части цикла статей про HP Superdome X мы рассмотрим подробнее механизмы Advanced Error Recovery, Live Error Containment, Partition and Error Isolation.
FAQ
Q1: Есть ли открытые тесты производительности системы HP Superdome X?
A1: Есть, HP Superdome X показал высокую производительность в стандартном тесте SPECjbb2013, первым среди систем x86 преодолев отметку в 1-млн jOPS.
Июнь 2014 | Ноябрь 2014 | Декабрь 2014
Тест SPEC CPU2006
Q: Я слышал, что с ростом количества процессоров в системе производительность растет не линейно, это так?
A: Да, при использовании стандартной архитектуры Intel это так, но в системе HP Superdome X при добавлении процессоров наблюдается почти линейный рост производительности благодаря использованию высокопроизводительной архитектуры Crossbar (фактор 1.92x при росте системы с 4 до 8 сокетов и фактор 1.86x при росте системы с 8 до 16 сокетов, подтверждение можно увидеть из результатов теста выше.
Q: Есть ли открытые внедрения системы HP Superdome X у российских заказчиков?
A: Есть, например, компания МТС.
Q: Есть ли цифры производительности HP Superdome X для баз данных?
A: Есть, например, для SQL 2014.
Q: А есть ли документы, показывающие испытание HP Superdome X на Oracle?
A: Да, есть на Oracle 12c, есть реальные заказчики, протестировавшие свои данные на HP Superdome X под Oracle, референсы не публичные, но цифры доступны при обсуждении.
Q: А поддерживается ли установка гипервизора на HP Superdome X?
A: Да, например, VMware, это можно проверить в матрице совместимости (http://www.vmware.com/resources/compatibility/search.php)
Почитать
» Running Linux on BL920c Gen8
» Running Windows on HP Superdome X
» Running SQL 2014 on HP Superdome X – reference guide
» Лучшие практики по оптимизации производительности Superdome X в среде Linux: NUMA, энергопотребление, сеть, I/O