Boomburum 9 авг 2010 в 14:57

О серверном парке, кластерах и дата-центрах Intel

15 мин

9.6K

   Предлагаю вашему вниманию интервью с Сергеем Кузнецовым, руководителем отдела IT филиалов компании Intel в Москве и Санкт-Петербурге. Сергей рассказал много интересных деталей о своей работе и про инфраструктуру компании в целом — беседа получилась достаточно разноплановой и содержательной.

— Многим «старожилам» Intel IT Galaxy вы хорошо знакомы по «серверной комнате», но и им, а не только новым участникам сообщества, будет интересно узнать о вашей новой работе и должности. Пожалуйста, расскажите немного о вашем подразделении.

— Компания Intel предусматривает определенный карьерный рост и ротацию для всех своих сотрудников. В частности, я раньше занимался поддержкой лаборатории в московском офисе и был техническим менеджером центра инноваций. В настоящее время я — руководитель отдела IT московского и санкт-петербургского офисов компании Intel. В сферу ответственности этого отдела входят координация глобальных программ корпорации на этих локальных сайтах и их операционная производительность, т.е. повседневная работа. Также мои обязанности включают в себя планирование IT-ресурсов, развитие сайтов в соответствии с корпоративной стратегией и с нуждами локальных бизнес-подразделений, повышение эффективности использования имеющегося на сайтах серверного оборудования, изучение моделей использования систем с недостаточным уровнем утилизации и возможностей консолидации сервисов на удаленных сайтах, а также путей применения инновационных продуктов, направленных на улучшение утилизации оборудования…

— Круг задач впечатляет. Как работается на новой должности, что скажете о путях повышения эффективности своей работы?

— После перехода на должность руководителя IT-отдела я, конечно, ощутил изменение нагрузки и спектра задач, которые приходится решать. Если ты отвечаешь за какой-то сервис, то рамки твоей ответственности относительно невелики и ограничиваются этим самым сервисом. Как только ты приходишь на руководство группой людей и группой сервисов, получается, что на тебя ложится ответственность не только за производительность самого отдела, но и за планирование его деятельности, за надежность обеспечиваемых отделом сервисов, за эффективность работы людей, поддерживающих эти сервисы, и за многие операционные вопросы, которые упоминались выше. Наряду с техническими, приходится решать еще и множество дипломатических задач. С точки зрения технического специалиста, обязанности руководителя более разноплановые и работать приходится очень много.

   Что касается эффективности моей работы, то, когда я отвечал за определенный сервис или за поддержку группы пользователей, вполне достаточно было того, что я выполнял свои ежедневные функциональные обязанности. Как только ты становишься ответственным за серьезный участок работы, за филиал, то личной эффективности становится мало и приходится вести несколько блокнотов, отмечая ведущиеся на сайте проекты, очень жестко отслеживать свой личный календарь, текущие задачи и запросы от различных групп пользователей наших сервисов, чтобы ни один запрос не остался без внимания. И тут, как никогда, важна именно дисциплина в фиксировании всех возникающих задач.

— Нагрузка большая, времени на все хватает? Приходится ли вам и вашим сотрудникам работать по ночам?

— Думаю, не раскрою большой секрет, что сотрудники отдела IT в Intel, как и во многих других компаниях, работают по ненормированному графику. Если у нас падает какой-то сервис, конечно, мы не оставляем пользователей в беде. Мы обязаны обеспечить работу предоставляемых сервисов в любое время дня и ночи. Чтобы справляться с такими ситуациями быстрее, у нас существуют планы восстановления после аварийных ситуаций, которыми мы руководствуемся независимо от того, когда случился инцидент. В то же время, в компании Intel существует понятие баланса между работой и личной жизнью сотрудников, и мы стараемся хорошо отдыхать. Например, устраиваем командные мероприятия. А если какой-то сотрудник был занят во второй половине дня, настраивая важный сервис, то, по согласованию со своим руководством, он может на следующий день придти позже, чтобы отдохнуть и восполнить баланс между работой и собственными делами.

— Давайте поговорим о структуре серверного парка Intel, о тех серверах, которые находятся в зоне ответственности вашего отдела.

— В отличие от многих крупных корпораций, занимающихся производством и сбытом на потребительском рынке, Intel является R&D-компанией (Research & Development). В основе бизнеса нашей компании лежит не только производство, но и научно-исследовательская деятельность. Соответственно, в серверном парке Intel количество машин, предназначенных для научно-исследовательской деятельности и различных вычислений, значительно превышает число инфраструктурных серверов, обеспечивающих ведение бизнеса и поддерживающих корпоративную IT-среду. У нас есть три ключевых серверных сегмента: глобальные сервера, отвечающие за глобальную инфраструктуру, инфраструктурные локальные сервера, обеспечивающие работу пользователей в отдельных филиалах, и сервера, предназначенные для научно-исследовательской деятельности. Последние тоже делятся на две категории: сервера для вычислений, так называемые compute-сервера, и сервера для интерактивных работ и для измерения производительности тех или иных приложений — это performance-сервера. Есть еще и сервера, относящиеся к производству, но в России фабрик нет, так что оставим их в стороне. Глобальные функции, такие как электронная почта, Интернет, IM-сервисы, инфраструктура SharePoint, Project-сервера, обслуживание SAP, поддержка бизнес-процессов — все это возложено на глобальные сервера. А дальше, на каждом локальном сайте, у нас есть группы, которым нужны сервера для обеспечения их научно-исследовательской деятельности. Это системы контроля версий и качества программного кода, локальные сервера баз данных, сервера для поддержки локальных Web-приложений и служебные системы.

   Несколько лет назад в компании Intel была организована рабочая группа для выработки стратегии и решений по оптимизации серверных ресурсов, исходя из информации о существующих на всех сайтах дата-центрах и моделях их использования. Мелкие дата-центры при этом консолидировались в более крупные, и небольшие сайты получили возможность работать с ними по сетям передачи данных. При этом надо иметь в виду, что для небольших представительских филиалов, где присутствуют только сотрудники отделов продаж и маркетинга, но нет больших научно-исследовательских групп, отдельные дата-центры не создаются. Таким образом, за несколько последних лет мы перешли от фокуса на консолидацию дата-центров к стратегии, ориентированной на оценку и оптимизацию ценности локального дата-центра для бизнеса.

   В России, например, на каждом из сайтов было организовано по одному дата-центру. Без них мы обойтись не можем, поскольку в каждом из филиалов Intel в России (научно-исследовательских филиалов, мы не говорим об офисах по продажам) ведутся серьезные разработки, которые требуют большого объема работы с локально расположенными серверами — интерактивной, вычислительной, по измерению производительности программного обеспечения. Однако, в настоящий момент в IT ведется активная исследовательская деятельность по выяснению требований и возможностей работы с удаленно расположенными научно-исследовательскими серверами. В частности, несколько групп в России уже используют вычислительные ресурсы, расположенные на удаленных площадках.

— Участники сообщества Intel IT Galaxy уже знают, что победителям конкурса «3 дня с IT@Intel» предоставится возможность ознакомиться с дата-центром Intel в Нижнем Новгороде. Что они смогут там увидеть, это действительно серьезный современный дата-центр?

— Стратегия развития дата-центров в Intel подразумевает, что каждый дата-центр организуется и оснащается по последнему слову техники, в его создание осуществляются серьезные инвестиции. Поэтому любой наш дата-центр представляет собой серьезное решение, имеющее в своем составе вентиляцию промышленного масштаба, инфраструктуру обеспечения бесперебойности питания (как на основе батарей, так и дизель-генераторов, которые могут позволить продержаться сколь угодно долгое время, пока подвозится топливо). Мы всегда оцениваем место, где планируется разместить дата-центр, с точки зрения эффективности реализации систем питания и охлаждения.

   Постоянно производится мониторинг состояния систем, находящихся в дата-центре, поддерживается оптимальная по энергозатратам температура (она не настолько низка, чтобы на охлаждение тратились лишние деньги, но абсолютно безопасна для функционирования серверов и другого оборудования). Кстати, границы температурного режима у нас достаточно узки, что само по себе является свидетельством грамотной организации дата-центра. В менее эффективно организованных дата-центрах невозможно поддерживать столь узкие рамки изменения температур. Хочу подчеркнуть применение технологии hot & cold aisle, когда стойки ориентируются по направлению вывода из них воздуха и воздушные потоки организованы таким образом, чтобы охлаждение было максимально эффективным. Учитывается множество факторов, оптимизируется физическое распределение серверов по стойкам с точки зрения потребления электроэнергии, нагрузки по фазам, занимаемому в пространстве объему. Например, для безопасности тяжелые (по массе) серверы не размещаются наверху стойки при незагруженной нижней части, иначе стойка окажется несбалансированной и может даже при небольшом толчке (скажем, при землетрясении) опрокинуться, если фиксирующие крепления стойки будут повреждены.

   В наших дата-центрах всегда обеспечивается высокая степень безопасности работы. Доступ туда, конечно, тщательно контролируется, сотрудники проходят серию тренингов по безопасности — в отношении оборудования дата-центра, находящихся в нем данных, принадлежащей компании интеллектуальной собственности, с одной стороны, и, с другой, физической безопасности персонала дата-центра, безопасности всех проводимых работ.

— Сколько примерно серверов находится в зоне вашей ответственности, имеются ли кластеры?

— Количество серверов на каждом сайте определяется потребностями локального бизнеса. Обычно это достаточно небольшое число, несколько десятков, инфраструктурных серверов, которые поддерживают функционирование бизнеса и отвечают за различные IT-функции. Кроме того, в зависимости от численности инженерно-исследовательских групп на сайте и характера решаемых ими задач, присутствует значительное число исследовательских серверов, их количество может достигать нескольких сотен или даже тысячи.

   Имеющееся в России серверное оборудование применяется, в том числе, и для ресурсоемких вычислений. Безусловно, для повышения эффективности использования компьютеры объединяются в кластеры, в том числе и на базе блейд-систем. При необходимости такие решения могут применяться внутри каждого филиала, но в последнее время наблюдается тенденция использования удаленных ресурсов. У нас, например, создан очень мощный кластер для вычислений в Нижнем Новгороде, и для некоторых ресурсоемких пакетных вычислений предпочтительно работать именно с ним. Благодаря тому, что мы стараемся загружать крупный вычислительный пул пакетными вычислениями с других сайтов, нам удается добиться достаточной высокой утилизации размещенных там ресурсов.

   Но географическая консолидация ресурсов не избавляет от потребности в локальных дата-центрах, потому что латентность WAN-канала пока остается слишком высокой для удаленного выполнения интерактивных приложений. Удаленные серверы для интерактивной научно-исследовательской работы использовать гораздо труднее, с дискомфортом пользователи сталкивают даже при задержках 100 мс и более. Объем же локальной работы не всегда позволяет использовать мощности серверов максимально эффективно, поэтому для интерактивных серверов в лабораториях в настоящее время реализуются мероприятия по повышению их энергоэффективности — такие, например, как автоматическое отключение неиспользуемых машин в ночное время, консолидация маломощных серверов.

— С какой периодичностью обновляется парк серверов, как именно это происходит? Как влияет внедрение новых платформ и технологий на численность серверов?

— В компании Intel реализуется стратегия, предусматривающая четырехлетний цикл использования серверов. В первый квартал своего жизненного цикла новое оборудование устанавливается в дата-центре и на него производится миграция текущих сервисов. Далее идет обычная эксплуатация серверов. Где-то в конце третьего года жизни сервера начинается планирование его вывода из эксплуатации. В последний квартал четвертого года жизненного цикла устанавливается новое оборудование, приходящее на замену старым системам, и планируется перенос сервисов, миграция.

   Один из интересных моментов — как мы выбираем архитектуры и сервера, которые будут использоваться. Каждый год приносит новые технологии, новые модели серверного оборудования, появляются новые бренды. Ежегодно владельцы сервисов для определенных проектов изучают новые платформы, оборудование от различных производителей, проводят сравнительные тесты. В итоге выбираются модели и конфигурации серверов, утверждаемые в качестве «корпоративных платформ» для организации тех или иных сервисов. Другими словами, выбранные оптимальные конфигурации становятся рекомендованными для покупки и развертывания соответствующих сервисов в течение года. Через год процедура повторяется.

   Что касается повышения эффективности использования вычислительного оборудования в компании — это еще одна интересная тема. Работа здесь идет в двух направлениях. Во-первых, мы сокращаем количество серверов за счет повышения их вычислительной мощности. Предположим, что если у нас сервера заняты серьезной вычислительной работой, то нам требуется адекватная этим задачам вычислительная мощность. И чем меньше «железных» серверов будут выполнять то же самое количество работы, тем лучше это скажется на энергопотреблении, охлаждении оборудования, занимаемом им объеме помещений. Сейчас мы активно покупаем и развертываем сервера с новыми процессорами Intel Xeon, которые очень эффективны в плане консолидации вычислительных ресурсов, и заменяем ими четырехлетние сервера с соотношением около 1:10.

   Во-вторых, возникает вопрос, что делать с инфраструктурными серверами? Дело в том, что в большинстве своем инфраструктурные сервера не используют полностью всю мощь современных процессоров. Например, это файловые сервера, которые обычно загружены вводом-выводом, активно работают с дисковыми массивами, или не очень серьезно используемые хостинг-сервера.

   Компания, безусловно, стремится повысить эффективность использования такого оборудования. Для этого применяется виртуализация, т.е. мы берем одну мощную машину на базе новых процессоров Intel Xeon и поднимаем на ней несколько виртуальных серверов. Причем, если мы берем еще точно такую же машину, развертываем на ней аналогичные виртуальные сервера и объединяем все это в кластер, то у нас получается failsafe-система. Даже при выходе из строя одной «железной» системы виртуальные сервера все равно продолжают работать, при падении же виртуальной машины мы легко можем либо восстановить инфраструктурный сервер из хранящегося у нас образа, либо его функции переносятся на другой виртуальных сервер. Кроме виртуализации применяется консолидация сервисов на одной машине. Если какой-либо сервис у нас используется одной рабочей группой и не очень интенсивно, мы опрашиваем другие рабочие группы и, например, Web-сервер для хостинга нагружаем сервисами от других рабочих групп. Если сервисы между собой не пересекаются, то просто ставим без виртуализации дополнительные сервисы на один физический сервер для повышения эффективности использования процессора, где это уместно. У нас есть определенные инфраструктурные сервера, которые мы еще не виртуализируем, потому что применительно к ним эта технология еще тестируется и пока решено с точки зрения эффективности их использования оставить некоторые сервисы на физических серверах.

   Инфраструктура, которую мы поддерживаем, предполагает максимальную стабильность, совместимость с текущими приложениями и надежность использования. Специальные группы отбирают все доступные решения, тестируют их на совместимость с имеющимися инфраструктурными сервисами и утверждают определенные модели и конфигурации в качестве рекомендованной корпоративной платформы для определенных сервисов.

— Применяется виртуализация на вычислительных серверах?

— Когда мы говорим об инфраструктуре, то учитываем, что от инфраструктурных серверов зависит бизнес компании, жизнедеятельность офисов, работоспособность наших программистов и разработчиков. Когда же речь идет о лабораториях, то в большинстве случаев и для IT, и для разработчиков они служат своеобразным тестовым полигоном. И, конечно, мы обкатываем самые передовые решения прежде всего на наших лабораториях. В лабораториях мы с удовольствием используем самые новые исследования в области виртуализации. Для пакетной обработки данных виртуализация не очень интересна в рамках одного филиала. Тут надо понимать, что определенное количество ресурсов тратится на поддержание жизнеспособности самого облака, а без виртуализации мы можем все вычислительные мощности задействовать для обработки данных. Однако, виртуализация очень полезна для создания мгновенной эмуляции какой-либо инфраструктуры или очень сильно помогает в объединении большого числа географически распределенных машин в единое облако.

— Процесс обновления серверного парка связан также с вопросами энергоэффективности и энергосбережения. Видимо, переход на новые платформы сказывается заметно?

— В наших инфраструктурных сервисах есть разные по вычислительной емкости процессы. Для процессов с высокой ресурсоемкостью мы используем высокопроизводительные сервера на базе топовых процессоров последней линейки и благодаря этому консолидируем менее производительные сервера. В результате мы получаем максимум производительности на единицу площади дата-центра. Для менее ресурсоемких приложений инфраструктурных серверов мы рассматриваем покупку машин с максимальными энергосберегающими технологиями в нашей линейке Nehalem, которые позволяют добиться наилучшей производительности на ватт потребляемой энергии. Кроме того, например, сейчас мы исследуем возможности не только повышения утилизации оборудования, но и автоматического выключения питания серверов, которые в силу специфики наших бизнес-процессов не загружены работой в ночное время. В этих целях мы активно используем технологии, предоставляемые производителями серверов для удаленного доступа и управления ими.

— Использует ли Intel технологию «дата-центр в контейнере», есть ли практика развертывания мобильных дата-центров для обеспечения временных пиковых потребностей в вычислительных ресурсах?

— У нас проходило исследование использования так называемых «дата-центров в контейнерах», в том числе выяснялся вопрос, насколько такие решения подходят для работы в реальной корпоративной среде, с нашей реальной инфраструктурой. Был проведен целый ряд испытаний, но о конечных их результатах пока не сообщалось. Впрочем, не вызывает сомнений то, что данная технология очень интересна и может пригодиться при необходимости срочного развертывания дата-центров в новой местности или при стихийных бедствиях. В частности, «дата-центр в контейнере», который использовался нашими инженерами для оценки его эффективности, был отправлен на Гаити в Emergency Control Center в качестве гуманитарной помощи.

— Мы затронули тему катастроф… К сожалению, даже крупные аварии становятся все более вероятными. Расскажите, как резервируются в Intel важные ресурсы, данные?

— О планах использования контейнерных ЦОД'ов, если в случае каких-то бедствий выйдут из строя наши дата-центры в России, мне неизвестно. Вот если говорить о более реалистичных сценариях, о резервировании серверов, сервисов и систем дата-центров, то такие возможности, безусловно, у нас присутствуют. У нас есть резервные системы электропитания, вентиляции. У каждого инфраструктурного сервера и сервиса есть владелец, который регулярно готовит и уточняет планы по восстановлению и уменьшению последствий аварий, где расписывается, что надо делать в случае, если его сервер или сервис откажут.

   Все серверное инфраструктурное оборудование в дата-центрах Intel находится на сервисном обслуживании у компаний-производителей. Мы покупаем сервера с сервисным обслуживанием, что позволяет быть спокойными за функционирование их аппаратного обеспечения. Что же касается неприятностей, которые могут быть вызваны разными конфликтами в системах, то наша компания очень серьезно относится к резервированию сервисов и данных. У нас имеются отлаженные и проверенные многолетним опытом схемы восстановления работоспособности после различных инцидентов, каждый знает, что и в каких случаях ему надо сделать, регулярно проводятся соответствующие тренировки.

— Чем больше вычислительная мощность, тем больше обрабатывается данных и их надо где-то хранить. Можете что-нибудь рассказать о хранилищах данных в Intel?

— Да, это одна из важных составляющих любого центра обработки данных. Как рекомендуется по технологии, файловый массив должен быть отдельным специализированным устройством, основной функцией которого является хранение данных.

   Такие хранилища, конечно, существуют в каждом нашем дата-центре. Де-факто, это большие RAID-массивы, которые сконфигурированы в специализированные устройства, представляющие собой дисковые полки, соединенные высокоскоростными оптическими каналами передачи данных с управляющим устройством. Последнее оснащено сетевыми интерфейсами значительной пропускной способности и обладает вычислительной мощностью, достаточной для обработки очень большого количества запросов к файлам. Если бы здесь применялись не специализированные устройства, а набитые дисками обычные серверы, то мы никогда не смогли бы добиться столь же высокой скорости обработки запросов и такого же уровня надежности. Однако специализированные решения индустриального уровня являются не только очень высокопроизводительными, но и очень дорогими. У них закрытая архитектура. Собственно, это конгломерат «железных» решений, архитектуры, интерфейсов и своей специализированной операционной системы. Благодаря тесной увязке этих компонентов обеспечивается высокая производительность и надежность, но и цена соответствующая.

   С точки зрения практика, конечно, я бы хотел сократить расходы на хранение данных. Например, наши научно-исследовательские группы часто запрашивают дополнительное место для хранения своей информации, но в силу дороговизны решений такого класса мы не всегда можем удовлетворить их запросы, ведь приходится взвешивать потребности и имеющиеся бюджеты. Для хранения менее важных данных мы можем себе позволить использовать обычные сервера с дисковыми массивами. Конечно, для нас представляет интерес анализ возможности применения разных систем хранения данных, в том числе и тех, которые будут построены на наших новых процессорах Intel Xeon C5500 и C3500.

   Про системы резервирования — тоже интересный вопрос. Здесь используются специальные программно-аппаратные комплексы, способные управлять более чем сотней кассет. В компании действует политика внесайтового хранения резервных копий, поэтому даже в случае аварии в каком-то из филиалов с полным выходом из строя дата-центра информацию можно будет восстановить, взяв резервную копию из внешнего хранилища. Да, объемы информации растут, и простым наращиванием емкостей и числа кассет с ними не справиться. Поэтому мы стремимся оптимизировать данные, подлежащие резервному копированию. Например, по согласованию с владельцами информации в итоге анализа рисков IT может не резервировать промежуточные результаты вычислений, другую процессную информацию, срок жизни которой измеряется несколькими днями. Такое решение позволяет сэкономить существенные средства на объеме резервируемых данных.

— Среди задававшихся перед интервью вопросов затрагивалась тема межсерверных соединений, которые тоже могут стать узким местом по мере роста вычислительных мощностей и плотности размещения серверов. Проблема решается?

— Безусловно, есть и проблема, есть и некоторые способы ее решения. Например, уже достаточно давно для серьезных кластерных вычислений у нас применяются блейд-системы, которые нейтрализуют узкое место в межсерверных соединениях за счет наличия собственного интерфейса обмена данным между серверами. Также во всех закупаемых нами серверах по умолчанию присутствуют два гигабитных порта. Могу сказать, что даже при активном использовании серверов нам еще не скоро удастся создать такой мощный поток данных, чтобы забить два гигабитных порта на один сервер. Что касается систем хранения данных, то, как мы говорили, там используются специализированные решения с гораздо более высокой пропускной способностью.

— Спасибо за содержательный разговор!

   Ну вот и все :) Скоро чего-нибудь еще интересное опубликуем! А пока жара, призываю всех желающих поучаствовать в «летнем» конкурсе Intel, с по-летнему приятными призами.
Успехов!

Теги:

Хабы:

Блог компании Intel

Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку

О серверном парке, кластерах и дата-центрах Intel

Публикации

Информация

Истории