Практически все аварии в правильно спланированных дата-центрах предсказуемы и могут быть выявлены на стадии «до аварии». Но как заранее понять куда «подстелить соломки»? Под катом наш опыт повышения надежности дата-центра на ул. Пришвина (e-Style Telecom).
Инфраструктура дата-центра должна обслуживаться и проверяться, а отключения, конечно же, при этом не допустимы. Как этого достичь?
Как устранить потенциальную проблему еще до того, как она сможет влиять на работоспособность системы?
Реальная надежность дата-центра в нашей стране определяется всего тремя факторами:
1. степень пофигизма и глупости проектировщиков-строителей ЦОДов;
2. внешними рисками по компании, помещению и подключениям;
3. степенью беспечности и разгильдяйства сотрудников дата-центра.
Благодаря болезненному и дорогому опыту, основанному на своих и чужих ошибках, мы смогли обнаружить значительное количество недочетов и глупости на этапах планирования, проектирования и оснащения дата-центра. И, что самое главное, вовремя их устранить.
По рискам компании, помещению и подключениям все получилось – здание и трансформаторные строилось «для себя», все в собственности, а наша компания в одном из крупнейших IT холдингов – R-Style / e-Style.
Осталось только обеспечить грамотное обслуживание и эксплуатацию… легко сказать! Как? Наши шаги на этом пути:
Первый шаг, базовый: две параллельные системы мониторинга, общий интерфейс SNMP, изолированная сеть управления. Абсолютно все оборудование дата-центра e-Style Telecom было оснащено /доукомплектовано средствами самодиагностики и мониторинга. Информации уже хватало, чтобы понять текущее состояние систем.
Второй — дополнительно добавлены сотни датчиков температуры (в разных точках аппаратной, в разных зонах). Стало намного информативней, распределение мощностей и температур, изменения при переключении блоков кондиционеров. На этом этапе мы смогли уже не в слепую «по проекту» размещать новое оборудование, а видеть и сравнивать реальную тепловую картину и планировать загрузку аппаратной.
Третий – регулярно проводить обследование инфраструктуры и серверного оборудования тепловизором. Когда нашли этот метод – очень обрадовались. Тепловизор позволяет оперативно получить много информации для анализа.
Аккумуляторы, клемы, соединения, диски в СХД, провода, фильтры, вентиляторы, воздушные потоки, переток воздуха между коридорами – теперь видно заранее. После каждого обхода, как правило, что-то подозрительное выявляется и устраняется. Сегодня, например, обнаружили повышенную на 7 градусов температуру кабеля в одном шкафу – клиент запитал 5кВт нагрузки через один кабель, игнорируя другие розетки в PDU.
Снимок холодного коридора, в котором сразу видны шкафы без оборудования в нижней части, через которые идет переток воздуха из горячих коридоров.
![](https://habrastorage.org/r/w780q1/storage2/907/f97/c60/907f97c60d8df6cbc8d21376ba17176e.jpg)
Инженер в холодном коридоре:
![](https://habrastorage.org/r/w780q1/storage2/76b/45c/007/76b45c0076e2e13bb60f4399ffdb5547.jpg)
Снимок блейда IBM, с равномерно нагруженными лезвиями:
![](https://habrastorage.org/r/w780q1/storage2/0e9/608/ee2/0e9608ee2a04c45091929f61bcf42e65.jpg)
Снимок аккумуляторного шкафа во время тестирования батарей:
![](https://habrastorage.org/r/w780q1/storage2/484/ad5/116/484ad5116dcfdcb5c7d2f5f5f4579060.jpg)
![](https://habrastorage.org/r/w780q1/storage2/809/4f1/626/8094f162699e7af81c3258c1c872a245.jpg)
![](https://habrastorage.org/r/w780q1/storage2/e77/3e9/e88/e773e9e88e1870988e1f84e9ab12275a.jpg)
Кабели электропитания в шкафах:
![](https://habrastorage.org/r/w780q1/storage2/e55/d70/d11/e55d70d11cb1a14fe60876bc60461891.jpg)
Избыточное выделение тепла очень часто является хорошим предсказанием возможных проблем, главное вовремя увидеть. Мы сделали, что смогли, чтобы знать заранее куда «подстелить соломки».
Инфраструктура дата-центра должна обслуживаться и проверяться, а отключения, конечно же, при этом не допустимы. Как этого достичь?
Как устранить потенциальную проблему еще до того, как она сможет влиять на работоспособность системы?
Реальная надежность дата-центра в нашей стране определяется всего тремя факторами:
1. степень пофигизма и глупости проектировщиков-строителей ЦОДов;
2. внешними рисками по компании, помещению и подключениям;
3. степенью беспечности и разгильдяйства сотрудников дата-центра.
Благодаря болезненному и дорогому опыту, основанному на своих и чужих ошибках, мы смогли обнаружить значительное количество недочетов и глупости на этапах планирования, проектирования и оснащения дата-центра. И, что самое главное, вовремя их устранить.
По рискам компании, помещению и подключениям все получилось – здание и трансформаторные строилось «для себя», все в собственности, а наша компания в одном из крупнейших IT холдингов – R-Style / e-Style.
Осталось только обеспечить грамотное обслуживание и эксплуатацию… легко сказать! Как? Наши шаги на этом пути:
Первый шаг, базовый: две параллельные системы мониторинга, общий интерфейс SNMP, изолированная сеть управления. Абсолютно все оборудование дата-центра e-Style Telecom было оснащено /доукомплектовано средствами самодиагностики и мониторинга. Информации уже хватало, чтобы понять текущее состояние систем.
Второй — дополнительно добавлены сотни датчиков температуры (в разных точках аппаратной, в разных зонах). Стало намного информативней, распределение мощностей и температур, изменения при переключении блоков кондиционеров. На этом этапе мы смогли уже не в слепую «по проекту» размещать новое оборудование, а видеть и сравнивать реальную тепловую картину и планировать загрузку аппаратной.
Третий – регулярно проводить обследование инфраструктуры и серверного оборудования тепловизором. Когда нашли этот метод – очень обрадовались. Тепловизор позволяет оперативно получить много информации для анализа.
Аккумуляторы, клемы, соединения, диски в СХД, провода, фильтры, вентиляторы, воздушные потоки, переток воздуха между коридорами – теперь видно заранее. После каждого обхода, как правило, что-то подозрительное выявляется и устраняется. Сегодня, например, обнаружили повышенную на 7 градусов температуру кабеля в одном шкафу – клиент запитал 5кВт нагрузки через один кабель, игнорируя другие розетки в PDU.
Снимок холодного коридора, в котором сразу видны шкафы без оборудования в нижней части, через которые идет переток воздуха из горячих коридоров.
![](https://habrastorage.org/storage2/907/f97/c60/907f97c60d8df6cbc8d21376ba17176e.jpg)
Инженер в холодном коридоре:
![](https://habrastorage.org/storage2/76b/45c/007/76b45c0076e2e13bb60f4399ffdb5547.jpg)
Снимок блейда IBM, с равномерно нагруженными лезвиями:
![](https://habrastorage.org/storage2/0e9/608/ee2/0e9608ee2a04c45091929f61bcf42e65.jpg)
Снимок аккумуляторного шкафа во время тестирования батарей:
![](https://habrastorage.org/storage2/484/ad5/116/484ad5116dcfdcb5c7d2f5f5f4579060.jpg)
![](https://habrastorage.org/storage2/809/4f1/626/8094f162699e7af81c3258c1c872a245.jpg)
![](https://habrastorage.org/storage2/e77/3e9/e88/e773e9e88e1870988e1f84e9ab12275a.jpg)
Кабели электропитания в шкафах:
![](https://habrastorage.org/storage2/e55/d70/d11/e55d70d11cb1a14fe60876bc60461891.jpg)
Избыточное выделение тепла очень часто является хорошим предсказанием возможных проблем, главное вовремя увидеть. Мы сделали, что смогли, чтобы знать заранее куда «подстелить соломки».