Без надежного резервного электроснабжения нет гарантий бесперебойной работы дата-центра. Поэтому мы решили посвятить этой теме сразу несколько постов. Ранее мы уже рассказывали про систему топливного мониторинга ЦОДа Linxdatacenter в Санкт-Петербурге. Сегодня расскажем, как правильно ухаживать за важнейшим элементом резервного энергопитания — дизель-генераторной установкой (ДГУ).
Для обеспечения надежности, безотказной работы и долговечности ДГУ необходимо проводить ежедневные обходы и осмотры, регулярное техобслуживание согласно графику, а также контраварийные тренировки для дежурного персонала.
В этом заключается основной объем работ, обязательный для всех элементов системы электроснабжения. Но такое важное, технологически сложное оборудование, как ДГУ, требует дополнительного комплекса работ для повышения надежности, который описывается концепцией TPM (Total Productive Maintenance).
TPM – это концепция менеджмента управления производством, первоначально внедренная японскими компаниями. Основная идея заключается в непрерывном улучшении процессов ТО и планового ремонта, работе по принципу «ноль дефектов» и систематическом устранении всех источников потерь. Чтобы не отпугнуть читателей, мы пропустим описание всех столпов и философии этой концепции и перейдем сразу к практическому смыслу и внедрению.
Регламент работ по обслуживанию ДГУ с применением TPM состоит из:
Также концепция предусматривает еще несколько важных принципов:
Как это выглядит на практике в дата-центре?
TPM занимаются четверо инженеров-электриков, и за каждым из них закреплен свой ДГУ с площадкой и коммуникациями.
Для проведения работ по ТРМ требуется соблюдение требований безопасности. Для этого мы применяем подходы, описанные нами в рамках проекта системы Lock Out Tag Out. Каждый раз перед началом работ проводятся мероприятия по отключению оборудования и блокировки пуска ДГУ. Тем самым мы придерживаемся принципа Safety First – безопасность превыше всего.
Раз в неделю инженер-электрик удаляет грязь и пыль ветошью с закрепленного за ним ДГУ, осматривает и проверяет состояние технологических узлов, уровень технических жидкостей по меркам, ликвидирует мелкие дефекты.
Физическая чистота в буквальном смысле слова является краеугольным камнем TPM. Мы устраняем подтеки масла или антифриза, ослабление болтов, проверяем плотность закрутки фильтров и крепление шлангов для превентивного обнаружения «слабых звеньев» и мелких дефектов в ДГУ и их устранения в кратчайшие сроки.
Все процедуры проводятся по чек-листу, где зафиксирован подробный порядок действий сотрудника.
Поскольку ДГУ состоит из множества сложных узлов, со своими функциями и особенностями работы, мелкие недостатки возникают постоянно. Поэтому так важно держать на контроле именно ранние стадии износа деталей, оперативно их устраняя. Это во многом похоже на то, как на станции техобслуживания моют ваш личный автомобиль, а специалист-автослесарь проводит затем профилактический осмотр.
В концепции TPM мы сами выполняем эти действия со своим «автомобилем» (то есть с ДГУ), с заботой о нем.
Логическим завершением работ становится тестовый запуск ДГУ для проверки работоспособности системы.
Важно, чтобы работники постоянно повышали уровень своих знаний об особенностях работы всех систем ДГУ. Конечно, оперативный персонал не может проводить сложные ремонты, но получение дополнительных знаний и обмен опытом со специалистами по ремонту повысит уверенность в своих силах у дежурных.
Периодическая очистка, совмещенная с проверкой оборудования, приводит к реальным результатам и позволяет предотвращать внезапные и износовые отказы.
Удаление грязи и пыли спасает от раннего абразивного износа движущихся частей. Осмотр и проверка позволяет найти ослабления креплений хомутов, болтов, клемм, нарушение изоляции проводов.
Можно обнаружить такие мелкие проблемы, как трещины на изоляции на перемычке аккумуляторов, ослабление клемм на низковольтном генераторе, разболтанные хомуты на турбинах, протечки в фильтрах (риск утечки масла в процессе работы) и т.д.
Вот, к примеру, трещина:
Так выглядит протечка масла из-за незатянутого масляного фильтра:
Только после устранения таких «мелочей» и успешного контрольного запуска система считается готовой для ввода в эксплуатацию и может гарантировать полную энергетическую безопасность ЦОДа, и, как следствие, возможность выполнения SLA в разрезе требований Uptime. Профилактика всех ключевых систем дата-центра и бережное отношение к оборудованию позволяет значительно снизить риски аварийных ситуаций. Ведь очень часто критические аварии в ЦОДе – это инциденты в результате халатности, которые могут повлечь за собой даже отказ ДГУ.
Главный положительный момент – улучшение состояния оборудования и качества рабочей среды в зале. Регулярно выполняя простые, но продуманные процедуры, мы получаем абсолютно чистый машинный зал, чистое оборудование.
Клиенты ЦОДа в любой момент времени могут попросить оценить состояние оборудования резервного источника. Туда можно зайти даже в деловом костюме, из специальных средств индивидуальной защиты требуются только наушники, поскольку комплекс ДГУ в процессе работы производит очень сильный шум.
Важнейший момент всего проекта – персонализация ответственности. В нашем случае каждый инженер знает, за какую машину отвечает – это дает необходимый уровень вовлеченности в работу.
Комплекс ДГУ должен работать как часы, именно поэтому все эти процедуры по регламенту TPM играют такую важную роль в системе энергобезопасности ЦОДа в целом.
Общий регламент работ по уходу за ДГУ у нас выглядит так:
Отметим, что регламент и его идеология полностью применимы к любой критически важной системе энергоснабжения в целом. Также важно следить за чистотой и состоянием работы ИБП. Пыль, например, может влиять на работу вентиляторов и вывести ИБП из строя в самый неподходящий момент. О том, как мы боремся с пылью, мои коллеги рассказывали в одной из наших первых статей на Хабре.
TPM для ДГУ
Для обеспечения надежности, безотказной работы и долговечности ДГУ необходимо проводить ежедневные обходы и осмотры, регулярное техобслуживание согласно графику, а также контраварийные тренировки для дежурного персонала.
В этом заключается основной объем работ, обязательный для всех элементов системы электроснабжения. Но такое важное, технологически сложное оборудование, как ДГУ, требует дополнительного комплекса работ для повышения надежности, который описывается концепцией TPM (Total Productive Maintenance).
TPM – это концепция менеджмента управления производством, первоначально внедренная японскими компаниями. Основная идея заключается в непрерывном улучшении процессов ТО и планового ремонта, работе по принципу «ноль дефектов» и систематическом устранении всех источников потерь. Чтобы не отпугнуть читателей, мы пропустим описание всех столпов и философии этой концепции и перейдем сразу к практическому смыслу и внедрению.
Регламент работ по обслуживанию ДГУ с применением TPM состоит из:
- очиcтки оборудования;
- проверки оборудования;
- выявления и устранения мелких дефектов;
- выявления прогрессирующего износа деталей.
Также концепция предусматривает еще несколько важных принципов:
- «сам заботишься о своем оборудовании», т.е. персонал сам выполняет все регулярное обслуживание оборудования, за работой которого постоянно наблюдает;
- мелкие недостатки оборудования должны оперативно устраняться, так как их накопление приводит к крупным поломкам и авариям, что в значительной степени увеличивает время простоя оборудования при их устранении;
- обслуживание по TPM – не только формальная очистка, но и тщательный осмотр.
Больше, чем чистка
Как это выглядит на практике в дата-центре?
TPM занимаются четверо инженеров-электриков, и за каждым из них закреплен свой ДГУ с площадкой и коммуникациями.
Для проведения работ по ТРМ требуется соблюдение требований безопасности. Для этого мы применяем подходы, описанные нами в рамках проекта системы Lock Out Tag Out. Каждый раз перед началом работ проводятся мероприятия по отключению оборудования и блокировки пуска ДГУ. Тем самым мы придерживаемся принципа Safety First – безопасность превыше всего.
Раз в неделю инженер-электрик удаляет грязь и пыль ветошью с закрепленного за ним ДГУ, осматривает и проверяет состояние технологических узлов, уровень технических жидкостей по меркам, ликвидирует мелкие дефекты.
Физическая чистота в буквальном смысле слова является краеугольным камнем TPM. Мы устраняем подтеки масла или антифриза, ослабление болтов, проверяем плотность закрутки фильтров и крепление шлангов для превентивного обнаружения «слабых звеньев» и мелких дефектов в ДГУ и их устранения в кратчайшие сроки.
Все процедуры проводятся по чек-листу, где зафиксирован подробный порядок действий сотрудника.
Поскольку ДГУ состоит из множества сложных узлов, со своими функциями и особенностями работы, мелкие недостатки возникают постоянно. Поэтому так важно держать на контроле именно ранние стадии износа деталей, оперативно их устраняя. Это во многом похоже на то, как на станции техобслуживания моют ваш личный автомобиль, а специалист-автослесарь проводит затем профилактический осмотр.
В концепции TPM мы сами выполняем эти действия со своим «автомобилем» (то есть с ДГУ), с заботой о нем.
Логическим завершением работ становится тестовый запуск ДГУ для проверки работоспособности системы.
Важно, чтобы работники постоянно повышали уровень своих знаний об особенностях работы всех систем ДГУ. Конечно, оперативный персонал не может проводить сложные ремонты, но получение дополнительных знаний и обмен опытом со специалистами по ремонту повысит уверенность в своих силах у дежурных.
Периодическая очистка, совмещенная с проверкой оборудования, приводит к реальным результатам и позволяет предотвращать внезапные и износовые отказы.
Что мы обнаруживаем в процессе очистки
Удаление грязи и пыли спасает от раннего абразивного износа движущихся частей. Осмотр и проверка позволяет найти ослабления креплений хомутов, болтов, клемм, нарушение изоляции проводов.
Можно обнаружить такие мелкие проблемы, как трещины на изоляции на перемычке аккумуляторов, ослабление клемм на низковольтном генераторе, разболтанные хомуты на турбинах, протечки в фильтрах (риск утечки масла в процессе работы) и т.д.
Вот, к примеру, трещина:
Так выглядит протечка масла из-за незатянутого масляного фильтра:
Только после устранения таких «мелочей» и успешного контрольного запуска система считается готовой для ввода в эксплуатацию и может гарантировать полную энергетическую безопасность ЦОДа, и, как следствие, возможность выполнения SLA в разрезе требований Uptime. Профилактика всех ключевых систем дата-центра и бережное отношение к оборудованию позволяет значительно снизить риски аварийных ситуаций. Ведь очень часто критические аварии в ЦОДе – это инциденты в результате халатности, которые могут повлечь за собой даже отказ ДГУ.
Эффекты и результаты
Главный положительный момент – улучшение состояния оборудования и качества рабочей среды в зале. Регулярно выполняя простые, но продуманные процедуры, мы получаем абсолютно чистый машинный зал, чистое оборудование.
Клиенты ЦОДа в любой момент времени могут попросить оценить состояние оборудования резервного источника. Туда можно зайти даже в деловом костюме, из специальных средств индивидуальной защиты требуются только наушники, поскольку комплекс ДГУ в процессе работы производит очень сильный шум.
Важнейший момент всего проекта – персонализация ответственности. В нашем случае каждый инженер знает, за какую машину отвечает – это дает необходимый уровень вовлеченности в работу.
Комплекс ДГУ должен работать как часы, именно поэтому все эти процедуры по регламенту TPM играют такую важную роль в системе энергобезопасности ЦОДа в целом.
Общий регламент работ по уходу за ДГУ у нас выглядит так:
Check List проведения работ по ТРМ (обслуживание ДГУ) | Производитель работ: Дата: |
|
Основная информация работ по ТРМ описана в файле «Регламент проведения ТРМ». Данный Check List по окончании смены необходимо прикрепить к бланку обхода. |
||
Действия по проведению ТРМ (заполняет сотрудник дежурной смены) | ||
№ | Дежурный инженер-электрик | Отметка о выполнении (+ / -) |
1 | Произвести останов ДГУ, используя процедуру LOTO, предварительно нажав на красные кнопки аварийного останова на панели РССР и щите BFKU. | |
2 | Удаление пыли и загрязнения с поверхности корпуса вытяжной вентиляции. | |
3 | Проверка надежности крепления вытяжной вентиляции. | |
4 | Удаление пыли и загрязнения с поверхности высоковольтного генератора. | |
5 | Проверка вкл. состояния подогрева обмоток высоковольтного генератора. | |
6 | Удаление пыли и загрязнения на поверхности щита Power Command. | |
7 | Удаление пыли и загрязнения с поверхности воздуховодов ДГУ, корпусов воздушных фильтров. | |
8 | Проверка надежности крепления хомутов воздуховодов. | |
9 | Удаление пыли и загрязнения с поверхности корпусов блока цилиндров двигателя. | |
10 | Проверка отсутствия подтеков технологических жидкостей на корпусах блока цилиндров. | |
11 | Удаление пыли и загрязнения с наружной поверхности защитной решетки вентилятора. | |
12 | Проверка отсутствия переломов трубки спуска избыточного кол-ва антифриза при нагреве и расширении. | |
13 | Осмотр защитного брезента на предмет разрывов. | |
14 | Удаление пыли и загрязнений с поверхности патрубков и труб контура охлаждения двигателя. | |
15 | Проверка надежности крепления хомутов патрубка и труб контура охлаждения двигателя. | |
16 | Удаление пыли и загрязнений со стенок двигателя. | |
17 | Проверка надежности соединений разъемов датчиков двигателя. | |
18 | Удаление пыли и загрязнений с трубок топливной системы и топливного насоса. | |
19 | Проверка отсутствия подтеков топлива. | |
20 | Удаление пыли и загрязнений с фильтров технологических жидкостей ДГУ. | |
21 | Проверка надежности крепления фильтров. Проверка на отсутствие подтеков. | |
22 | Удаление пыли и загрязнения с поверхности низковольтного генератора и электропроводки. | |
23 | Проверка надежности соединения клемм электропроводки. | |
24 | Проверка заполнения стакана сапуна картера двигателя. | |
25 | Удаление пыли и загрязнения с поверхности аккумуляторов и стартеров. | |
26 | Проверка надежности крепления электропроводки к клеммам аккумуляторов и стартеров. | |
27 | Удаление пыли и загрязнений с поверхности на закрепленной за дежурным территории. | |
28 | Снять блокираторы запуска ДГУ, восстановив исходное состояние кнопок аварийного останова и скинув ошибки на панели ДГУ. | |
После завершения работ по ТРМ необходимо произвести еженедельный запуск, для проверки работоспособности всех систем. |
Отметим, что регламент и его идеология полностью применимы к любой критически важной системе энергоснабжения в целом. Также важно следить за чистотой и состоянием работы ИБП. Пыль, например, может влиять на работу вентиляторов и вывести ИБП из строя в самый неподходящий момент. О том, как мы боремся с пылью, мои коллеги рассказывали в одной из наших первых статей на Хабре.