Как стать автором
Обновить
2368
МТС
Про жизнь и развитие в IT

Приручая хаос: как структурировать процессы в эксплуатационных командах. Кейс МТС

Время на прочтение6 мин
Количество просмотров666

Всем привет! Это Гриша Капцов. Я работаю в Отделе координации и поддержки продуктовых команд в МТС Web Services. А еще — умею повелевать хаосом (вместе с коллегами, конечно же).

В мире ИТ-эксплуатации хаос — привычное состояние. Представьте: утро, вы приступаете к работе — и тут внезапно падает ключевой сервис. Пока инженеры устраняют инцидент, поступает эскалация от бизнеса — критическая система тоже работает с перебоями. Тем временем в календаре стоит запланированное обновление инфраструктуры, которое нельзя откладывать. Ну и о какой предсказуемости тут может идти речь? В таких условиях традиционные подходы к управлению задачами часто дают сбой: приоритеты меняются на лету, задачи теряются, нагрузка распределяется неравномерно.

Дальше будем разбираться, как структурировать процессы, снизить перегрузку и повысить прозрачность работы. Покажу, как адаптировать ключевые принципы Kanban и Scrum под эксплуатационные реалии. Думаю, этот пост будет полезен инженерам эксплуатации, DevOps-командам, специалистам службы поддержки и всем, кто сталкивается с динамичными задачами в ИТ.

Работа в условиях хаоса

Эта фраза идеально описывает работу эксплуатационных команд в ИТ. Вот несколько примеров задач, которые для нас — серые будни:

  • срочное устранение инцидентов. Например, внезапно ломается сервер, поддерживающий работу клиентского приложения. Тогда команда должна оперативно найти и устранить причину сбоя;

  • управление эскалированными проблемами. Если на первом уровне поддержки решить задачу не удается, ее передают нам. Например, если клиент не может провести операцию, а причина — в сложном системном сбое, задача моментально становится критической;

  • внедрение изменений. Переход на новую версию базы данных или развертывание обновленного микросервиса требуют тщательной координации, иначе начнутся сбои;

  • обслуживание инфраструктуры и сервисов. Мониторинг нагрузки, резервное копирование, настройка серверов и другие регулярные меры, которые позволяют ИТ-системе стабильно работать. 

Все эти задачи поступают из разных источников, часто конфликтуют по приоритетам и требуют немедленного реагирования. Если нет четкой и понятной системы управления, команда рискует столкнуться с такими неприятностями:

  • работа будет невидимой. Вот инженер всю смену тушит пожары: устраняет инциденты, консультирует коллег, отвечает на экстренные запросы. Но в отчетах его работа не фиксируется, ведь задачи приходили хаотично и не были отражены в системе. В итоге создается впечатление, что он «ничего не делает»;

  • вы потеряете эффективность, потому что множество задач придется отрабатывать параллельно. Допустим, специалист начинает разбираться с падением базы данных, но тут же поступает срочный запрос на устранение сетевого сбоя. В попытках разорваться между задачами он теряет концентрацию, переключается туда-сюда. В итоге не успевает качественно решить ни одну из проблем;

  • незавершенные работы будут накапливаться и замедлять поток. Из-за постоянных переключений команда может не успеть закончить даже простые задачи. В бэклоге набираются недоделанные обновления, отложенные тикеты, долгие расследования инцидентов. Все это тянет работу вниз, замедляя процесс и повышая уровень стресса в команде.

Теперь главный вопрос: как не терять эффективность и спасти сотрудников от выгорания? Конечно, нужно найти метод, который поможет структурировать процессы и сохранить продуктивность. Вариантов тут несколько.

Классический Scrum подходит для работы с четко спланированными задачами в фиксированных итерациях. Но, как вы уже поняли, эксплуатационные команды сталкиваются с другой реальностью: иногда запросы решаются за минуту, а иногда — за месяцы. Жесткие рамки спринта не позволяют учитывать эту вариативность. К тому же решение и обработка запросов широко декомпозируются. Каждую подзадачу можно оформить как отдельную, и она прекрасно ляжет в итерационный процесс.

Получается, тут нужен баланс между гибкостью и структурой. Именно поэтому мы решили замиксовать Scrum и Kanban. Это позволило нам взять преимущества обоих методов и эффективно справляться с нагрузкой. Подробнее об этом еще скажу ниже, а пока — о втором методе.

Kanban в эксплуатационных командах

Коротко о базе. Kanban — это метод управления работой, который основывается на визуализации процессов и ограничении незавершенных задач (WIP-лимиты). Представьте доску, где все задачи команды распределены по колонкам: «В работе», «Ожидание» и «Готово». Если в колонке «В работе» уже висит максимальное количество задач, новые брать нельзя, пока не завершены текущие. Такой подход предотвращает перегрузку, помогает сфокусироваться на выполнении задач до конца и обеспечивает прозрачность процессов.

Теперь о том, как адаптировать его для эксплуатационных команд.

Шаг 1. Разделить поток на типы работ. Для повышения управляемости и прозрачности Kanban-доска должна отражать разные типы задач:

  • инциденты — высокий приоритет, требует немедленного решения. Например, падение сервиса;

  • плановые изменения — запросы, связанные с обновлением систем, внедрением новых функций;

  • обслуживание — например, мониторинг или резервное копирование; 

  • улучшения — долгосрочные инициативы по повышению качества сервисов или автоматизации.

Каждый тип работ можно отобразить отдельными потоками или колонками на доске, чтобы не смешивать задачи с разным приоритетом и временем исполнения.

Шаг 2. Ограничить незавершенные задачи (WIP-лимиты). Для каждого типа задач устанавливаются WIP-лимиты. Например:

  • не более пяти инцидентов в активной обработке;

  • не более трех параллельных изменений;
    не более двух задач на улучшения.

Это защищает сотрудников от перегрузки и помогает сконцентрироваться на том, чтобы вовремя завершить текущую работу.

Шаг 3. Учесть SLA. В эксплуатационных командах важно соблюдать сроки выполнения задач, особенно если это инциденты. В Kanban-доске можно добавить индикаторы времени — например, SLA-метки или оставшийся период до дедлайна.

Шаг 4. Расставить приоритеты. Инциденты, не решенные в установленный срок, автоматически эскалируются. На доске можно выделить зону для задач, требующих вмешательства руководителя или другой команды.

Шаг 5. Обеспечить прозрачность и координацию. Kanban-доска позволяет всем заинтересованным видеть текущий статус задач. Это особенно важно при взаимодействии между группами (например, сетевой отдел, DevOps, служба мониторинга), когда над одним проектом работают несколько специалистов.

Kanban-каденции

Kanban-каденции — это регулярные встречи команды эксплуатации. Тут можно выделить:

  • ежедневные Kanban-митинги — обсуждаются статусы задач, собирается обратная связь от коллег и анализируются возможные проблемы;

  • встречи по пополнению доски — определение приоритетных задач для добавления в работу;

  • обзор сервиса поставки — анализ эффективности процесса и поиск возможностей для улучшения.

Благодаря регулярным встречам мы видим, где возникают задержки, как распределяется нагрузка и как меняется производительность. Объективно оценивать эти показатели помогают метрики. Дальше — как раз о них.

О метриках

А вот что важно для нас:

  • Cycle Time, или время выполнения. Помогает анализировать, сколько времени нужно для завершения задачи от начала до конца;

  • процент выполнения SLA. Показывает, насколько команда соответствует ожиданиям клиентов;

  • среднее количество WIP. Эта метрика помогает выявить узкие места. Например, если команда эксплуатации регулярно упирается в лимит незавершенных задач, это может указывать на недостаток ресурсов, слишком долгие согласования или зависимость от других команд;

  • частота инцидентов. Позволяет анализировать и прогнозировать нагрузку.

Отслеживать эти показатели можно с помощью Jira Service Management, ServiceNow, Kanbanize и других инструментов.

Наш опыт внедрения Scrum и Kanban

Как я уже сказал выше, мы комбинируем подходы Scrum и Kanban. Так у нас лучше получается сбалансировать долгосрочное планирование и оперативное выполнение задач.

Kanban-доска отражает эпики — крупные блоки без привязки к датам. Они помогают видеть общие направления работы. В классическом понимании Kanban обычно не подразумевает работу с эпиками, это больше характерно для Scrum и гибридных методологий. Но в эксплуатационной команде использование эпиков как крупных блоков работ — допустимый подход.

Доска с элементами Scrum — без жестких итераций. В ней собраны конкретные задачи, которые берутся в недельные спринты и прорабатываются командой.

Для аналитики каждая задача помечается двумя хештегами из заранее определенного каталога. Хештег первого уровня указывает на сервис или систему. Второго — уточняет тип запроса. 

Чего мы добились с таким подходом:

  • обеспечили прозрачность работы. Теперь у нас есть четкое разделение стратегических (эпики) и тактических (задачи) активностей;

  • контролируем нагрузку. Спринты помогают ограничивать объем задач, а Kanban-доска дает обзор долгосрочных целей;

  • анализируем обращения и эффективно используем ресурсы. С хештегами мы видим, на каких сервисах максимум нагрузки и какие работы требуют больше внимания. Это помогает распределять ресурсы и планировать улучшения.

Структурируя поток задач и используя WIP-лимиты, мы научились справляться с непредсказуемой работой, концентрироваться на важном и избегать перегрузок. Хаос, конечно, никуда не делся, но нам удалось его приручить.

Теги:
Хабы:
+4
Комментарии0

Полезные ссылки

Как сделать централизованное логирование и крепко спать по ночам

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров7.4K
Всего голосов 33: ↑33 и ↓0+42
Комментарии5

Пайплайн распознавания номеров транспортных средств: как это устроено

Время на прочтение7 мин
Количество просмотров1.4K
Всего голосов 17: ↑16 и ↓1+17
Комментарии1

Интеграция виджета обратного звонка МТС Exolve в документацию на MkDocs

Время на прочтение8 мин
Количество просмотров365
Всего голосов 5: ↑5 и ↓0+7
Комментарии0

Путь видео в онлайн-кинотеатрах от «стекла до стекла». Middleware — ядро, подписки, сервисы, витрина

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров670
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

Информация

Сайт
www.mts.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия