Как сделать арт-аутсорс предсказуемым: система метрик для PM / Хабр

В арт-аутсорсе часто возникает парадоксальная ситуация: проект формально растёт, показатели выглядят хорошо, команда справляется, но непонятно, насколько система устойчива и как долго выдержит текущий темп.

Когда я впервые столкнулась с этим, стало ясно: нам не хватает не процессов, а измеримости. Казалось бы - изучай, внедряй, пользуйся. Но в арт-аутсорсе ААА-тайтлов мы работаем с художниками, которые приходят делать качество, а не количество. А сами проекты зависят от клиента, арт-видения и постоянно меняющихся приоритетов.

На старте это выглядит так:

художники воспринимают любые цифры как попытку оцифровать творчество;
тимлиды опасаются, что показатели превратятся в KPI;
менеджер стоит по другую сторону - ему нужна прозрачность, потому что бизнес ждёт управляемый пайплайн.

Любое неосторожное "замеряем" разрушает доверие. Поэтому я искала способ внедрить метрики так, чтобы они стали инструментом навигации, а не контроля; и чтобы команда со временем сама начала ими пользоваться.

Постепенно из этого выросла система на четырёх показателях: estimation accuracy, task complexity, variability и volatility. В этой статье я разберу, как она устроена, какие сигналы даёт и как внедрить её без потери доверия команды.

Метрики не делают систему идеальной. Но правильно внедрённые, они делают её наблюдаемой, а значит, управляемой.

Контекст: почему аутсорс ААА тайтлов - особая среда

Геймдев аутсорс ААА тайтлов - это чаще производство арт-контента (персонажи, окружение, VFX, анимация) для крупных игровых студий. Несколько ключевых особенностей делают управление здесь нетривиальным:

Высокая вариативность задач: сегодня команда делает продакшн-ассет по чёткому брифу, завтра - эксплоративную работу с частично определённым стилем и несколькими раундами согласования с клиентом.
Волатильный входящий поток: приоритеты на клиентской стороне меняются, к плановым задачам добавляются срочные вставки, объём работы между периодами может отличаться на 30-40%.
IP-зависимость: многие задачи проходят через approval-лупы, которые не всегда предсказуемы по длительности.

В такой среде стандартные метрики "сдано/не сдано" дают мало сигналов для управления. Нужна другая логика.

Четыре метрики: что это и зачем

Прежде чем переходить к деталям - коротко про саму систему.

Как читать систему: дерево решений для диагностики падения предсказуемости

Estimation accuracy (точность оценок) - процент задач, которые попали в плановый коридор по времени. Показывает не то, насколько хорошо команда умеет оценивать, а насколько система в целом предсказуема.

Task complexity (сложность задачи) - уровень неопределённости на входе: насколько чёткий бриф, есть ли зависимости от клиента, знаком ли пайплайн. Не объём работы, а её природа.

Variability (изменчивость микса) - насколько сильно меняется состав типов задач от периода к периоду. Высокая variability означает, что система постоянно переключается между разными режимами работы.

Volatility (волатильность потока) - насколько сильно флуктуирует объём входящей работы. Отличается от variability: это не про типы задач, а про их количество.

Каждая из них по отдельности даёт частичную картину. Вместе они позволяют PM читать систему и понимать, что именно менять, когда что-то идёт не так.

Шаг первый: estimation accuracy как индикатор предсказуемости системы

Обычно точность оценки воспринимается как показатель того, насколько хорошо команда умеет оценивать задачи. Я смотрю на это иначе.

Estimation accuracy - это не про точность людей. Это про предсказуемость системы.

Когда я вводила эту метрику, для меня было принципиально важно не превратить её в инструмент контроля. Я специально выстраивала её как опережающий индикатор - ранний сигнал о том, что неопределённость в системе начинает расти.

Как считаем

Мы сравниваем плановое время с фактическим и проверяем, попадает ли задача в допустимый коридор - не точку, а диапазон. Например:

Оценка: 10 часов → попадание: 8-12 часов (±20%)

Нас интересует не отдельная задача, а процент попаданий за период (месяц).

Что читаем в тренде

Стабильный диапазон - ск��жем, 75–85% - гораздо полезнее для управления, чем резкие колебания между "идеально" и "провалено". Когда процент начинает устойчиво снижаться, это сигнал: что-то в системе меняется. Типы задач, сложность, требования, договорённости на входе.

Важно: одно падение - почти никогда не проблема. Устойчивый нисходящий тренд на нескольких периодах - вот повод остановиться и разобраться.

Парадоксально, но "идеальная" точность - 95%+ - тоже сигнал. Чаще всего это означает чрезмерные буферы или заниженные ожидания.

Чего не делаем ни при каких условиях

Estimation accuracy никогда не становится персональным KPI и не используется для сравнения команд. В этот момент метрика перестаёт быть навигационным инструментом и превращается в источник защитного поведения, как раз теряя всякую управленческую ценность.

Шаг второй: сложность задачи как контекст для оценки

Estimation accuracy хорошо показывает, что система становится менее стабильной, но не объясняет, почему.

Задачи с одинаковой оценкой могут вести себя совершенно по-разному. Не потому что команда "плохо оценила", а потому что природа работы разная. Именно здесь появляется второе измерение - task complexity.

Сложность - это про неопределённость, не про объём

Два ассета, оба оценены в 10 часов:

Ассет А: продакшн по знакомому пайплайну, чёткие требования, предсказуемый результат.
Ассет Б: тот же размер, но новый визуальный стиль, частично определённый бриф, несколько стейкхолдеров в ревью.

На бумаге оценка одинакова. Профиль неопределённости - нет. Если эту разницу не сделать явной, обе задачи планируются и трекаются одинаково. И именно здесь предсказуемость начинает ломаться.

Как complexity меняет планирование

Когда мы начали учитывать сложность рядом с оценкой, планирование перестало быть простой арифметикой и стало разговором о распределении рисков. Вместо "влезем ли мы в объём?" мы стали спрашивать "где мы берём риск - и почему?".

Одна и та же оценка начала означать разные вещи:

Для задач низкой сложности - это обязательство.
Для задач высокой сложности - это гипотеза, а не обещание.

Это же дало возможность перейти от точечного планирования к коридорному: более сложные задачи получают более широкий допуск, простые стабилизируют общий план. Предсказуемость на уровне системы улучшилась, даже когда отдельные задачи вели себя непредсказуемо.

Побочный эффект на команду оказался не менее важным: когда сложность обсуждается заранее, защитное поведение снижается. Риски поднимаются раньше, а разговоры смещаются от "почему мы не попали в оценку?" к "где появилась неопределённость?"

Шаг третий: variability - изменчивость микса задач

Даже при нормальной estimation accuracy и понимании complexity системы теряют предсказуемость. Одна из частых причин - variability.

Variability - это не про то, насколько сложны отдельные задачи. Это про то, насколько сильно меняется состав работы со временем. Можно иметь ту же команду, тот же объём и приемлемую точность оценок, и всё равно терять предсказуемость, если типы задач постоянно меняются.

Пример

Два месяца. Та же команда. Тот же объём.

	Месяц А	Месяц Б
Состав	~70% продакшн, ~20% правки, ~10% эксплоративное	~35% продакшн, ~40% правки, ~25% эксплоративное
Предсказуемость	Высокая	Низкая

На бумаге оба месяца "сбалансированы". На практике месяц Б сложнее планировать и прогнозировать - не из-за людей, а из-за структуры работы.

Как считаем

Мы отслеживаем распределение типов задач за период в процентах от общего объёма. Например: продакшн - 70%, правки - 20%, эксплоративное - 10%. Если в следующем периоде эти доли значительно смещаются, variability высокая - даже если общий объём часов тот же.

Никакой сложной математики: достаточно смотреть на изменение долей от периода к периоду. Устойчивое смещение на 15-20% в одном из типов - уже повод обратить внимание.

Когда variability растёт, реакция - не "попросить команду точнее оценивать", а изменение операционной логики:

Группировать похожие задачи, чтобы сократить переключение контекста
Защищать часть команды от нестабильного входящего потока
Закладывать более широкие коридоры на период с высоким миксом

Шаг четвёртый: volatility - волатильность входящего потока

Даже если мы понимаем сложность и следим за миксом задач, системы могут ощущаться нестабильными. Следующая причина - volatility.

Volatility - это не про типы задач. Это про то, насколько сильно флуктуирует объём входящей работы.

Можно иметь стабильную команду, знакомый микс задач и хорошие оценки, и всё равно терять предсказуемость, если количество входящих задач постоянно прыгает.

Пример

	Период А	Период Б
Отклонение от плана	Небольшое, управляемое	+30-40% за счёт срочных вставок
Режим работы	Проактивный	Реактивный

В периоде Б ничего "не сломалось". Просто изменился объём входа - и это и есть volatility.

Как считаем

Volatility - это отклонение входящего объёма работы от среднего за последние N периодов. Например: если в среднем за квартал команда получает 200 задач в месяц, а в конкретном месяце пришло 280 - отклонение составляет +40%. Именно это число мы и отслеживаем в динамике. Резкий рост отклонения от периода к периоду - сигнал, что система переходит в реактивный режим.

Почему её часто неправильно диагностируют

Высокую volatility часто принимают за плохое планирование или низкую производительность команды. На практике система просто работает в нестабильных условиях входящего потока. Попытки "зафиксировать план" в такой среде, как правило, делают всё хуже.

Когда volatility растёт, мы не просим команду работать быстрее. Мы меняем режим работы системы:

Резервируем часть capacity под незапланированные задачи
Устанавливаем явные WIP-лимиты
Планируем с буферами вместо фиксированных обязательств
Заранее коммуницируем стейкхолдерам, что предсказуемость в этот период будет ниже

Как эти метрики работают вместе: реальный сценарий

Отдельно каждая метрика даёт частичную картину. Вместе они позволяют читать систему.

Ситуация: середина продакшна, деливери становится менее предсказуемым. Прогнозы не держатся, правочные итерации растут, дедлайны давят.

Что показывают метрики:

Метрика	Было	Стало	Что это значит
Estimation accuracy	~80-85%	~60-65%	Растёт неопределённость, не падает исполнение
Доля high-complexity задач	~20-25%	~40-50%	Оценки стали гипотезами, не обязательствами
Variability	Низкая (~70% продакшн)	Высокая (продакшн + правки + эксплоративное)	Переключение контекста растёт
Volatility	Стабильная	+30-45% от плана	Входящий поток нестабилен

Что делаем:

Улучшать точность оценок здесь - не решение. Вместо этого мы перестраиваем систему:

Ограничиваем параллельное выполнение high-complexity задач
Выстраиваем последовательность эксплоративных задач, а не запускаем всё одновременно
Защищаем часть команды от волатильного входящего потока
Расширяем коридоры доставки
Синхронизируемся со стейкхолдерами: предсказуемость временно снизится - это осознанное решение, а не сбой

Метрики не говорят нам, что "сломалось". Они помогают понять, что нужно изменить в системе.

Разговор с клиентом о широких коридорах

Один из самых частых практических вопросов: как объяснить клиенту, что коридор деливери стал шире?

Мы никогда не приходим с абстрактным "нам нужно больше времени". Вместо этого - данные и варианты. Показываем на конкретных примерах, как изменился профиль задач: вот задачи такого типа в прошлом занимали столько, сейчас условия изменились - вот почему. Дальше обсуждаем варианты вместе: можем взять задачу при таких условиях с таким коридором, или не брать задачи такого типа при такой неопределённости на входе. Это не переговоры об уступках - это совместное управление рисками на основе аналитики.

Что не сработало - и что я из этого вынесла

Два момента, которые изменили то, как я думаю об этих метриках.

1) Ошибка с визуализацией, которая стоила нам доверия команды.

Когда я впервые запустила estimation accuracy, я раскрасила результаты интуитивно: зелёным - задачи, выполненные быстрее оценки, жёлтым - точное попадание в 100%, красным - превышение. Мне такое распределение казалось логичным.

Через несколько недель художники начали нервничать. Оказалось, что жёлтый цвет - "предупреждение" в любом светофоре - они считывали как "почти плохо". А зелёный за "сделали быстрее" создавал давление делать всё как можно быстрее, лишь бы не попасть в жёлтую зону.

Но главная проблема была в другом: мы целились в 70-80% попаданий, а не в 100%. 100% точность - это сигнал тревоги (чрезмерные буферы), а не успех. Когда художник делал задачу точно в оценку и видел жёлтый - у него случался когнитивный коллапс. Он сделал всё правильно, а система говорит "осторожно".

Мы переделали визуализацию полностью: зелёным стало попадание в коридор (например, 80–120% от оценки), синим - выполнение быстрее коридора, красным - выход за верхнюю границу. Жёлтого не осталось вовсе. И отдельно - график процента попаданий по периодам, где целевая зона явно обозначена как 70–80%, а не 100%.

После этого разговоры с командой изменились. Метрика перестала восприниматься как оценка людей.

2) Когда estimation accuracy выглядела нормально, но система ощущалась нестабильной. Именно тогда мы добавили variability и volatility. Оказалось, что стабильный процент попаданий может маскировать хаос на входе, просто потому что команда адаптируется к нему молча, за счёт сверхурочных и срезанных углов.

Как внедрить: практика

Прежде чем запускать систему - про то, как она живёт на практике. Потому что именно здесь большинство внедрений ломается.

С чего начинать

Не со всех четырёх метрик сразу. Начинайте с одной - estimation accuracy. Она самая понятная для объяснения команде и сразу даёт сигналы, которые можно обсуждать на конкретных примерах.

Первый разговор с лидами я строила не вокруг "давайте внедрим метрику", а вокруг вопроса: "Как мы сейчас понимаем, что план реалистичен?" Обычно выяснялось, что никак и скорее интуитивно. Estimation accuracy стала ответом на этот вопрос, а не новым требованием сверху.

Кто и что делает

Лид выставляет сложность задачи (low / medium / high) при распределении и анализе ТЗ. Это происходит до старта задачи - как часть обычного планирования, а не отдельный процесс. Лид лучше всего понимает природу задачи: насколько чёткий бриф, есть ли зависимости от клиента, насколько знаком пайплайн.

PM забирает данные из Jira через фильтры, обрабатывает в Google Sheets и обновляет дашборд статистики раз в месяц. Анализ трендов происходит раз в 3-6 месяцев, в зависимости от того, насколько стабильна система. Если что-то начинает меняться - смотрим чаще.

Как технически устроен сбор

Никакой магии: фильтры в Jira по периоду, выгрузка в таблицу, формулы в Google Sheets. Для estimation accuracy нужны два поля - плановое время и фактическое. Для complexity - кастомное поле в задаче, которое заполняет лид. Для variability и volatility достаточно тегов типа задачи и данных о входящем объёме за период.

Дашборд состоит из трёх уровней.

Сводный уровень - estimation accuracy по типам задач и стадиям продакшена за каждый месяц в виде таблицы и двух графиков: общий тренд по всем типам и разбивка по каждому. Это первый экран, который открываешь - он сразу показывает, где система стабильна, а где начинается расхождение.

Уровень тасков - детализация по каждой задаче: тип, сложность (complexity), estimation, фактическое время и diff. Здесь видно, какие конкретно задачи выбиваются из коридора и есть ли паттерн - например, все промахи на задачах с complexity 3 или на конкретном типе.

Уровень сабтасков - разбивка по стадиям (Proto, Highpoly, Lowpoly+Bake, Textures) с цветовой индикацией попадания. Этот уровень нужен реже, но помогает понять, на какой именно стадии производства возникает неопределённость.

Первые два месяца это занимало около двух часов в месяц. Когда шаблон устоялся - меньше часа.

Как вводить метрики без потери доверия

Начинайте с объяснения, зачем. Не «мы будем трекать точность оценок», а «мы хотим понимать, где в системе растёт неопределённость, чтобы реагировать заранее, а не постфактум». Разница в формулировке меняет восприятие.

Показывайте данные лидам первыми. Не несите цифры на общую встречу — сначала обсудите с лидом один на один. Покажите, как читать метрику, какие вопросы она помогает задавать. Когда лид сам начинает видеть в ней инструмент, а не контроль — он транслирует это команде.

Никогда не используйте метрики для сравнения людей или команд. Это правило без исключений. Как только цифра начинает использоваться как KPI — она перестаёт быть навигационным инструментом и становится источником защитного поведения.

Дайте метрике время стать общей. У нас это заняло несколько месяцев. Сначала данные были «моими». Потом лиды начали сами спрашивать: «А как у нас с точностью в этом месяце?» Это и есть момент, когда система заработала.

Итог: метрика работает, когда команда сама её запрашивает

Для меня самый чёткий признак управляемой системы — не когда метрики отчитываются наверх, а когда команда сама начинает ими пользоваться.

После нескольких месяцев работы с estimation accuracy лиды сами попросили добавить параметры. Сначала — посмотреть на корреляцию точности со сложностью задачи. Потом — отслеживать изменения микса. Метрика перестала быть «моей» и стала частью общего языка принятия решений.

Это и есть то, к чему я стремлюсь: не навязывать прозрачность как требование сверху, а проектировать системы, в которых прозрачность становится собственной потребностью команды.

Если вы работаете в геймдеве или смежных областях с высокой вариативностью задач — буду рада обсудить, как эти метрики работают в вашем контексте. В комментариях или напрямую.