В арт-аутсорсе часто возникает парадоксальная ситуация: проект формально растёт, показатели выглядят хорошо, команда справляется, но непонятно, насколько система устойчива и как долго выдержит текущий темп.

Когда я впервые столкнулась с этим, стало ясно: нам не хватает не процессов, а измеримости. Казалось бы - изучай, внедряй, пользуйся. Но в арт-аутсорсе ААА-тайтлов мы работаем с художниками, которые приходят делать качество, а не количество. А сами проекты зависят от клиента, арт-видения и постоянно меняющихся приоритетов.

На старте это выглядит так:

  • художники воспринимают любые цифры как попытку оцифровать творчество;

  • тимлиды опасаются, что показатели превратятся в KPI;

  • менеджер стоит по другую сторону - ему нужна прозрачность, потому что бизнес ждёт управляемый пайплайн.

Любое неосторожное "замеряем" разрушает доверие. Поэтому я искала способ внедрить метрики так, чтобы они стали инструментом навигации, а не контроля; и чтобы команда со временем сама начала ими пользоваться.

Постепенно из этого выросла система на четырёх показателях: estimation accuracy, task complexity, variability и volatility. В этой статье я разберу, как она устроена, какие сигналы даёт и как внедрить её без потери доверия команды.

Метрики не делают систему идеальной. Но правильно внедрённые, они делают её наблюдаемой, а значит, управляемой.

Контекст: почему аутсорс ААА тайтлов - особая среда

Геймдев аутсорс ААА тайтлов - это чаще производство арт-контента (персонажи, окружение, VFX, анимация) для крупных игровых студий. Несколько ключевых особенностей делают управление здесь нетривиальным:

  • Высокая вариативность задач: сегодня команда делает продакшн-ассет по чёткому брифу, завтра - эксплоративную работу с частично определённым стилем и несколькими раундами согласования с клиентом.

  • Волатильный входящий поток: приоритеты на клиентской стороне меняются, к плановым задачам добавляются срочные вставки, объём работы между периодами может отличаться на 30-40%.

  • IP-зависимость: многие задачи проходят через approval-лупы, которые не всегда предсказуемы по длительности.

В такой среде стандартные метрики "сдано/не сдано" дают мало сигналов для управления. Нужна другая логика.

Четыре метрики: что это и зачем

Прежде чем переходить к деталям - коротко про саму систему.

Как читать систему: дерево решений для диагностики падения предсказуемости
Как читать систему: дерево решений для диагностики падения предсказуемости

Estimation accuracy (точность оценок) - процент задач, которые попали в плановый коридор по времени. Показывает не то, насколько хорошо команда умеет оценивать, а насколько система в целом предсказуема.

Task complexity (сложность задачи) - уровень неопределённости на входе: насколько чёткий бриф, есть ли зависимости от клиента, знаком ли пайплайн. Не объём работы, а её природа.

Variability (изменчивость микса) - насколько сильно меняется состав типов задач от периода к периоду. Высокая variability означает, что система постоянно переключается между разными режимами работы.

Volatility (волатильность потока) - насколько сильно флуктуирует объём входящей работы. Отличается от variability: это не про типы задач, а про их количество.

Каждая из них по отдельности даёт частичную картину. Вместе они позволяют PM читать систему и понимать, что именно менять, когда что-то идёт не так.

Шаг первый: estimation accuracy как индикатор предсказуемости системы

Обычно точность оценки воспринимается как показатель того, насколько хорошо команда умеет оценивать задачи. Я смотрю на это иначе.

Estimation accuracy - это не про точность людей. Это про предсказуемость системы.

Когда я вводила эту метрику, для меня было принципиально важно не превратить её в инструмент контроля. Я специально выстраивала её как опережающий индикатор - ранний сигнал о том, что неопределённость в системе начинает расти.

Как считаем

Мы сравниваем плановое время с фактическим и проверяем, попадает ли задача в допустимый коридор - не точку, а диапазон. Например:

  • Оценка: 10 часов → попадание: 8-12 часов (±20%)

Нас интересует не отдельная задача, а процент попаданий за период (месяц).

Что читаем в тренде

Стабильный диапазон - скажем, 75–85% - гораздо полезнее для управления, чем резкие колебания между "идеально" и "провалено". Когда процент начинает устойчиво снижаться, это сигнал: что-то в системе меняется. Типы задач, сложность, требования, договорённости на входе.

Важно: одно падение - почти никогда не проблема. Устойчивый нисходящий тренд на нескольких периодах - вот повод остановиться и разобраться.

Парадоксально, но "идеальная" точность - 95%+ - тоже сигнал. Чаще всего это означает чрезмерные буферы или заниженные ожидания.

Чего не делаем ни при каких условиях

Estimation accuracy никогда не становится персональным KPI и не используется для сравнения команд. В этот момент метрика перестаёт быть навигационным инструментом и превращается в источник защитного поведения, как раз теряя всякую управленческую ценность.

Шаг второй: сложность задачи как контекст для оценки

Estimation accuracy хорошо показывает, что система становится менее стабильной, но не объясняет, почему.

Задачи с одинаковой оценкой могут вести себя совершенно по-разному. Не потому что команда "плохо оценила", а потому что природа работы разная. Именно здесь появляется второе измерение - task complexity.

Сложность - это про неопределённость, не про объём

Два ассета, оба оценены в 10 часов:

  • Ассет А: продакшн по знакомому пайплайну, чёткие требования, предсказуемый результат.

  • Ассет Б: тот же размер, но новый визуальный стиль, частично определённый бриф, несколько стейкхолдеров в ревью.

На бумаге оценка одинакова. Профиль неопределённости - нет. Если эту разницу не сделать явной, обе задачи планируются и трекаются одинаково. И именно здесь предсказуемость начинает ломаться.

Как complexity меняет планирование

Когда мы начали учитывать сложность рядом с оценкой, планирование перестало быть простой арифметикой и стало разговором о распределении рисков. Вместо "влезем ли мы в объём?" мы стали спрашивать "где мы берём риск - и почему?".

Одна и та же оценка начала означать разные вещи:

  • Для задач низкой сложности - это обязательство.

  • Для задач высокой сложности - это гипотеза, а не обещание.

Это же дало возможность перейти от точечного планирования к коридорному: более сложные задачи получают более широкий допуск, простые стабилизируют общий план. Предсказуемость на уровне системы ул��чшилась, даже когда отдельные задачи вели себя непредсказуемо.

Побочный эффект на команду оказался не менее важным: когда сложность обсуждается заранее, защитное поведение снижается. Риски поднимаются раньше, а разговоры смещаются от "почему мы не попали в оценку?" к "где появилась неопределённость?"

Шаг третий: variability - изменчивость микса задач

Даже при нормальной estimation accuracy и понимании complexity системы теряют предсказуемость. Одна из частых причин - variability.

Variability - это не про то, насколько сложны отдельные задачи. Это про то, насколько сильно меняется состав работы со временем. Можно иметь ту же команду, тот же объём и приемлемую точность оценок, и всё равно терять предсказуемость, если типы задач постоянно меняются.

Пример

Два месяца. Та же команда. Тот же объём.

Месяц А

Месяц Б

Состав

~70% продакшн, ~20% правки, ~10% эксплоративное

~35% продакшн, ~40% правки, ~25% эксплоративное

Предсказуемость

Высокая

Низкая

На бумаге оба месяца "сбалансированы". На практике месяц Б сложнее планировать и прогнозировать - не из-за людей, а из-за структуры работы.

Как считаем

Мы отслеживаем распределение типов задач за период в процентах от общего объёма. Например: продакшн - 70%, правки - 20%, эксплоративное - 10%. Если в следующем периоде эти доли значительно смещаются, variability высокая - даже если общий объём часов тот же.

Никакой сложной математики: достаточно смотреть на изменение долей от периода к периоду. Устойчивое смещение на 15-20% в одном из типов - уже повод обратить внимание.

Когда variability растёт, реакция - не "попросить команду точнее оценивать", а изменение операционной логики:

  • Группировать похожие задачи, чтобы сократить переключение контекста

  • Защищать часть команды от нестабильного входящего потока

  • Закладывать более широкие коридоры на период с высоким миксом

Шаг четвёртый: volatility - волатильность входящего потока

Даже если мы понимаем сложность и следим за миксом задач, системы могут ощущаться нестабильными. Следующая причина - volatility.

Volatility - это не про типы задач. Это про то, насколько сильно флуктуирует объём входящей работы.

Можно иметь стабильную команду, знакомый микс задач и хорошие оценки, и всё равно терять предсказуемость, если количество входящих задач постоянно прыгает.

Пример

Период А

Период Б

Отклонение от плана

Небольшое, управляемое

+30-40% за счёт срочных вставок

Режим работы

Проактивный

Реактивный

В периоде Б ничего "не сломалось". Просто изменился объём входа - и это и есть volatility.

Как считаем

Volatility - это отклонение входящего объёма работы от среднего за последние N периодов. Например: если в среднем за квартал команда получает 200 задач в месяц, а в конкретном месяце пришло 280 - отклонение составляет +40%. Именно это число мы и отслеживаем в динамике. Резкий рост отклонения от периода к периоду - сигнал, что система переходит в реактивный режим.

Почему её часто неправильно диагностируют

Высокую volatility часто принимают за плохое планирование или низкую производительность команды. На практике система просто работает в нестабильных условиях входящего потока. Попытки "зафиксировать план" в такой среде, как правило, делают всё хуже.

Когда volatility растёт, мы не просим команду работать быстрее. Мы меняем режим работы системы:

  • Резервируем часть capacity под незапланированные задачи

  • Устанавливаем явные WIP-лимиты

  • Планируем с буферами вместо фиксированных обязательств

  • Заранее коммуницируем стейкхолдерам, что предсказуемость в этот период будет ниже

Как эти метрики работают вместе: реальный сценарий

Отдельно каждая метрика даёт частичную картину. Вместе они позволяют читать систему.

Ситуация: середина продакшна, деливери становится менее предсказуемым. Прогнозы не держатся, правочные итерации растут, дедлайны давят.

Что показывают метрики:

Метрика

Было

Стало

Что это значит

Estimation accuracy

~80-85%

~60-65%

Растёт неопределённость, не падает исполнение

Доля high-complexity задач

~20-25%

~40-50%

Оценки стали гипотезами, не обязательствами

Variability

Низкая (~70% продакшн)

Высокая (продакшн + правки + эксплоративное)

Переключение контекста растёт

Volatility

Стабильная

+30-45% от плана

Входящий поток нестабилен

Что делаем:

Улучшать точность оценок здесь - не решение. Вместо этого мы перестраиваем систему:

  • Ограничиваем параллельное выполнение high-complexity задач

  • Выстраиваем последовательность эксплоративных задач, а не запускаем всё одновременно

  • Защищаем часть команды от волатильного входящего потока

  • Расширяем коридоры доставки

  • Синхронизируемся со стейкхолдерами: предсказуемость временно снизится - это осознанное решение, а не сбой

Метрики не говорят нам, что "сломалось". Они помогают понять, что нужно изменить в системе.

Разговор с клиентом о широких коридорах

Один из самых частых практических вопросов: как объяснить клиенту, что коридор деливери стал шире?

Мы никогда не приходим с абстрактным "нам нужно больше времени". Вместо этого - данные и варианты. Показываем на конкретных примерах, как изменился профиль задач: вот задачи такого типа в прошлом занимали столько, сейчас условия изменились - вот почему. Дальше обсуждаем варианты вместе: можем взять задачу при таких условиях с таким коридором, или не брать задачи такого типа при такой неопределённост�� на входе. Это не переговоры об уступках - это совместное управление рисками на основе аналитики.

Что не сработало - и что я из этого вынесла

Два момента, которые изменили то, как я думаю об этих метриках.

1) Ошибка с визуализацией, которая стоила нам доверия команды.

Когда я впервые запустила estimation accuracy, я раскрасила результаты интуитивно: зелёным - задачи, выполненные быстрее оценки, жёлтым - точное попадание в 100%, красным - превышение. Мне такое распределение казалось логичным.

Через несколько недель художники начали нервничать. Оказалось, что жёлтый цвет - "предупреждение" в любом светофоре - они считывали как "почти плохо". А зелёный за "сделали быстрее" создавал давление делать всё как можно быстрее, лишь бы не попасть в жёлтую зону.

Но главная проблема была в другом: мы целились в 70-80% попаданий, а не в 100%. 100% точность - это сигнал тревоги (чрезмерные буферы), а не успех. Когда художник делал задачу точно в оценку и видел жёлтый - у него случался когнитивный коллапс. Он сделал всё правильно, а система говорит "осторожно".

Мы переделали визуализацию полностью: зелёным стало попадание в коридор (например, 80–120% от оценки), синим - выполнение быстрее коридора, красным - выход за верхнюю границу. Жёлтого не осталось вовсе. И отдельно - график процента попаданий по периодам, где целевая зона явно обозначена как 70–80%, а не 100%.

После этого разговоры с командой изменились. Метрика перестала восприниматься как оценка людей.

2) Когда estimation accuracy выглядела нормально, но система ощущалась нестабильной. Именно тогда мы добавили variability и volatility. Оказалось, что стабильный процент попаданий может маскировать хаос на входе, просто потому что команда адаптируется к нему молча, за счёт сверхурочных и срезанных углов.

Как внедрить: практика

Прежде чем запускать систему - про то, как она живёт на практике. Потому что именно здесь большинство внедрений ломается.

С чего начинать

Не со всех четырёх метрик сразу. Начинайте с одной - estimation accuracy. Она самая понятная для объяснения команде и сразу даёт сигналы, которые можно обсуждать на конкретных примерах.

Первый разговор с лидами я строила не вокруг "давайте внедрим метрику", а вокруг вопроса: "Как мы сейчас понимаем, что план реалистичен?" Обычно выяснялось, что никак и скорее интуитивно. Estimation accuracy стала ответом на этот вопрос, а не новым требованием сверху.

Кто и что делает

Лид выставляет сложность задачи (low / medium / high) при распределении и анализе ТЗ. Это происходит до старта задачи - как часть обычного планирования, а не отдельный процесс. Лид лучше всего понимает природу задачи: насколько чёткий бриф, есть ли зависимости от клиента, насколько знаком пайплайн.

PM забирает данные из Jira через фильтры, обрабатывает в Google Sheets и обновляет дашборд статистики раз в месяц. Анализ трендов происходит раз в 3-6 месяцев, в зависимости от того, насколько стабильна система. Если что-то начинает меняться - смотрим чаще.

Как технически устроен сбор

Никакой магии: фильтры в Jira по периоду, выгрузка в таблицу, формулы в Google Sheets. Для estimation accuracy нужны два поля - плановое время и фактическое. Для complexity - кастомное поле в задаче, которое заполняет лид. Для variability и volatility достаточно тегов типа задачи и данных о входящем объёме за период.

Дашборд состоит из трёх уровней.

Сводный уровень - estimation accuracy по типам задач и стадиям продакшена за каждый месяц в виде таблицы и двух графиков: общий тренд по всем типам и разбивка по каждому. Это первый экран, который открываешь - он сразу показывает, где система стабильна, а где начинается расхождение.

Уровень тасков - детализация по каждой задаче: тип, сложность (complexity), estimation, фактическое время и diff. Здесь видно, какие конкретно задачи выбиваются из коридора и есть ли паттерн - например, все промахи на задачах с complexity 3 или на конкретном типе.

Уровень сабтасков - разбивка по стадиям (Proto, Highpoly, Lowpoly+Bake, Textures) с цветовой индикацией попадания. Этот уровень нужен реже, но помогает понять, на какой именно стадии производства возникает неопределённость.

Первые два месяца это занимало около двух часов в месяц. Когда шаблон устоялся - меньше часа.

Как вводить метрики без потери доверия

Начинайте с объяснения, зачем. Не «мы будем трекать точность оценок», а «мы хотим понимать, где в системе растёт неопределённость, чтобы реагировать заранее, а не постфактум». Разница в формулировке меняет восприятие.

Показывайте данные лидам первыми. Не несите цифры на общую встречу — сначала обсудите с лидом один на один. Покажите, как читать метрику, какие вопросы она помогает задавать. Когда лид сам начинает видеть в ней инструмент, а не контроль — он транслирует это команде.

Никогда не используйте метрики для сравнения людей или команд. Это правило без исключений. Как только цифра начинает использоваться как KPI — она перестаёт быть навигационным инструментом и становится источником защитного поведения.

Дайте метрике время стать общей. У нас это заняло несколько месяцев. Сначала данные были «моими». Потом лиды начали сами спрашивать: «А как у нас с точностью в этом месяце?» Это и есть момент, когда система заработала.

Итог: метрика работает, когда команда сама её запрашивает

Для меня самый чёткий признак управляемой системы — не когда метрики отчитываются наверх, а когда команда сама начинает ими пользоваться.

После нескольких месяцев работы с estimation accuracy лиды сами попросили добавить параметры. Сначала — посмотреть на корреляцию точности со сложностью задачи. Потом — отслеживать изменения микса. Метрика перестала быть «моей» и стала частью общего языка принятия решений.

Это и есть то, к чему я стремлюсь: не навязывать прозрачность как требование сверху, а проектировать системы, в которых прозрачность становится собственной потребностью команды.

Если вы работаете в геймдеве или смежных областях с высокой вариативностью задач — буду рада обсудить, как эти метрики работают в вашем контексте. В комментариях или напрямую.