Как платформенной команде за 10 минут узнать, что думают внутренние пользователи про её инструменты / Хабр

Представьте: внутренняя команда платформы аналитики завершила квартал и большой набор инициатив, всё прошло по плану. Но тут же при подведении итогов возникает вопрос: «А наши внутренние пользователи заметили разницу? Это как-то повлияло на их работу?». В ответ получаем разрозненные отзывы: где-то похвалили, где-то пожаловались, а где-то вообще промолчали.

В статье расскажу про решение, которое помогло команде платформы аналитики, а затем и целому департаменту аналитики в Туту системно собирать обратную связь и измерять пользовательский опыт. Поделюсь опытом, как нам удалось превратить разрозненные отзывы в систему и как мы заставили метрики «говорить».

Привет! Меня зовут Саша, я системный аналитик в компании Туту. Занимаюсь системным анализом и работой с неопределённостью в команде платформы аналитики.

Мы развиваем сложные аналитические инструменты для внутренних пользователей — других команд компании. Полтора года назад осознали, что действуем порой вслепую. Мы делаем масштабные задачи и полезные изменения: например, внедряем UI-инструмент для подсчёта метрик и подведения итогов АБ-тестов для аналитиков и владельцев продуктов. Но при этом не можем объективно измерить, как это влияет на опыт и работу наших пользователей. Нужен был простой, но системный подход, который превратит набор отдельных мнений разного формата и наполнения в объективные метрики.

Какую проблему решаем

Наша целевая аудитория — это внутренние команды компании: продуктовые аналитики, разработчики и владельцы продуктов. Мы создаём инструменты для их повседневной работы, поэтому отношение к нашим инструментам и сервисам прагматичное и функциональное: важно, чтобы решения помогали быстрее и надежнее выполнять рабочие задачи.

Отношение пользователей к нашим инструментам строится на трёх компонентах:

Функциональность: решает ли инструмент задачу пользователя
Эффективность: насколько быстро и продуктивно у пользователя получается решить задачу
Ощущения от использования: как себя чувствует пользователь после использования инструмента

Классические метрики вроде NPS («Оцените вероятность рекомендации») здесь не помогут: коллега вряд ли будет рекомендовать внутренний инструмент как, например, бренд техники. А единый вопрос CSAT («Насколько вы довольны?») слишком общий и не говорит, что именно нужно улучшать и в каком аспекте есть проблемы.

В процессе выбора подходящей метрики мы столкнулись с проблемами:

Хотим измерять, но не знаем, какие вопросы задавать, чтобы узнать всё, что нам нужно
Как всё это оцифровывать, систематизировать и использовать
Как узнать у пользователя достаточно информации, но не занять при этом час его рабочего времени

В упомянутых выше подходах пользователи склонны давать излишне положительные оценки с формулировкой: «Моя проблема в целом решалась — не буду ставить низкую оценку».

Решение — Temkin Experience Ratings

В поисках ответа мы обнаружили для себя фреймворк Temkin Experience Ratings. И решили применить его для решения нашей задачи.

Его сила в простоте и комплексности.

Он разбивает весь пользовательский опыт на три компонента, которые идеально легли на наши нужды:

Успех (Success): Могу ли я сделать то, зачем пришел? Оценивает функциональность и эффективность
Усилие (Effort): Насколько это было легко? Оценивает простоту использования и требуемые усилия на решение задачи
Эмоция (Emotion): Как я себя после этого чувствую? Оценивает общую удовлетворенность и лояльность

Вот он — готовый каркас для нашего будущего опроса. К тому же, это именно те три компонента, которые мы хотим оценивать, чтобы понимать пользовательский опыт так, как нам это требуется.

Адаптация подхода

Академический подход Temkin Experience Ratings (TER) в чистом виде нам не совсем подошёл, поэтому мы его адаптировали. Исходная анкета оказалась слишком объёмной для регулярного опроса, а используемая в ней шкала излишне размытой: участникам нужно было найти разницу между, например, оценками 2 и 3 или 5 и 6. Нам нужна была простая форма, которую можно разослать раз в квартал и заполнить за 10–15 минут.

В итоге мы взяли за основу три компонента пользовательского опыта в соответствии с TER-подходом, переформулировали вопросы и сделали шкалу ответов словесной — так анкета стала понятнее и удобнее для пользователей.

Пример части нашего опроса для инструмента «Каталог данных»:

Success (в терминах TER)

Оцени, насколько Каталог данных закрывает твои потребности (вопрос про степень достижения ожидаемых результатов при использовании инструмента)?
- Полностью закрывает
- Закрывает большую часть
- Закрывает меньшую часть
- Совсем не закрывает

Effort (в терминах TER)

Оцени, насколько текущий Каталог данных понятен и лёгок в использовании (вопрос про легкость достижения ожидаемых результатов при использовании инструмента)?
- Всегда легко и понятно
- Вопросы возникают редко
- Вопросы возникают часто
- Ничего не понятно

Emotion (в терминах TER)

Оцени свой опыт использования Каталога данных (вопрос про удовлетворённость и ощущения при использовании инструмента).
- Крайне положительный
- Положительный
- Нейтральный
- Негативный
- Крайне негативный

Механика реализации

Общий подход к расчёту результирующих метрик мы взяли из методологии TER с поправкой на наши адаптации — изменение шкалы и вариантов ответов.

Что мы изменили:

Положительными считаем ответы 1 и 2 (по порядку вариантов)
Негативными считаем 3 и 4 в том случае, если вариантов 4, 4 и 5 — если вариантов 5 (по порядку вариантов)

Процесс обработки данных и расчёта результирующих метрик по опросу TER выглядит так:

Выгружаем результаты опроса
Преобразуем и загружаем в наш DWH в гибкой структуре

По каждому инструменту в отдельности рассчитываем TER-индексы с помощью SQL-запросов:
- по компоненту Success — закрытие потребностей
- по компоненту Effort — лёгкость выполнения задач
- по компоненту Success — общее впечатление
Рассчитываем общий TER-индекс по всем инструментам
Визуализируем на дашборде в нашем BI-инструменте: показываем динамику изменения всех рассчитанных индексов в сравнении с прошлыми периодами

Особенности TER-метрики и интерпретации результатов

TER — это не мгновенный датчик качества, а диагностический инструмент, который требует корректной интерпретации. У метрики есть особенности, которые важно учитывать в работе и которые мы сознательно приняли, выстроив вокруг них дополнительные практики.

Эффект запаздывания

TER может запаздывать и не всегда полноценно отражает эффект изменений к концу квартала. Реакция пользователей на улучшения или ухудшения зависит от TTM в организации, внешнего контекста и частоты использования инструмента.

Для внутренних продуктов это особенно чувствительно: изменения могут быть внесены, но пользовательский опыт начинает меняться постепенно.

Как мы нивелируем этот эффект:

не используем TER как единственный источник истины
дополняем его точечными интервью с пользователями
анализируем динамику на горизонте нескольких периодов

В итоге TER служит не индикатором «моментального успеха», а мерилом устойчивого тренда.

Метрика отражает соответствие контексту, а не только абсолютное качество

TER не всегда меняется из-за объективного улучшения или ухудшения инструмента. Чаще он сигнализирует о том, насколько инструмент соответствует текущему ландшафту компании и ожиданиям пользователей.

Пример: документация инструмента со временем устарела, а в квартале в команду пришло несколько стажёров. Новички столкнулись со сложной и несовершенной документацией, хотя сам инструмент технически не ухудшился.

Формально продукт остался прежним. Фактически его качество перестало соответствовать новому профилю аудитории.

В этом случае снижение TER не говорит о деградации инструмента, а подсвечивает:

изменение профиля пользователей и аудитории
изменение/рост требований
накопленный долг в сопровождении

Почему это для нас плюс, а не минус: метрика помогает выявлять рассинхрон между продуктом и реальностью компании. Она становится инструментом ранней диагностики, который запускает интервью, анализ сценариев использования и приоритизацию изменений.

Почему мы оставили TER, несмотря на ограничения

Мы осознанно используем TER не как абсолютную оценку качества и не как оперативную метрику, а как инструмент управления пользовательским опытом во времени.

Его ценность для нас в том, что он:

показывает системные сдвиги, а не шум
сигнализирует о накопленных несоответствиях
помогает выявлять риски до того, как они становятся критичными

Ограничения метрики компенсируются процессом: дополнительными источниками данных, регулярными интервью с пользователями и анализом контекста изменений.

TER для нас — не запаздывающий индикатор, а рабочий инструмент управления. Он помогает вовремя замечать зоны риска и превращать их в понятные задачи для развития, если правильно читать его сигналы.

Результаты внедрения TER-метрик

Подход помог нам системно собирать и оценивать пользовательский опыт. При этом для каждого участника процесса он принёс свою пользу.

Для команды: мы теперь лучше понимаем, как наша работа влияет на пользователей и оперируем известными и объективными данными. По итогам внедрения новых фич или инструментов мы видим не просто факт деплоймента, но явную реакцию конкретных индексов и метрик. Для нас это лучшая мотивация и объективный показатель эффективности и ценности для бизнеса.
Для руководителя: появилась понятная фактура для диалога с директорами и руководителями бизнеса. Вместо абстрактных «мы улучшили юзабилити» можно показать динамику TER-индексов. Это помогает аргументировать ресурсы на развитие команды и планирование конкретных проектов с измеримыми целями.
Для наших коллег: появился простой, структурированный и заметный канал для обратной связи. Они видят, что мнение не уходит в пустоту, а напрямую влияет на развитие инструментов, которыми они пользуются каждый день.

Масштабирование

После успеха пилота в команде платформы аналитики другие команды департамента, у которых тоже есть внутренние клиенты, заинтересовались подходом.

Тогда мы сделали следующее:

Расширили опрос вопросами про услуги и инструменты других команд департамента
Настроили логику внутри опроса, которая позволяет пользователю отвечать только на вопросы про те инструменты или услуги, которыми он пользуется
Взяли на себя работу по регулярному проведению опроса и обработке результатов

Сегодня методологию используют несколько команд для оценки десятков внутренних инструментов и процессов.

Выводы

Пользовательский опыт внутренних инструментов можно и нужно измерять системно. Разрозненные отзывы не дают управляемости. Регулярный и структурированный сбор обратной связи превращает ощущения в данные и позволяет видеть динамику, а не отдельные мнения.

TER — отличный подход для оценки пользовательского опыта. Фреймворк даёт сбалансированную картину и показывает не только «что» думают пользователи, но «о чём» и «почему». А ещё — какие выводы из результатов можно сделать и куда дальше копать.

Метрики усиливают позицию команды в диалоге с бизнесом. Когда пользовательский опыт оцифрован, разговор переходит из плоскости «нам кажется» в плоскость «вот динамика индексов и конкретные зоны роста». Это упрощает приоритизацию, аргументацию ресурсов и планирование инициатив.

Если наш подход вас вдохновил — не бойтесь начинать с малого. Попробуйте запустить такой опрос для одного из ваших инструментов в следующем квартале :)

Вопрос к читателям:

А как вы справляетесь с задачей оценки пользовательского опыта для внутренних инструментов и продуктов? Сталкиваетесь ли с похожими сложностями?

Как платформенной команде за 10 минут узнать, что думают внутренние пользователи про её инструменты