CheResearch 14 дек 2022 в 10:01

Как мы искали взаимосвязь между оценкой SUS и эмоциональным откликом

8 мин

2.6K

Блог компании Альфа-БанкИнтерфейсы*Usability*Исследования и прогнозы в IT*Финансы в IT

В исследованиях нашей UX-лаборатории — Alfa Research Center — мы часто измеряем удовлетворённость от банковских интерфейсов. Один из инструментов — методика SUS или System Usability Scale.

Анкета SUS — это десять вопросов. Респондент оценивает по пятибалльной шкале, насколько согласен с утверждением. Половина утверждений — положительные, половина — отрицательные. По несложному алгоритму вычисляется значение от 0 до 100, поэтому SUS часто отображают в процентах, хотя это не совсем верно. Анализируется и оценка каждого респондента, и средняя по выборке. Считается, что SUS 65-85 — хороший результат, и понятный интерфейс показывает оценку в этом диапазоне.

SUS придумал Джон Брук ещё в 1986 году. Он называл её Quick and dirty usability scale. Методика действительно быстрая: респондент заполняет анкету за 1-2 минуты, а подсчёт и анализ результатов потребуют не более 30 минут. А что насчёт Dirty?

Профессиональное сообщество не раз проверяло объективность замеров и всякие статистические штуки: какая должна быть выборка, какой показатель можно считать эталоном, как сравнить методику с другими метриками. В 2011 году Джефф Сауро предсказал, что SUS проживёт ещё минимум 25 лет.

SUS субъективно оценивает интерфейс. Однако в своих исследованиях мы замечали странные вещи:

Модератор видит, что респондент ничего не понял в сложном банковском интерфейсе, но ставит ему высокую оценку.
Респондент даёт социально желательный ответ, чтобы не признаваться в затруднениях.
Последний вопрос влияет на весь результат. Если респондент два задания прошёл ровно, но засыпался на третьем — он снижает общую оценку. Например, первое задание: «Потопайте ногой», второе: «Коснитесь уха», третье: «Хлопните в ладоши». И вот, если респондент потопал, коснулся уха, а похлопать не получилось, в SUS он, скорее всего, занизит оценку из-за провала с хлопками.

Мы решили проверить, насколько оценка SUS связана с эмоциями и с какими конкретно эмоциями. В Alfa Research Center в этом нам помогает нейросеть Sense Machine, которая замеряет настроение и реальный эмоциональный отклик человека по мимике и движениям глаз.

В ролике вы видите аналог нашей нейросети — искусственный интеллект, анализирующий эмоции по той же схеме.

Про команду

В ноябре 2021 года мы стартовали с исследованием, чтобы проверить, насколько методики SUS и эмоциональный отклик дополняют друг друга.

Татьяна Минькова

CX/UX-исследователь клиентского пути «Кредитные карты»

Софья Копылова

CX/UX-исследователь клиентского пути «Инвестиции»

Алексей Комбирович

CX/UX-исследователь клиентского пути «Кредиты наличными»

Анастасия Долгова

CX/UX-исследователь клиентского пути «Платежи и переводы»

В команде «Пол-литра» нас четверо: Таня, Соня, Алексей и Настя

Тут же родилась шутка, что в корреляции методик без пол-литра не разобраться. Но нас в команде только четверо, и пятого коллеги не предвиделось. Финальные «сто грамм» мы нашли чуть позже в лице эксперта по нейросети. Он поддерживал нас на всех стадиях исследования — от отрицания до принятия. Так «Пол-литра» закрепилось как название проекта нашей четвёрки продуктовых исследователей.

Дизайн эксперимента: как мы сравнивали две методики

Мы взяли исследования мобильного приложения банка, на которых планировали исследовать эмоциональный отклик. Специально отбирали массовые продукты и частотные сценарии — открыть новый счет или изменить лимит кредитной карты.

В итоге мы исследовали четыре прототипа, 1100 респондентов старше 25 лет из разных городов. Все исследования проходили по методике удалённых немодерируемых тестов, чтобы модератор не влиял на субъективную оценку.

Анкета SUS, по которой мы опрашивали респондентов о мобильном приложении банка

В конце теста респондент давал общую оценку интерфейсу по анкете SUS. Эмоции мы измеряли на протяжении всего исследования.

Кэл Лайтман из сериала «Обмани меня» определял ложь по оттенкам мимики. Такого доктора нам не завезли, и мы используем вместо него искусственного — нейросеть

В результате мы получаем данные о нейтральном состоянии и шести эмоциях: радости, грусти, удивлении, злости, страхе, отвращении. Далее мы определяли, как изменились параметры по сравнению с калибровочным замерами — стартовыми показателями того, с каким настроением респондент приступил к заданиям.

Потом для каждого продукта мы рассчитали среднее изменение параметра по всем респондентам. Такое изменение показывает, как интерфейс влияет на эмоции респондента. Это и есть эмоциональный отклик.

Эмоции респондентов при взаимодействии с интерфейсом

Оказалось, что анализ эмоционального отклика — это кропотливая работа с большими таблицами со множеством цифр.

Как интерпретировать SUS и эмоции респондента

После нескольких экспериментов с банковскими интерфейсами мы сделали выводы:

Явной и убедительной корреляции между оценкой SUS и эмоциональным откликом нет
Отсутствие корреляции подтверждает, что SUS — всё же субъективная оценка, не связанная напрямую с восприятием интерфейса при взаимодействии с ним
SUS и эмоциональный отклик — два разных метода, хороших по-своему. Каждый отвечает за свои задачи

SUS

Методика SUS зарекомендовала себя много лет назад не просто так. Респондент проходит SUS после взаимодействия с интерфейсом, он даёт оценку по воспоминаниям, хоть и совсем свежим. SUS — это опрос, и в нём всегда есть доля социально желательных ответов. А эмоциональный отклик считывается в момент работы с интерфейсом.

Эмоциональный отклик

Этот метод помогает нам отличить оттенки эмоций, например, фрустрацию респондента от скуки, а брезгливость от стыда.

Исследование	Радость	Грусть	Удивление	Злость	Страх	Отвращение
Интерфейс 1	127%	17%	229%	42%	26%	196%
Интерфейс 2	137%	10%	146%	35%	21%	149%
Интерфейс 3	127%	18%	170%	36%	19%	163%
Интерфейс 4	109%	28%	103%	57%	22%	142%

Рассмотрим полученный эмоциональный отклик. В исследовании интерфейса кредитных карт (Интерфейс 1) мы увидели, что отвращение растёт вместе с радостью и удивлением. В финале задания, где нужно было увеличить лимит кредитки, респондент получал отказ в одобрении суммы. Иронию человек ощущал из-за того, что прошёл большой пользовательский путь, но всё зря. Стыд чувствовал от того, что ничего плохого не сделал, но не получил ожидаемый результат. Такие тонкости в анкете SUS не увидеть, а вот с помощью нейросети мы можем считать нюансы.

Таким образом, SUS может отражать сложность задачи. Есть рутинные сценарии, которые всегда воспринимаются сложно, но это не значит, что интерфейс плохой. Примеры таких сценариев в финтехе: изучение брокерского счёта или сравнение ипотечных продуктов.

Именно поэтому лучше дополнять анкету SUS замерами эмоционального отклика. Так вы поймёте, что больше повлияло на респондента: сложность задачи или непонятный интерфейс.

Для каких продуктов и сценариев подходят SUS и эмоциональный отклик

Вот что мы думаем о методиках SUS и эмоциональный отклик после наших серии экспериментов с банковскими интерфейсами:

SUS — это быстро и дёшево.
Анкета SUS работает при сравнении нескольких продуктов, групп целевой аудитории или при отслеживании изменений в продукте.
Тестировать эмоциональный отклик дорого и сложно, но такой эксперимент позволит определить нюансы восприятия респондента.

Для простых сценариев и интерфейсов допустимо проводить SUS и делать выводы о сложности продукта. Но стоит учитывать, что в таких исследованиях будет погрешность, так как анкетирование — субъективный метод.

Анализ эмоционального отклика при помощи нейросетей хорош для тестирования в финтехе: он помогает установить, из-за чего возникает негативное впечатление — из-за сложности продукта или плохого интерфейса. Если исследовать банковские интерфейсы только с SUS, сложные пользовательские пути могут получать низкий балл вне зависимости от качества их исполнения.

Есть задачи, в которых люди вынуждены напрягаться (хороший пример — изучение кредитования). Напряжение напрямую влияет на SUS. Эмоция респондента может быть вызвана как неудачным решением в сценарии, так и просто тем, что сценарий сам по себе «напрягающий».

SUS — менее гибкая методика, чем эмоциональный отклик. Методика хорошо работает только в парных сравнениях. SUS показывает не уровень сложности интерфейса, а уровень напряжения пользователя. Когнитивная нагрузка — это нормальная вещь. Респондент может занизить SUS и ответить: «Было плохо», так как ему пришлось напрячься, хотя эмоциональный отклик выявил бы стандартные показатели.

Как тестировать эмоции без нейросети

Если вы предлагаете респондентам только SUS, можете дополнить анкету вопросами для проверки эмоционального отклика. Вот простые варианты исследований:

Выбор слов из списка. Соберите как можно больше прилагательных, характеризующих ваше приложение или эмоции от взаимодействия с ним.

Ещё пример исследования со списком слов, здесь нужно выбрать один из вариантов в каждом из трёх столбцов.

Выбор эмоций из представленных на фотографиях.

На фотографиях изображена Ева Экман, дочь Пола Экмана, пионера в изучении эмоций и их связи с мимикой человека

В количественных исследованиях мы часто встречали подобные вопросы. Важно понимать, что это ещё более субъективная материя, чем любые другие опросы удовлетворённости. Человек не всегда может точно определить своё состояние и тем более назвать его.

Стоит иметь в виду, что SUS, как и другие анкеты, не учитывает эмоции в начале исследования. Важно, с каким настроением пришёл респондент: он не выспался и зол или влюблён и беззаботен. В эмоциональном отклике мы применяем калибровку и анализируем сдвиг эмоций относительно начала замеров.

И ещё кое-что

При анализе данных мы заметили интересную закономерность. Средние значения эмоционального отклика и SUS явно пересекаются, хотя убедительных признаков корреляции по респондентам нет. Мы решили разобраться, совпадение это или нет. Чтобы подкрепить догадку данными, будем исследовать больше интерфейсов и добавлять точки на график. Если получим больше пересечений — гипотеза рабочая.

Пересечение значений когнитивной нагрузки (изменение эмоции грусти) и оценки SUS

В четырёх исследованиях мы увидели тенденцию пересечения оценки SUS с основными эмоциями — с теми, которые показывают когнитивную нагрузку (грусть), раздражение пользователей (злость) и позитивное восприятие интерфейса (радость). С другими эмоциями — страхом, удивлением, отвращением, мы не обнаружили пересечений на замерах нейросети.

Эмоция	Корреляция с SUS	Интерпретация корреляции
Радость	0,993	Очень высокая прямая
Грусть	-0,995	Очень высокая обратная
Злость	-0,915	Высокая обратная
Отвращение	0,204	Отсутствует
Страх	-0,129	Отсутствует
Удивление	0,412	Очень слабая

Общепринятая интерпретация коэффициента корреляции

Значение	Корреляция
От 0 до 0,3	Очень слабая
От 0,3 до 0,5	Слабая
От 0,5 до 0,7	Средняя
От 0,7 до 0,9	Высокая
От 0,9 до 1	Очень высокая

Немного хардовых цифр и интерпретаций. В эксперименте мы увидели, что по всем четырём банковским продуктам SUS сильно пересекается с тремя эмоциями: радостью (0,993), злостью (-0,915) и грустью (-0,995). А с остальными эмоциями пересечений не выявлено.

Что почитать по теме:

Brooke J . SUS: a “quick and dirty” usability scale. In Jordan PW, et al. ., eds. Usability Evaluation in Industry. London; Bristol: Taylor & Francis; 1996
Lewis JR, Sauro J. The Factor Structure of the System Usability Scale. In Proceedings of the 1st International Conference on Human Centered Design: Held as Part of HCI International 2009. San Diego, CA: Springer-Verlag; 2009
Bangor A, Kortum PT, Miller JT. An empirical evaluation of the system usability scale. Intern J Hum Comput Interact. 2008; 24 (6)
Brooke J. SUS: a retrospective. J Usability Stud. 2013. 8 (2)
SUS Калькулятор
Measuring Usability with the System Usability Scale (SUS), Sauro J, 2011
Emotion detection model using AI
https://www.paulekman.com/blog
https://sensemachine.net

Что исследовать дальше

Мы выяснили, что нет смысла сравнивать две методики в чистом виде. Каждая хороша под свою задачу.

Вот как мы думаем дальше сравнивать методики:

Увеличить количество проектов и, соответственно, точек для построения корреляции, попробовать найти корреляцию по средним данным по проекту.
Разобраться, можем ли прогнозировать результаты одной методики через другую. Если получится, что объясняемая переменная (Variance explained) всё равно низкая, проверить заменяют ли SUS и эмоциональный отклик друг друга или дают разную картину.

Рекомендуем статьи о лаборатории Alfa Research Center:

Интерфейсы, когнитивная нагрузка, «простыни» — здесь ещё больше информации про нейросеть, которую мы используем
Как прокачать исследователя через карту компетенций в духе RPG — статья про скиллы и грейды UX-исследователя
Взболтать, но не смешивать: как упаковать находки исследования, миксуя JTBD, CJM и компас персон — как наши коллеги исследовали финансовую осознанность и придумали 4 ярких персонажа

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Что посоветуете нам исследовать?

75% Корреляцию с исследованиями других сфер, кроме финтеха3

0% Корреляцию SUS и дополнительных эмоций из Sense Machine0

0% Сравнить SUS и эмоциональный отклик с успешностью заданий респондента0

25% Проверить, влияет ли последнее задание SUS на общий балл анкеты1

Проголосовали 4 пользователя. Воздержался 1 пользователь.

Теги:

Хабы:

Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку

Как мы искали взаимосвязь между оценкой SUS и эмоциональным откликом

Про команду

Татьяна Минькова

Софья Копылова

Алексей Комбирович

Анастасия Долгова

Дизайн эксперимента: как мы сравнивали две методики

Как интерпретировать SUS и эмоции респондента

SUS

Эмоциональный отклик

Для каких продуктов и сценариев подходят SUS и эмоциональный отклик

Как тестировать эмоции без нейросети

И ещё кое-что

Что исследовать дальше

Публикации

Информация