Учимся предсказывать конверсию в опросах. Часть 2 / Хабр

Всем привет! На связи Айкович Ульяна и команда Pathway. Месяц назад мы опубликовали первую часть, в которой рассказали о нашем эксперименте по предсказанию конверсии в прохождение опросов. Сегодня мы поделимся, как можно предсказать конверсию в опросах, а также как составить ваш опрос, чтобы пользователи активнее прошли его до конца.

Каждый UX-исследователь в своей жизни сталкивался со сложностями при наборе статистически значимого количества участников в опросах: кто-то не проходит дальше первого вопроса, кто-то бросает на полпути. Может ли исследователь повлиять на конверсию прохождения опроса? Наш ответ — да!
В данной статье мы поделимся итогами регрессионного анализа и дадим лайфхаки по составлению опроса на основе такой модели.

Вспомним, с чего все начиналось

В первой части данного эксперимента мы построили простую модель с одним предиктором “другие вопросы”. В результате была выявлена небольшая отрицательная связь: чем больше в опросе вопросов категории «другие», тем ниже вероятность его полного прохождения. С каждым новым вопросом типа «другие» конверсия снижается на 2%. Так модель дала направление, но не ответ. Выборка в 36 опросов — это скорее пилот, чем исследование: мощности едва хватало, а единственный предиктор объяснял меньше 9% разброса в конверсии. Таким образом, нужно было идти дальше.

Больше данных, точнее прогнозы

Второй подход был основательным: нам нужно увеличить выборку, а также включить как можно больше переменных. Для такой задачи мы решили заколлабится с командой Pathway. Pathway – это платформа для проведения тестов и исследований, которая помогает продуктовым командам проверять гипотезы и получать обратную связь от реальных пользователей.

Коллеги предоставили нам обезличенные данные тысячи опросов, а сам датасет изначально состоял из 31 переменной. В ходе предобработки из датасета были удалены переменные, в которых было недостаточное количество наблюдений, а также одно экстримальное наблюдение. В итоговую регресионную модель вошло 28 переменных и 999 наблюдений.

Расшифровка переменных:

optional_questions – количество необязательных вопросов
total_options – в общем количество всех опций в вопросах с выбором варианта ответа
first_block_type2 – тип первого блока контекст
first_block_type3 – тип первого блока выбор из вариантов
first_block_type4 – тип первого блока фигма
first_block_type5 – тип первого блока шкала
first_block_type6 – тип первого блока карточная сортировка
first_block_type7 – тип первого блока теста предпочтений
first_block_type8 – тип первого блока матрица
first_block_type9 – тип первого блока лайвтестинг
first_block_type10 – тип первого блока тест первого клика
first_block_chars – количество символов в первом блоке
first_block_has_image1 – наличие картинки в первом блоке
count_choice – количество вопросов с вариантами ответа
count_openquestion – количество вопросов с открытым типом
median_duration_choice – медианное время ответа на вопросы с вариантами ответа
median_duration_openquestion – медианное время ответа на вопросы открытого типа
median_duration_scale – медианное время ответа на вопросы типа шкала
median_duration_matrix – медианное время ответа на вопросы типа матрица
median_duration_cardsort – медианное время ответа на вопросы типа карточная сортировка
median_duration_firstclick – медианное время ответа на вопросы типа тест первого клика
median_duration_figma – медианное время ответа на вопросы типа фигма
median_duration_ai – медианное время ответа на вопросы типа ИИ
median_duration_preferencе – медианное время ответа на вопросы типа теста предпочтений
median_duration_livetesting – медианное время ответа на вопросы типа лайвтестинг
median_duration_first_block – медианное время ответа/прочтения на первый блок
median_completion_time_min – медианное время прохождения всего опроса в минутах
count_other – суммарное количество вопросов типа теста предпочтений, лайвтестинг, карточная сортировка, ИИ, тестов первого клика, матрицы, фигмы

Итоговая модель по предсказанию конверсии

Наилучшая модель по итогу включала в себя 28 предикторов и 999 наблюдений (F-statistic = 11.88 on 28 and 970 DF, p-value: < 2.2e-16). Такая модель смогла объяснить около 23% различий в конверсии между опросами, что достаточно много для поведенческих данных (в социальных и поведенческих науках объясненная дисперсия выше 15% считается хорошим результатом). Ведь на поведение пользователей влияет множество факторов: настроение, время суток, контент и т.д., поэтому возможность контролировать около четверти всех факторов — это ощутимо управляемый эффект.

Главные выводы

Каждая опциональная (необязательная) секция вопросов (optional_questions) снижает конверсию на 1 процентный пункт (п. п.). То есть, чем больше таких вопросов мы добавляем в опросе, тем ниже становится конверсия.
Каждый дополнительный “other” блок увеличивает конверсию примерно на 1.6 п.п. Иными словами, такие вопросы могут "разбавлять" опрос. Возможных причин несколько: такие вопросы чаще ставят в конце опроса, они более проработанные или находятся там, где очень много вопросов подряд с выбором вариант ответа. Такой результат противоположен итогам первого подхода: в первой модели мы использовали лишь один предиктор и, естественно, он показывал конверсию ниже, чем без него. Это, как если бы человек завершил опрос сразу, в сравнении с тем, как человек завершает опрос, отвечая на определенный вопрос. Количество наблюдений и строгость проверки также значительно выше во втором подходе, чем в предыдущем, а значит результат более точный.
Когда в регрессию включают категориальную переменную (тип первого блока), одну категорию всегда убирают из модели — она становится базовой (референсной). Все остальные коэффициенты интерпретируются относительно неё. Важно помнить, что выбор базовой категории не влияет на качество модели (R², F-статистику) и на соотношение эффектов между типами блоков. Он лишь меняет точку отсчёта для интерпретации коэффициентов.
Возвращаясь к результатам модели: если первым блоком идет тест первого клика, то он увеличивает конверсию на 16,3 п.п. относительного открытого вопроса. Возможно, такие задания повышают вовлеченность, потому что от респондентов требуется сделать несложное действие. С одной стороны, клик — это действие, а с другой оно не перегружает человека.
Если первым блоком идет шкала, то он снижает конверсию на 25,4 п.п. относительно открытого вопроса. Гипотеза простая: шкальные вопросы ассоциируются с психологическими тестами, требуют заглянуть внутрь себя и сформулировать субъективную оценку. Это когнитивная работа, и часть респондентов предпочитает просто не начинать ее и не фокусироваться на своих мыслях и своих впечателниях.
С каждой дополнительной минутой медианного времени прохождения всего опроса конверсия снижается на 4.3 п.п. То есть, чем дольше времени уходит на то, чтобы пройти опрос до конца, тем ниже вероятность закончить такой опрос.
Ряд других предикторов также показал статистическую значимость. В частности, тип первого блока лайвтестинг и медианное время ответа на отдельные типы вопросов. Однако число опросов с такими блоками в выборке недостаточно для устойчивых выводов: эффекты значимы, но их доверительные интервалы широки. Эти результаты скорее указывают на направление для дальнейшего исследования, чем дают основание для практических рекомендаций.

Визуализация влияния Топ-5 предикторов из модели на конверсию в опрос.

В целом, структура опроса — это не просто техническая настройка, а инструмент влияния на поведение респондента. Мы исследователи, можем изменять этот инструмет и влиять на респондентов, чтобы они прошли опрос до конца. Наш анализ показывает, что около четверти разброса в конверсии между опросами можно объяснить параметрами, которые исследователь контролирует сам: типом первого блока, количеством необязательных вопросов и общей длиной опроса.

Чек-лист «Как составить опрос, который пройдут до конца»

Начинайте с интерактивного блока
Тест первого клика в качестве первого блока статистически значимо повышает конверсию. Первый экран определяет, останется ли респондент — сделайте его простым и конкретным.
Не открывайте опрос шкалой
Шкальный вопрос в начале — наиболее выраженный негативный эффект в модели. Шкала требует субъективной оценки и когнитивных усилий, перенесите её в середину или конец.
Сокращайте длину опроса
Время прохождения — наиболее стабильный предиктор конверсии в модели. Каждая лишняя минута снижает вероятность завершения. Исключайте всё, что не является необходимым для исследовательского вопроса.
Ограничивайте количество необязательных вопросов
Опциональные вопросы снижают конверсию кумулятивно. Если необязательные блоки всё же нужны, минимизируйте их число и размещайте ближе к концу.
Включайте разнообразие форматов
Нестандартные типы вопросов положительно связаны с конверсией. Однородная структура из повторяющихся блоков одного типа увеличивает когнитивную усталость респондента.

На этом все. Желаем вам удачи в составлении опросов и получении наиболее релевантных результатов. Надеемся, наша статья вам в этом поможет.

И расскажите, какие методы и способы удержания внимания используете вы? Делитесь в комментариях!

Учимся предсказывать конверсию в опросах. Часть 2