olegchir 8 мая 2018 в 14:42

Ваши A/B-тесты сломаны

18 мин

19K

Блог компании JUG Ru GroupТестирование IT-систем*Тестирование веб-сервисов*Тестирование мобильных приложений*Конференции

+50

Комментарии 10

ChePeter 9 мая 2018 в 00:04

Вся классическая теория вероятностей и статистика придумывалась в эпоху пром производства с задачей «для определения состояния 1 млн болтов достаточно изучить маленькую выборку». Но применение выборок некорректно в случае если выборка изменяет поведение других. Например тетенька с миллионом фолловеров попала в А или В? И результат зависит не от показа, а от разбивки. Она, разбивка, всегда будет «кривая».
Вот например ссылка на методические указания www.thoughtco.com/what-is-a-control-group-606107
— выборка однозначно не должна влиять на оставшихся. Но в человеческих поведенческих сообществах это не так. Если у группы есть общий интерес ( а это обычно группа посетителей чего то там продающего), то информацию об этом они получают из многих источников и метод A/B среди сообщества переплетенных информканалами людей будет давать сомнительный результат, которым легко манипулировать. Вот для анализа лекарств — это можно применять, там нет влияния и больной помрет независимо от выборки.

Локальные сообщества организованы по другому, у них есть тонкая структура и ими можно управлять.
Как нибуть напишу об этом на хабре, как обнаружить структуру, как ее разрушить или создать.
Но потом. Писать статьи — тяжкий, неблагодарный труд.

p0b0rchy 9 мая 2018 в 17:42

Трудности —это всего лишь новые условия задачи, а не повод отказываться от полезного метода. Конечно, есть знаменитые истории типа Опры Уинфри, которая в своём шоу заявила о том, что Киндл — теперь её любимый девайс, на следующий день после обновления сайта Киндла (успели ли разработчики получить премию, я не знаю). Есть способы мониторить результаты экспериментов, находить среди них подозрительные и, возможно, невалидные. Опять же, выборки в вебе больше, тут не двадцать пациентов с плацебо и двадцать с лекарством, а таки тысячи.

В общем, свои трудности есть, но есть и свои ответы на них.

ChePeter 10 мая 2018 в 10:21

При должной квалификации никаких трудностей, всё зависит от того, с какой стороны денег вы находитесь.
Если деньги за тесты берёте, то знание реальной структуры сообщества позволит правильно выбрать разбиение или выборку и продемонстрировать удивительную силу современных технологий очень убедительно и показательно.
Если же деньги за тесты платите, то знание реальной структуры интересующего вас сообщества позволит вам их сэкономить на красивых картинках и мурзилках и получить гораздо более эффективное воздействие на выручку своего бизнеса.
Просто, как это и декларируется в статье, нужно правильно выбирать и применять инструментарий.

p0b0rchy 10 мая 2018 в 11:36

Вот с этим очень согласен.

Даже обобщу: в любых задачах анализа данных очень важно не просто брать цифры и применять к ним алгоритмы. Важно совмещать это со знанием предметной области (которое энергично собирать). Тогда результаты получаются лучше.

Например, в поиске можно сломать в эксперименте один запрос [в контакте], и результаты окажутся катастрофическими. Но чтобы это понять, надо знать иметь представление о структуре запросов, а не только видеть общее число.

svp777 9 мая 2018 в 21:46

Странно конечно, на дворе 2018 год, а в статье обсуждаются классические A/B тесты, где один пользователь участвует не более, чем в одном эксперименте. То есть либо участвует в каком-то эксперименте, либо не участвует ни в каком. Если эксперимент один, то проблемы нет, делим аудиторию на 2 группы, будет самая лучшая точность, но если экспериментов 16, то пользователей надо делить на 17 групп. Это приводит к тому, что во-первых точность хуже в 4 раза и «данных недостаточно для решения», во-вторых над пользователями поиздевались в первом эксперименте, и это повлияло на результаты второго эксперимента, который будет на этих же пользователях в будущем, в-третьих, внедренцы, типа Mayer, могут с домашнего компа или ботнета покликать на свой эксперимент, и получить квартальную премию. Хотя конечно насколько мне известно, у Mayer не было таких A/B сплит-тестов, так как в Гугле один пользователь участвует во многих экспериментах, аудитория огромна и накрутить свой эксперимент, который потенциально тестируется на 1/2 всей аудитории, намного тяжелее. Почему в разных ИТ компаниях сплит системы такие разные — вопрос интересный.

А вообще реклама наемного киллера это плохо. Плохая шутка.

p0b0rchy 9 мая 2018 в 23:15

Тема для Гейзенбага не совсем профильная. Мы довольно много обсуждали с программным комитетом, что именно рассказать, чтобы попасть в аудиторию, и весь космос безжалостно вымели. Поэтому в докладе, действительно, оказались довольно базовые вещи.

На экспериментах в несколько слоёв не хотелось заострять внимание: там свой набор проблем, которые не заменяют, а дополняют проблемы классических AB-тестов.

Касательно сорока одного оттенка синего, их всех, конечно, надо запускать в параллель одновременно. Дело даже не в том, что пользователь, который видел оттенок 12, потом не так отреагирует на оттенок 37 (хотя возможно и это), а в том, что результаты экспериментов, проведённых в разное время, вообще нельзя сравнивать: от сезонности зависит в среднем больше, чем от качества системы, которую мы проверяем, и две последовательные недели дают разные результаты. Условно, в России результаты любого интернет-сервиса сильнее всего зависят от того, дождливый в Москве день или солнечный.

svp777 10 мая 2018 в 11:16

Пользователь — это по сути бесплатный тестировщик, или очень ценный ресурс, которым следует распоряжаться максимально эффективно.

Проблема «данных недостаточно для принятия решения» является актуальной для любого проекта, неважно что у вас, 10 тыс посетителей или 10 млн посетителей. Всегда хочется иметь точность лучше, а решения принимать быстрее. Отказавшись от постулата — «один пользователь — один эксперимент — в один момент времени», вы можете в первом приближении ускорится в sqrt(N) раз. Опять же для любого размера аудитории N. Вопросы вида, почему это может не работать, какие здесь появляются дополнительные проблемы, исчезают ли другие проблемы из А/B тестирования, с моей точки зрения нельзя обходить стороной, уж слишком велик потенциальный экономический эффект. Ну а если вы рассказываете про виртуальные множественные A/A тесты на исторических логах, то имхо это гранаты одной категории.

p0b0rchy 10 мая 2018 в 11:42

Всё правда. Но как бы мы ни множили эксперименты, важно иметь в любое парочку чистых контрольных групп (т.е. таких пользователей, которые ни в каких экспериментах не состоят). Тогда, в частности, на них можно проводить A/A тесты. И на них же можно потом проводить множественные A/A тесты, о которых я говорил.

Эти A/A тесты, как и любые тесты, не могут служить доказательством корректности, тут односторонний алгоритм: если они не сходятся к заданному проценту срабатываний — надо бить тревогу, точно что-то сломано. Если сходятся — надо смотреть на все остальные мониторинги и держать пальцы крестиком. Это просто ещё одна проверка, которую делать относительно дёшево и которая ловит часть проблем.

RigidStyle 10 мая 2018 в 10:58

Тот случай, когда технологии и цифры заменяют разум.
А/Б тесты хороши, когда нет ничего другого, или же наоборот, когда все другое уже сделано.
Так, например, недавно сменили дизайн на одном развлекательном ресурсе с кексиками. И многие на него сильно ругались. Но по факту он оказался лучше старого во многом. А тест бы показал обратное. Тем более что такое значительное изменение не проверить тестом (проверить то можно, но только для новых пользователей, и результат будет все равно не корректным).
Так и в гугле, когда единственно возможный вариант показа рекламы в почте гугла уже сделан, то остается поиграть с его настройками. Но возможно есть еще один способ? Который отличается кардинально. Например показ рекламы под письмом баннерами. Его в тест не запихнуть. Потому что стадия разная. Результат будет некорректным. В первом случае пользователь проверяет почту, во втором же он уже сосредоточен на изучении письма. То есть психо-эмоциональное состояние разное, и тест покажет сильный перевес одного из способов. Но перевес еще не значит хорошо. Потому как в первом случае пользователь может быть более расслабленным и конвертируемым на сайте рекламодателя, чем во втором. А это уже никто в тестах не отслеживает.
Разумеется все это допущения. Но в итоге я хочу сказать что перед тестами важно потратить усилия на коцепт. А уже потом его тестить. Многие об этом забывают.

p0b0rchy 10 мая 2018 в 11:46

Да, нельзя просто бросать в тест всё подряд. нельзя перебирать параметры руками пользователей. Нужно иметь гипотезу, обоснованную какими-то другими соображениями, и уже потом её проверять.

С новым дизайном, кстати, можно сначала дать пользователям привыкнуть (например, неделю, показывать новый дизайн экспериментальной группе), и рассчитывать результаты эксперимента только по следующей неделе. Конечно, надо мониторить, и если всё в первую неделю ОЧЕНЬ плохо, то выключать, а если просто плохо — стиснуть зубы и ждать второй недели, и там всё может стать норм.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий