Комментарии 10
Вот например ссылка на методические указания www.thoughtco.com/what-is-a-control-group-606107
— выборка однозначно не должна влиять на оставшихся. Но в человеческих поведенческих сообществах это не так. Если у группы есть общий интерес ( а это обычно группа посетителей чего то там продающего), то информацию об этом они получают из многих источников и метод A/B среди сообщества переплетенных информканалами людей будет давать сомнительный результат, которым легко манипулировать. Вот для анализа лекарств — это можно применять, там нет влияния и больной помрет независимо от выборки.
Локальные сообщества организованы по другому, у них есть тонкая структура и ими можно управлять.
Как нибуть напишу об этом на хабре, как обнаружить структуру, как ее разрушить или создать.
Но потом. Писать статьи — тяжкий, неблагодарный труд.
В общем, свои трудности есть, но есть и свои ответы на них.
Если деньги за тесты берёте, то знание реальной структуры сообщества позволит правильно выбрать разбиение или выборку и продемонстрировать удивительную силу современных технологий очень убедительно и показательно.
Если же деньги за тесты платите, то знание реальной структуры интересующего вас сообщества позволит вам их сэкономить на красивых картинках и мурзилках и получить гораздо более эффективное воздействие на выручку своего бизнеса.
Просто, как это и декларируется в статье, нужно правильно выбирать и применять инструментарий.
Даже обобщу: в любых задачах анализа данных очень важно не просто брать цифры и применять к ним алгоритмы. Важно совмещать это со знанием предметной области (которое энергично собирать). Тогда результаты получаются лучше.
Например, в поиске можно сломать в эксперименте один запрос [в контакте], и результаты окажутся катастрофическими. Но чтобы это понять, надо знать иметь представление о структуре запросов, а не только видеть общее число.
А вообще реклама наемного киллера это плохо. Плохая шутка.
На экспериментах в несколько слоёв не хотелось заострять внимание: там свой набор проблем, которые не заменяют, а дополняют проблемы классических AB-тестов.
Касательно сорока одного оттенка синего, их всех, конечно, надо запускать в параллель одновременно. Дело даже не в том, что пользователь, который видел оттенок 12, потом не так отреагирует на оттенок 37 (хотя возможно и это), а в том, что результаты экспериментов, проведённых в разное время, вообще нельзя сравнивать: от сезонности зависит в среднем больше, чем от качества системы, которую мы проверяем, и две последовательные недели дают разные результаты. Условно, в России результаты любого интернет-сервиса сильнее всего зависят от того, дождливый в Москве день или солнечный.
Проблема «данных недостаточно для принятия решения» является актуальной для любого проекта, неважно что у вас, 10 тыс посетителей или 10 млн посетителей. Всегда хочется иметь точность лучше, а решения принимать быстрее. Отказавшись от постулата — «один пользователь — один эксперимент — в один момент времени», вы можете в первом приближении ускорится в sqrt(N) раз. Опять же для любого размера аудитории N. Вопросы вида, почему это может не работать, какие здесь появляются дополнительные проблемы, исчезают ли другие проблемы из А/B тестирования, с моей точки зрения нельзя обходить стороной, уж слишком велик потенциальный экономический эффект. Ну а если вы рассказываете про виртуальные множественные A/A тесты на исторических логах, то имхо это гранаты одной категории.
Эти A/A тесты, как и любые тесты, не могут служить доказательством корректности, тут односторонний алгоритм: если они не сходятся к заданному проценту срабатываний — надо бить тревогу, точно что-то сломано. Если сходятся — надо смотреть на все остальные мониторинги и держать пальцы крестиком. Это просто ещё одна проверка, которую делать относительно дёшево и которая ловит часть проблем.
Тот случай, когда технологии и цифры заменяют разум.
А/Б тесты хороши, когда нет ничего другого, или же наоборот, когда все другое уже сделано.
Так, например, недавно сменили дизайн на одном развлекательном ресурсе с кексиками. И многие на него сильно ругались. Но по факту он оказался лучше старого во многом. А тест бы показал обратное. Тем более что такое значительное изменение не проверить тестом (проверить то можно, но только для новых пользователей, и результат будет все равно не корректным).
Так и в гугле, когда единственно возможный вариант показа рекламы в почте гугла уже сделан, то остается поиграть с его настройками. Но возможно есть еще один способ? Который отличается кардинально. Например показ рекламы под письмом баннерами. Его в тест не запихнуть. Потому что стадия разная. Результат будет некорректным. В первом случае пользователь проверяет почту, во втором же он уже сосредоточен на изучении письма. То есть психо-эмоциональное состояние разное, и тест покажет сильный перевес одного из способов. Но перевес еще не значит хорошо. Потому как в первом случае пользователь может быть более расслабленным и конвертируемым на сайте рекламодателя, чем во втором. А это уже никто в тестах не отслеживает.
Разумеется все это допущения. Но в итоге я хочу сказать что перед тестами важно потратить усилия на коцепт. А уже потом его тестить. Многие об этом забывают.
С новым дизайном, кстати, можно сначала дать пользователям привыкнуть (например, неделю, показывать новый дизайн экспериментальной группе), и рассчитывать результаты эксперимента только по следующей неделе. Конечно, надо мониторить, и если всё в первую неделю ОЧЕНЬ плохо, то выключать, а если просто плохо — стиснуть зубы и ждать второй недели, и там всё может стать норм.
Ваши A/B-тесты сломаны