Comments 3
А можно ли как-то оценить, какое минимальное количество достигнутых результатов при заданной Альфе может быть рассмотрено как статистически значимое?
Например, у нас два лендинга A и B, на оба генерируются переходы по рекламе, переходы 50 на 50. Результат, это если посетитель нажал на кнопку на лендинге. Реклама пошла, через неделю есть 100 нажатий (в пропорции, скажем 60 на 40). Этот уже статистически значимый результат? Есть ли вообще способ оценить минимальный выход, необходимый для принятия решения, что A скорее всего работает лучше, чем B?
Но есть ведь вариант, что обе альтернативы примерно равнозначны. ))
В смысле, что один вопрос может быть реализован примерно одинаково эффективно несколькими способами.
В данном случае при получении +/- одинакового результата увеличить время в разы.
Если ситуация НЕ меняется и результат 50/50 - может надо менять методику тестирования?
Может мы не то меряем?
Или оставить все как есть - раз работает. )
Обычно допустимый уровень значимости для А/В тестирования составляет 0,05 (или 5%). Это означает, что если у нас есть статистически значимый результат с уровнем значимости 0,05, то вероятность того, что мы сделали ошибку и нулевая гипотеза на самом деле верна, составляет 5%.
Спасибо большое за статью! Я хотел обратить внимание автора и комьюнити, что данное определение ошибочное – это очень частая ошибка при интерпретации AB теста.
Мне кажется более точным сказать, что p-value = это вероятность получить наблюдаемый результат в том случае, если гипотеза h0 на самом деле верна. В моем понимании тестирование гипотез вертиться вокруг h0: достаточно ли у нас оснований отказаться от h0 или нет.
Разница хорошо продемонстрирована в статье Ron Kahavi в 3-й секции https://exp-platform.com/abtestingintuitionbusters/
Дизайн А/В-теста: пошаговая инструкция с теоретическими основами