Comments 3
Достаточно широко применяется в контролируемых клинических испытаниях, там, кстати, много фокусов придумано для случая "относительно долгого созревания эффекта".
Андрей, здравия!
Добротная статья получилась.
Куликов Е.И., Трифонов А.П. Оценка параметров сигналов на фоне помех " 1978г. Рекомендую к изучению. Успехов в трудах и всего самого доброго и светлого.
Спасибо большое за статью! Читали всей A/B платформой WB, и мне лично очень понравилось) Но у меня возник ряд вопросов:
1. Правильно ли я понимаю, что алгоритм принятия решений, предлагаемый в статье, заключается в следующем:
- При заранее расчитанном объеме выборки запускается тест. В какой-то момент времени происходит подглядывание. Если z стат вышел за границы, предлагаемые в статье, то останавливаем и считаем, что мы пронаблюдали эффект на уровне альфа. Если z стат оказался в серой зоне, то продолжает тест? Предполагается ли возможность остановить тест во втором случае, и заключить то, что разницы нет между тестом и контролем.
Причина первого вопроса: в статье утверждается, что мы немного теряем в мощности при росте кол-ва подглядываний, это же атоматически означает, что мы растим ошибку второго рода - не найти эффект там где он действительно есть. Но вот еще раз смотрим на представленный алгоритм действия и принятия решения. Если мы до конца теста не останавливает тест, если z находтся внутри интервала, то, кажется, что таким образом мы не можем увеличить ошбику второго рода, мы не принимаем тест серым досрочно, насколько я понимаю. Я при этом понимаю, что выборка, на которой мы принимаем решение меньше, и это теоретически мощность понижает, однако если при последовательном тестировании не предполагается останавливать серый тест досрочно, то мы как будто бы уже и не подглядывем в случае серого теста, и можем ли мы в таком случае говорить про уменьшение мощности?
2. Даже если мощность действительно падает, то я не понимаю, почему именно от кол-ва подглядываний. Интуитивно кажется, что чем раньше мы подглядываем, тем мощность меньше, чем ближе к концу теста, тем мощность будет больше. Как кол-во подглядываний изменяет мощность?
Спасибо)
Использование последовательного тестирования для уменьшения размера выборки