Можно немного поподробней про метрику выручки, на которой вы тестировали методы? Это средний чек на заплатившего или на просто разметившего объявление? Во втором случае кажется у вас будет огромное количество 0 значений и помогает ли в этом случае cuped?
MDE состоит из дисперсии, конкретного alpha и количества наблюдений в выборке. Из всего этого с течением времени меняется только количество наблюдений. Теоретически имея огромное множество наблюдений мы могли бы детектировать очень маленькое MDE, но из-за ограничения по времени мы ограничиваем MDE. Условно вычисляя размер выборки для 10% MDE , мы понимаем что нам нужно минимум N наблюдений. Но если бы решили собирать 100*N то возможно нашлибы прокрас но для меньшего MDE. Таким образом менеджер должен понимать, что серый эксп это не вообще отсутствие эффекта , а то что он может быть меньше MDE
Мне кажется, в случае серого эксперимента интереснее мониторить MDE. Чтобы бизнес понимал, что это не означает что вообще нет эффекта, а то что на таком количестве данных эффект может быть любой меньше MDE.
Спасибо!
А как оценить «грамотность» валидации, если паблик лидерборд может врать?
Пример: сейчас проходит соревнование от гугла, где любое отступление от бейзлана ухудшает скор на лидерборде, но улучшает на локальной кросс валидации?
Спасибо за статью!
Можно немного поподробней про метрику выручки, на которой вы тестировали методы? Это средний чек на заплатившего или на просто разметившего объявление? Во втором случае кажется у вас будет огромное количество 0 значений и помогает ли в этом случае cuped?
MDE состоит из дисперсии, конкретного alpha и количества наблюдений в выборке. Из всего этого с течением времени меняется только количество наблюдений. Теоретически имея огромное множество наблюдений мы могли бы детектировать очень маленькое MDE, но из-за ограничения по времени мы ограничиваем MDE. Условно вычисляя размер выборки для 10% MDE , мы понимаем что нам нужно минимум N наблюдений. Но если бы решили собирать 100*N то возможно нашлибы прокрас но для меньшего MDE. Таким образом менеджер должен понимать, что серый эксп это не вообще отсутствие эффекта , а то что он может быть меньше MDE
Спасибо за интересную статью!
Мне кажется, в случае серого эксперимента интереснее мониторить MDE. Чтобы бизнес понимал, что это не означает что вообще нет эффекта, а то что на таком количестве данных эффект может быть любой меньше MDE.
А как оценить «грамотность» валидации, если паблик лидерборд может врать?
Пример: сейчас проходит соревнование от гугла, где любое отступление от бейзлана ухудшает скор на лидерборде, но улучшает на локальной кросс валидации?