Pull to refresh
0
0
Send message

Спасибо за статью!

Можно немного поподробней про метрику выручки, на которой вы тестировали методы? Это средний чек на заплатившего или на просто разметившего объявление? Во втором случае кажется у вас будет огромное количество 0 значений и помогает ли в этом случае cuped?

MDE состоит из дисперсии, конкретного alpha и количества наблюдений в выборке. Из всего этого с течением времени меняется только количество наблюдений. Теоретически имея огромное множество наблюдений мы могли бы детектировать очень маленькое MDE, но из-за ограничения по времени мы ограничиваем MDE. Условно вычисляя размер выборки для 10% MDE , мы понимаем что нам нужно минимум N наблюдений. Но если бы решили собирать 100*N то возможно нашлибы прокрас но для меньшего MDE. Таким образом менеджер должен понимать, что серый эксп это не вообще отсутствие эффекта , а то что он может быть меньше MDE

Спасибо за интересную статью!

Мне кажется, в случае серого эксперимента интереснее мониторить MDE. Чтобы бизнес понимал, что это не означает что вообще нет эффекта, а то что на таком количестве данных эффект может быть любой меньше MDE.

Спасибо!
А как оценить «грамотность» валидации, если паблик лидерборд может врать?
Пример: сейчас проходит соревнование от гугла, где любое отступление от бейзлана ухудшает скор на лидерборде, но улучшает на локальной кросс валидации?

Information

Rating
Does not participate
Registered
Activity