Comments 10
Похоже у вас ошибка в формуле после этого текста
Получается, что t-тест эквивалентен построению линейной регрессии, где зависимой переменной является интересующая метрика, а независимой переменной — принадлежность объекта к тестовой группе. В случае линейной регрессии уравнение имеет вид:
<формула>
Скорее всего в ней вместо x должно быть D
Спасибо за статью! Можно ли применять описанные техники для оценки эффектов на Ratio-метрики (CR, CTR) и требуются ли какие-то модификации для этого?
Спасибо за статью! Вечно тягостно читать про статистику, но у вас получилось показать все наглядно и интересно. Буду следить за обновлениями!
Давненько не встречал статей по статистике, где был такой основательный и довольно научный подход. Очень приятно и интересно было читать, спасибо большое за труд!
Спасибо! Никогда не вдавался в изучение что такое CUPED и т.п., а теперь стало понятна их суть. И таким методом оценивать эксперименты кажется удобнее
1.
Кажется, у вас есть опечатка в месте где даёте определение коэффициента детерминации R^2. Вероятно там имелась в виду корреляция предсказываемой переменной и оставшимися независимыми?
2.
И прямо перед этим, в формуле после текста "Оценка дисперсии оценки интересующего коэффициента будет равна". М.б. там x_i в знаменателе?
Добрый день! Спасибо за интерес к статье!
В данной формуле- это коэффициент детерминации при регрессии X на другие предикторы в модели (все остальные независимые переменные в модели). Этот показатель отражает, насколько X коррелирует с другими независимыми переменными в модели.
с индексом j обозначает значение j-го наблюдения для переменной X при коэффициенте.
Статья интересная, но смущает несколько моментов:
Ковариаты независимы, нет причинно-следственных связей
На практике, скорее всего, есть автокорреляция остатков, стоило бы еë добавить и использовать робастные оценки
Не указано как переобучение влияет на variance reduction
50 оттенков линейной регрессии, или почему всё, что вы знаете об A/B тестах, помещается в одно уравнение