nikita_volkov 19 окт 2023 в 09:55

От A/B-тестирования к Causal Inference в офлайн ритейле

Средний

31 мин

19K

Блог компании X5 TechData Mining * Big Data * Машинное обучение *

Туториал

✏️ Технотекст 2023

Комментарии 28

venheads 20 окт 2023 в 14:03

Спасибо за статью

Вы пишите:

Даже если у заказчика есть возможность случайным образом выбирать магазины, то пул этих магазинов может быть ограничен географией (только магазины одного города/региона) и особенностями самих магазинов. Поэтому ключевой задачей на этапе оценки пилота становится подбор сопоставимой контрольной группы при условии, что генеральная совокупность уже была отфильтрована по известным неслучайным факторам
Значит ли это, что предыдущий подход не работал, и все ранее оценённые пилоты необходимо пересчитывать? Нет, просто раньше использовалась техника мэтчинга, в рамках которой к каждому пилотному магазину подбирался уникальный контрольный магазин на основе значений целевой метрики на истории (подробнее об этом в предыдущей статье). Это позволяло получить частичную сопоставимость групп, но не позволяло учесть качество сопоставимости каждого магазина при оценке эффекта

Но разве это уже не было решено в предыдущей статье, цитата оттужа

Мы уже упомянули, что неоднородность данных – один из самых злейших врагов, с которым мы боремся. Неоднородности проистекают из разных первопричин:
неоднородность по магазинам – у каждого магазина свое среднее значение по метрике (у московских магазинов РТО и трафик значительно больше, чем у деревенских)
неоднородность по дням недели – в разные дни недели разное распределение трафика и разный средний чек: трафик во вторник не похож на трафик в пятницу
неоднородность по погоде – в разные погодные условия люди ходят в магазины по-разному
неоднородность по времени года – трафик в зимние месяцы отличается от трафика летом – это надо учитывать, если пилот длится несколько недель.
Неоднородность увеличивает дисперсию, которая, как упоминалось выше, при оценке РТО магазинов и без того принимает огромные значения. Размер улавливаемого эффекта напрямую зависит от дисперсии. Например, уменьшение дисперсии в четыре раза позволяет детектировать в два раза меньший эффект.
Допустим, у нас был пилот в двух магазинах в течение трех дней (да-да, это противоречит всем расписанным формулам про размер эффекта, но это пример). Средние РТО в магазинах соответственно 200 тысяч и 500 тысяч, при этом дисперсия в обеих группах 10000, а по всем наблюдениям – 35000

То есть описывается ровно такая-же ситуация, но вы говорите что ее не решали, но вот же, прямо показывается картинкой обратная - поправка на поведение и нормализация в рамках каждого магазна

nikita_volkov 20 окт 2023 в 14:04

В предыдущей статье идет речь про методы снижения дисперсии, такие как, например, CUPED, которые используют ковариаты, то есть переменные, влияющие только на Y. Мы же, помимо снижения дисперсии, главным образом решаем проблему смещения пилотной группы относительно генеральной совокупности, используя также конфаундеры, влияющие на Y и на D. В прошлой статье проблема смещения частично решалась с помощью мэтчинга, о чем мы и упомянули в начале статьи. В нашем же случае, мы используем propensity score и на этапе подбора контрольной группы, и на этапе непосредственно оценки эффекта.

Также отмечу, что мы проводили исследования, используя описанную в статье методологию, и текущий подход показал значительный прирост чувствительности и снижение смещения получаемых оценок эффекта.

venheads 20 окт 2023 в 15:12

По тексту есть следующее утверждение

Это позволяло получить частичную сопоставимость групп, но не позволяло учесть качество сопоставимости каждого магазина при оценке эффекта

Я не увидел никаких доказательство что этот метод лучше, даже скорее наоборот, чуть ниже я привел примеры, что как раз propensity score не стоит использовать для этих задач

Также отмечу, что мы проводили исследования, используя описанную в статье методологию, и текущий подход показал значительный прирост чувствительности и снижение смещения получаемых оценок эффекта.

Было бы здорово увидеть сравнения на бенчмарках, тогда будет гораздо проще принять или отвергнуть это утверждение

В дополнение к этой цитате

В прошлой статье проблема смещения частично решалась с помощью мэтчинга, о чем мы и упомянули в начале статьи.

Ты есть вы утверждаете что Cuped ( и его вариации) эту проблему никак не решает, ее решает только матчинг? Но ведь cuped это по факту регрессия на одну переменную, и так как чаще всего этой переменной является значение метрики, кажется очевидным что либо она влияет и на Y и на D (либо ничего не влияет на D)

В таком случае получается не только с помощью матчинга?

ldred 23 окт 2023 в 09:09

Спасибо за такой подробный комментарий!

К сожалению, на текущий момент мы не готовы поделиться результатами внутренних исследований сравнения описанного в статье и ранее использовавшегося подхода, статья и без них вышла достаточно длинной.

Отвечая на замечание про cuped - безусловно, cuped в том числе решает задачу уменьшения смещения, но в нашем случае используются более продвинутые техники - например, в итоговой регрессии используется ряд релевантных фичей, которые включают в себя не только значение метрики за период, предшествующий пилоту, но и показатели сезонности, тренда и других характеристик динамики временного ряда целевой метрики магазина, которые позволяют существенно снизить итоговое смещение.

venheads 20 окт 2023 в 15:05

Вы пишите

На основе полученных ранее фичей строим модель оценки вероятности попадания магазина в ПГ или КГ – propensity score. С помощью результатов работы этой модели можно будет побороть возможную несопоставимость групп.
Производим процедуру тримминга propensity score для лучшего сопоставления ПГ и КГ.
Производим оценку эффекта с помощью модели на основе линейной регрессии, используя propensity score для перевзвешивания объектов, а также все полученные ранее фичи для повышения чувствительности.

Насколько вы уверены что это корректно? Есть обратное мнение с некоторыми доказательствами

Gary King, "Why Propensity Scores Should Not Be Used for Matching"

https://gking.harvard.edu/publications/why-Propensity-Scores-Should-Not-Be-Used-Formatching

https://youtu.be/rBv39pK1iEs?si=BxN8DHTuTKO2P1BA

Я не пытаюсь воззвать к авторитету и сказать что профессору из Гарварда виднее, но хочется увидеться экспериментальные сравнения и обоснование почему так лучше, чем матчинг

Вы пишите

Построенная таким образом итоговая модель оценки эффекта является композицией нескольких моделей и обладает свойством Doubly Robust: оценка эффекта является корректной, если хотя бы одна из составляющих её моделей корректно специфицирована: модель оценки propensity score или модель линейной регрессии. Иначе говоря, имея корректную модель оценки propensity score, мы будем корректно оценивать эффект в нашем эксперименте, даже если вторая модель выдаёт случайный шум. И наоборот, имея корректную модель линейной регрессии, мы будем корректно оценивать эффект в нашем эксперименте, даже если модель оценки propensity score неверна.

Какими свойствами должна обладать корректно специфицированная модель? Я не понимаю что это означает

В целом все это смутно напоминает Double Machine Learning - который оставляет больше вопросов, чем дает ответов

Вы пишите

Поскольку дисперсии у ПГ и КГ могут быть различными, что называется гетероскедастичностью

Насколько я знаю Гетероскедастичность означает что дисперсия меняется в диапазоне признаков, а не является примерно одинаковой везде, в рамках одной группы наблюдений

То что дисперсии у ПГ и КГ будут разными это не вероятность, а факт, они всегда будут разными, немного разными или сильно разными, но это не Гетероскедастичность

При этом на одной из картинок действительно есть Гетероскедастичность

nikita_volkov 23 окт 2023 в 09:10

Спасибо за комментарий!

Есть обратное мнение с некоторыми доказательствами

В статье по приведенной вами ссылке содержится такая формулировка:

We trace the PSM paradox to the particular way propensity scores interact with matching. Thus, our results do not necessarily implicate the many other productive uses of propensity scores, such as regression adjustment (Vansteelandt and Daniel 2014), inverse weighting (Robins, Hernan, and Brumback 2000), stratification (Rosenbaum and Rubin 1984), and some uses of the propensity score within other methods (e.g. Diamond and Sekhon 2012; Imai and Ratkovic 2014).

То есть в статье авторы явно указывают, что результаты относятся исключительно к Propensity Score Matching (который мы только упоминаем), но не относятся к Propensity Score Weighting (который мы используем, в литературе его также называют Inverse Probability Weighting). Хоть оба подхода используют Propensity Score, они все-таки значительно отличаются в реализации.

Говоря о корректности подхода - мы в том числе опираемся на ранее выпущенные статьи и книги по теме (так как техника Inverse Probability Weighting достаточно популярна), некоторые из них можно найти в том числе на Википедии, там есть достаточно свежие (2022 год) источники

https://en.wikipedia.org/wiki/Inverse_probability_weighting

Более подробно про тримминг можно почитать в статье, указанной ниже:
Stürmer T. et al. Propensity score weighting and trimming strategies for reducing variance and bias of treatment effect estimates: a simulation study //American journal of epidemiology. –2021. –Т. 190. –No. 8. –С. 1659-1670.

Какими свойствами должна обладать корректно специфицированная модель?

Про корректную спецификацию модели и doubly robust в целом также можно почитать по ссылке на описание IPW выше - так, для линейной регрессии корректная спецификация прежде всего означает, что математическое ожидание ее остатков равно нулю и ковариация между включенными в регрессию переменными и остатками также равна нулю (то есть факторы, влияющие на Y и коррелирующие с переменными X и D включены в модель)

хочется увидеться экспериментальные сравнения и обоснование почему так лучше, чем матчинг

В целом все это смутно напоминает Double Machine Learning - который оставляет больше вопросов, чем дает ответов

Конкретные исследования несложно найти в литературе, например, вот тут
https://pubmed.ncbi.nlm.nih.gov/22359267/

К сожалению, у нас нет возможности делиться численными результатами внутренних исследований. Отмечу также, что наши результаты справедливы исключительно на данных нашей компании. Мы не беремся утверждать, что на данных другой природы будут подобные результаты.

Насколько я знаю Гетероскедастичность означает что дисперсия меняется в диапазоне признаков, а не является примерно одинаковой везде, в рамках одной группы наблюдений
То что дисперсии у ПГ и КГ будут разными это не вероятность, а факт, они всегда будут разными, немного разными или сильно разными, но это не Гетероскедастичность

Гетероскедастичность - свойство, обратное гомоскедастичности, при которой все наблюдения имеют одинаковую дисперсию шума. Соответственно, у нас наблюдения из ПГ имеют одну дисперсию, из КГ - другую. Более того, даже из вашего определения не следует противоречия. Принадлежность к пилотной группе (D) также является признаком модели, принимающим значения соответственно 0 и 1. В случае даже простой регрессии на константу и D достаточно легко показать, что различие в дисперсии целевой переменной между контрольной и пилотными группами влечет за собой гетероскедастичность. В нашей статье это явно показано на картинке с двумя box plot.

venheads 23 окт 2023 в 10:25

Принадлежность к пилотной группе (D) также является признаком модели, принимающим значения соответственно 0 и 1. В случае даже простой регрессии на константу и D достаточно легко показать, что различие в дисперсии целевой переменной между контрольной и пилотными группами влечет за собой гетероскедастичность.

Это же регрессия на две точки, по такому определению любые данные можно показать как Гетероскедастичные - берем переменную, бьем на две группы - они никогда не выдадут одинаковую цифру - доказали. В таком случае определение не имеет смысла, так как любой нбаор данных будет обладать таки свойством

То есть в статье авторы явно указывают, что результаты относятся исключительно к Propensity Score Matching (который мы только упоминаем), но не относятся к Propensity Score Weighting (который мы используем, в литературе его также называют Inverse Probability Weighting). Хоть оба подхода используют Propensity Score, они все-таки значительно отличаются в реализации.

Да, действительно вы пишите что затем выбрали Propensity Score Weighting, PSW.

Интересно все-же посмотреть и сравнить с матчингом, но вижу что не получится

Про корректную спецификацию модели и doubly robust в целом также можно почитать по ссылке на описание IPW выше - так, для линейной регрессии корректная спецификация прежде всего означает, что математическое ожидание ее остатков равно нулю и ковариация между включенными в регрессию переменными и остатками также равна нулю (то есть факторы, влияющие на Y и коррелирующие с переменными X и D включены в модель)

Спасибо, всегда считал что это называется model assumptions и что ни корректны

nikita_volkov 23 окт 2023 в 11:15

Гомо- и гетероскедастичность это теоретические свойства модели данных, они определяются на основе теоретической дисперсии, а не по ее оценке. Можно посмотреть, например, в Википедии (https://en.wikipedia.org/wiki/Homoscedasticity_and_heteroscedasticity), или же в книжках и статьях по статистике.

Кроме того, случае со случайным разбиением на две группы, при достаточном размере выборок оценки дисперсии не будут статистически значимо отличаться друг от друга в большинстве случаев в силу того, что теоретические дисперсии одинаковы.

venheads 23 окт 2023 в 12:50

Кроме того, случае со случайным разбиением на две группы, при достаточном размере выборок оценки дисперсии не будут статистически значимо отличаться друг от друга в большинстве случаев в силу того, что теоретические дисперсии одинаковы.

Ну во первых откуда мы знаем что они теоретически одинаковые? Я же не сказал случайно разбиение, а цитата "берем переменную, бьем на две группы - они никогда не выдадут одинаковую цифру - доказали"

Теперь допустим что переменная случайна и теоретически все одинаково, но ведь из вашей же цитаты

С точки зрения статистики абсолютно корректно устанавливать любое ограничение на значение вероятности ошибки I рода, если оно установлено до каких-либо манипуляций с данными.

Просто поставим 80% до всяких манипуляций - задача решена!

Это если вы конечно делаете стат тесты на гетероскедастичность

А точнее на разницу в дисперсиях между двумя группами

nikita_volkov 23 окт 2023 в 13:15

Мы используем стандартные ошибки, устойчивые к гетероскедастичности, так как не знаем, одинаковые ли дисперсии или нет. Такой подход не требует отдельной проверки на гомо/гетероскедастичность. Основной поинт предыдущего комментария был в том, что определение гетероскедастичности, даваемое с нашей стороны, корректно, и этот поинт не был опровергнут.

venheads 23 окт 2023 в 13:26

Основной поинт предыдущего комментария был в том, что определение гетероскедастичности, даваемое с нашей стороны, корректно, и этот поинт не был опровергнут.

Вы можете давать новые определения любым словам. Новое определение жирафа придумать или например определить что 20% это нормальный порог ложно положительных результатов. И как тут перечить? Ну вот у меня такой жираф или такая отсечка или такая вот гетероскедастичность, которой я теперь буду называть разницу в дисперсиях между двумя группами.

Но я вам только что показал что ваше определение не имеет смысла, так как по нему данные всегда имеют гетероскедастичность и таким образом новой информации это не дает

nikita_volkov 23 окт 2023 в 19:41

Я вам привел ссылку на Википедию, где указано определение гетероскедастичности, которым я пользуюсь. Дополнительно могу указать, например, следующие источники:
Gujarati, Porter. Basic Econometrics
David Dalpiaz. Applied Statistics with R

Вы же говорите, что это новое определение, и утверждаете, что оно не имеет смысла.

Кажется, что ваша цель здесь заключается явно не в том, чтобы вести конструктивную дискуссию, поэтому боюсь, что текущее обсуждение придётся закончить.

venheads 23 окт 2023 в 21:36

Я нигде не утверждал что гетероскедастичность это краеугольный камень на котором все зиждется и если мы не сойдемся в этом вопросе - общаться дальше бессмысленно. Если хочется воспользоваться этим, как поводом уйти от ответов на другие вопросы (два самых важных - 20% стат значимых тестов по дефолту, потому что это целесообразно для бизнеса и нет никакого конфликта интересов и отсутствие возможности сравнить методы - хотя уж после раскрытия правды про 20% - казалось бы, что терять, почему не показать какие то бенчмарки, неужели метод работает только на данных Х5? И при этом с FP в 20%), я не могу этому препятствовать. Хотя впрочем мы их уже и закрыли, то есть даже и уходить от них не надо.

Но использование этого термина в тексте - это классический пример Fluff - то есть усложнение ради усложнения

Да, формально его можно использовать, но мне кажется это первый раз, где я вижу такое усложнение ради усложения в прикладной статье про А/Б

Ведь можно было просто написать:

Так как стат значимое отличие в А/Б тесте по умолчанию ведет к разнице дисперсий между группами (распределение группы А отлично от распределения Группы Б), мы вводим поправки на этот факт

Но вместо этого напишем.

Поскольку дисперсии у ПГ и КГ могут быть различными, что называется гетероскедастичностью, при оценке необходимо использовать устойчивые к гетероскедостичности оценки дисперсии коэффициентов.

Возможно следующим шагом стоит пойти в scipy и поменять в функции т теста equal_var=True на homoscedasticity=True

А то чего они не используют правильные термины и путают людей

https://github.com/scipy/scipy/blob/da64f8ca0ef2353b59994e7e37ecee4e67a9b1d3/scipy/stats/_stats_py.py#L5958

Можно даже придраться по существу, почему могут?

Я только что прогнал 10 тысяч тестов, где брал распределение (20к точек), делил на две группы случайно и дисперсия нигде не совпала! Везде была различная! Возможно дисперсия может быть различной стат значимо? Точечно то она различная всегда

Но это действительно с моей стороны уже придирка по стилю, удачно вышло что ей можно воспользоваться как поводом уйти из дискусси.

nikita_volkov 24 окт 2023 в 07:06

Спасибо за более конструктивный ответ по гетероскедастичности! Сразу отмечу, что на другие упомянутые вопросы я дал четкий ответ, а конструктивного обоснования некорректности 20% я так и не увидел.

Исходя из последнего вашего комментария я еще раз убедился, что вы путаете теоретические свойства случайных величин и свойства оценок по данным. Попробую помочь вам разобраться и пояснить иначе.

Линейная регрессия в общем случае имеет вид

$Y = X \theta + \varepsilon$

Если ко мне пришли данные, где генерация имела вид
epsilon = scipy.stats.norm.rvs(size=100, scale=1) то это случай гомоскедастичности.

Если же генерация имела вид условно
epsilon = scipy.stats.norm.rvs(size=100, scale=np.linspace(1, 2, 100)) то это случай гетероскедастичности.

В реальности мы никогда не знаем, какие данные нам пришли. Соответственно, мы никогда не можем точно утверждать, есть гетероскедастичность или нет.

Все, что мы можем - посчитать какие-то оценки, построить графики, проверить стат. тесты. И в каждом случае это будут лишь какие-то предположения на основе данных, а не точный ответ.

Это полностью аналогично эффекту между группами. Этот эффект это некая теоретическая величина, которую мы не знаем, и мы хотим ее оценить. Делая оценку и оценивая ее стат. значимость, мы можем совершать ошибки 1 и 2 рода. А если, как вы говорите, определять понятия стат. свойст на основе стат. значимости, то получается, что при наличии стат. значимости эффект всегда есть (ведь это же его определение по-вашему), и никаких ошибок 1 рода не существует...

Что касается темы equal_var=True на homoscedasticity=True, пожалуйста, почитайте раздел статьи целиком. Мы начинаем с t-test'а, переходя от него к линейной регрессии на ковариатах, и заканчивая взвешенной линейной регрессией. Здесь уже нет обычного t-test'a, здесь линейная регрессия с множеством вещественных признаков.

ldred 24 окт 2023 в 07:58

Дискуссию с вами продолжать не хочется в виду общей ее токсичности, вашего снисходительного и издевательского стиля общения, а не отсутствия конструктивных возражений - сторонний наблюдатель заметит, что вы их попросту последовательно игнорируете.

Если вас, как одного из авторов предыдущей статьи, расстраивает тот факт, что в данной статье заявляется о превосходстве текущих методов, то имеет смысл обозначить вашу мотивацию на берегу, а не пытаться изображать конструктивный диалог - вас ведь не удовлетворит ни один ответ на заданные вами вопросы, ведь цель этой дискуссии для вас - не поиск правильных ответов, а желание победить в споре и показать свою правоту.

В данной статье мы просто хотели рассказать о довольно популярных и без того признанных в сообществе техниках causal inference и их применении внутри компании, а не доказать, что одни алгоритмы лучше других - что, тем не менее, было нами сделано внутри компании, причем для различных уровней значимости - в том числе и для стандартного уровня значимости в 5%. Не думаю, что имеет смысл делиться конкретными цифрами без кодовой базы, в рамках которой их можно воспроизвести.

venheads 25 окт 2023 в 17:34

Если заявления не сопровождаются доказательствами их принимают с недоверием и скепсисом, особенное если утверждается что А, лучше Б, но этого не демонстрируется

Просто представьте статью про тот-же Cuped или что угодно другое, где говорится что метод лучше, но не доказывается и показывается почему и не приводится даже сравнений. Абсурд?

В данной статье мы просто хотели рассказать о довольно популярных и без того признанных в сообществе техниках causal inference и их применении внутри компании, а не доказать, что одни алгоритмы лучше других - что, тем не менее, было нами сделано внутри компании, причем для различных уровней значимости - в том числе и для стандартного уровня значимости в 5%.

Но вот же начало статьи:

За это время наш подход к оценке инициатив значительно эволюционировал. Мы собирали бизнес-кейсы, изучали научную литературу, экспериментировали с реальными данными и в итоге пришли не только к другой модели для оценки эффекта, но и изменили методологию в целом.

Ну то есть вы садились с целью сделать тоже самое? Вряд-ли, вы хотели сделать лучше

Дальше, вы писали статью чтобы показать что сделали то-же самое? Вряд-ли, ведь даже в самом начале говорится, что теперь стало лучше, решается то что не могли решить раньше

НО! Мы не покажем вам, обидно!

Дискуссию с вами продолжать не хочется в виду общей ее токсичности, вашего снисходительного и издевательского стиля общения, а не отсутствия конструктивных возражений - сторонний наблюдатель заметит, что вы их попросту последовательно игнорируете.

Не согласен, я признал, тут же, что не прав был про propensity score

Признал, пусть и не сразу, что формально корректно использовать термин гетероскедостичность, хотя все равно считаю что это ненужное усложнение и привел примеры, что не используют эти термины. Причем заметьте, я привел пример параметра в т тесте, который как раз указывается, являются ли (теоретические) дисперсии равными или нет, и что он называется equal_var а не homoscedasticity, то есть что в стандартной библиотеке не усложняют названия может и в статье следует не стоит?

Но вы стали объяснять мне что здесь t test отсутствует (это к слову про снисходительный тон ), хотя могли бы сказать просто, термин дали, он корректный, но можно было написать проще

Мне кажется из этого примера видно кто и что игнорирует?

Если вас, как одного из авторов предыдущей статьи, расстраивает тот факт, что в данной статье заявляется о превосходстве текущих методов, то имеет смысл обозначить вашу мотивацию на берегу

Меня расстраивает что я не могу взять вашу методу на вооружение, потому я не могу сам себе обосновать что она лучше, потому что этого обоснования я не вижу. В дополнение меня добили 20%, но про них мы ниже поговорим (если конечно поговорим)

Когда я впервые увидел cuped или матчинг, меня это не расстроило, а обрадовало - ведь я смог их использовать. Я не ожидаю что мы достигли пика развития а/б тестов в 2019 году и надеюсь что в будущем будут методы лучше, быстрее и круче. И если они построены на основании заложенном нами и командой созданной нами с нуля, так это еще лучше.

Можно просто посмотреть на мою реакцию на другие статьи от Х5, которые я до этого всегда хвалил и репостил и где приводятся какие то улучшения в области А/Б и показывается почему и как это работает

Исходя из последнего вашего комментария я еще раз убедился, что вы путаете теоретические свойства случайных величин и свойства оценок по данным. Попробую помочь вам разобраться и пояснить иначе.

Поэтому мы пишем одинаковые вещи про них

Вот с вашей стороны:

В реальности мы никогда не знаем, какие данные нам пришли. Соответственно, мы никогда не можем точно утверждать, есть гетероскедастичность или нет.

Вот с моей стороны то-же самое

Ну во первых откуда мы знаем что они теоретически одинаковые?

Вот вы пишите

Все, что мы можем - посчитать какие-то оценки, построить графики, проверить стат. тесты. И в каждом случае это будут лишь какие-то предположения на основе данных, а не точный ответ.

Вот здесь я намекаю что точечно она всегда будет разной

Возможно дисперсия может быть различной стат значимо

То есть мы точно про разное? Или про одно то же?

nikita_volkov 25 окт 2023 в 21:57

Отвечу только по своим моментам.

Во-первых, еще раз советую перечитать статью. Мы не используем scipy.stats.ttest_ind, на который вы указываете. Он не позволяет внутри себя использовать те же методы понижения дисперсии. Мы используем линейную регрессию из statsmodels в силу наличия множества ковариат, а также весов наблюдений. И уже у такой модели используем оценку дисперсий в форме Уайта, которая получена в предположении гетероскедастичности, к слову, о которой явно пишет документация statsmodels.

Во-вторых, я вам привел несколько ссылок на научную литературу, вы же привели ссылку только на название переменной в библиотеке. Кажется, я впервые вижу такую аргументацию в математике. Также замечу, что в математике в частных подходах не редко используются свои названия объектов или свойств, отличающиеся от соответствующих названий более общих подходов.

Очень жаль, что мое последнее пояснение вы так и не поняли, и, судя по окончанию комментария, продолжаете путать теоретические свойства и оценки по данным. Тогда могу только лишь дать совет почитать ссылки, которые я привел выше.

venheads 25 окт 2023 в 22:51

Никита, я понимаю что вы не используете scipy.stats.ttest_ind

Код из него я привел, чтобы показать, как конвеционально (по крайней мере в прикладных вещах) называют то, что вы назвали гетероскедастичностью (причем мы уже обсудили что это абсолютно корректно) в библиотеке, котора является одной из базовых. Это просто хорошая практика, называть одинаковые вещи - одинаково, чтобы не возникало проблем.

Я не уверен что это статья про математику, мне кажется она ближе к прикладной, отсюда в глаза бросилась гетероскедастичность. От этого можно отмахнуться и сказать что это вкусовщина, но это вкусовщина, которая делает жизнь легче

По поводу остального, я не буду писать, может быть я действительно не понимаю, хотя скорее я плохо объясняю, ведь я уже третий пост пишу для чего я привел пример из библиотеки, и пытаюсь объяснить почему это удобнее/лучше, что уж говорить про остальные, более сложные материи, а вы мне третий пост который пост объясняете что у вас нет Т Теста

venheads 23 окт 2023 в 10:09

Соответственно, мы ограничиваем вероятность ошибки I рода на уровне 20%, иначе говоря, мы допускаем возможность получить ложноположительный результат в одном из пяти случаев. В литературе чаще встречается ограничение на уровне 5%, но в силу специфики данных и характера бизнес-гипотез мы используем менее строгий порог. Далее мы ещё подробнее рассмотрим процесс оценки вероятностей ошибок I и II рода.

После этого стало грустно и почти бессмысленно читать дальше, я расстроен

nikita_volkov 23 окт 2023 в 11:14

С точки зрения статистики абсолютно корректно устанавливать любое ограничение на значение вероятности ошибки I рода, если оно установлено до каких-либо манипуляций с данными. Ограничение на вероятность ошибки I рода устанавливается исходя из бизнес ограничений, и кажется, это никак не влияет на ценность этой статьи. Все рассмотренные подходы точно так же справедливы для любого другого заранее выбранного уровня значимости.

venheads 23 окт 2023 в 12:39

Безусловно, хоть 100% можно устанавливать ошибок первого рода

Просто после установки порога в 20% все что вы сделали не имеет смысла и можно закрывать и забывать, а жаль, до этого было интересно. С другой стороны это по крайней мере честно

nikita_volkov 23 окт 2023 в 13:14

Кажется, что это достаточно серьезное, но, тем не менее, безосновательное утверждение с вашей стороны...

Порог по вероятности ошибки I рода, выставленный нами, не противоречит здравому смыслу. Также это является в большей степени бизнесовым аспектом - то есть тот факт, какой конкретно был выбран порог для уровня вероятности ошибки I рода, если этот порог является разумным, кажется, не может умалить ценность материала, представленного в данной статье.

venheads 23 окт 2023 в 13:23

Бизнес же никак не заинтересован в том чтобы повышать процент "успешных" АБ тестов

Просто совпало, что как минимум 20% теперь будут успешными (на будущее - их еще можно делать односторонними) - действительно, безосновательное утверждение, конфликта интересов тут нет

ldred 24 окт 2023 в 07:20

Дело в том, что бизнес в нашем случае - довольно крупная и комплексная структура. Безусловно, владельцы инвестиционных инициатив заинтересованы в повышении количества успешных A/B тестов, чего нельзя сказать об инвестиционщиках, финансистах и рисковиках, которые хотели бы прежде всего видеть эффекты от пилотов в P&L, а не на бумаге. Так как с точки зрения договоренностей мы работаем именно с последней группой стейхолдеров - то действительно, конфликта интересов тут не возникает, наши интересы схожи.

Дополнительно хочу отметить, что ошибка 1-го рода в 20% вовсе не означает успешность в 20% случаев, ведь мы можем ошибаться в обе стороны - как в положительную, так и в отрицательную, о чем вам наверняка должно быть известно.

Также забавный факт - с вашей бытности директором по анализу данных в X5 порог по ошибке 1 рода не изменялся - а значит, в старой методологии, он, вообще говоря, был таким же (либо же какие-то злодеи поменяли его сразу же с вашим уходом). И, в общем-то, этому есть достаточно понятное объяснение - дорогие пилоты не получится раскатывать на большое число магазинов сходу, и нужно иметь хоть какую-то возможность оценить эффект в таком случае с ошибкой 2 рода чуть меньшей, чем 100% - в данном случае приходится чем-то жертвовать, увы.

venheads 25 окт 2023 в 17:41

Также забавный факт - с вашей бытности директором по анализу данных в X5 порог по ошибке 1 рода не изменялся - а значит, в старой методологии, он, вообще говоря, был таким же (либо же какие-то злодеи поменяли его сразу же с вашим уходом)

Это неправда, 20% при мне не было

Я прямо сейчас поднял ряд отчетов по разным пилотам, везде где я подписывал - 95%. Причем у меня есть доказательства на руках, а не просто моя память. Как после этого верить вашим словам? Вы вообще себя зачем закапываете безосновательными утверждениями? Подняли бы чтоли-старые отчеты сначала

Дополнительно хочу отметить, что ошибка 1-го рода в 20% вовсе не означает успешность в 20% случаев, ведь мы можем ошибаться в обе стороны - как в положительную, так и в отрицательную, о чем вам наверняка должно быть известно.

Именно поэтому я написал

Просто совпало, что как минимум 20% теперь будут успешными (на будущее - их еще можно делать односторонними)

При чем ведь еще думал, что стоит написать либо 10% успешными либо 20% стат значимыми, в итоге вот как объединил неудачно

nikita_volkov 25 окт 2023 в 21:46

В предыдущей статье, где вы являетесь первым в списке авторов, приведен пример, в котором для заказчиков составляется таблица, в которой перебираются значения вероятностей ошибок первого рода. Да, тут точно нет конфликта интересов...

Также очень любопытно, откуда у вас старые отчеты с корпоративных аккаунтов, если вы уволились ;)

venheads 25 окт 2023 в 22:29

Никита, вы себя продолжаете топить, я не понимаю зачем?

Вас уже поймали на откровенной неправде, нет чтобы извиниться, вы зачем то дальше себя закапываете. Для чего?

Также очень любопытно, откуда у вас старые отчеты с корпоративных аккаунтов, если вы уволились ;)

У меня вообще осталось куча документов, которые я подписывал или выдавал, для того чтобы их открыть, не нужно иметь текущего доступа к корп аккаунтам, достаточно иметь сами документы на старом компьютере.

Что не отменяет того факта что вы публично распространили заведомо ложную информацию в копроративном блоге компании о бывшем сотруднике компании. Тут можно пошутить "Очень любопытно что скажет об этом комплаенс", но я думаю что это скорее вы по глупости, чем преднамеренно и со зла

В предыдущей статье, где вы являетесь первым в списке авторов, приведен пример, в котором для заказчиков составляется таблица, в которой перебираются значения вероятностей ошибок первого рода. Да, тут точно нет конфликта интересов...

Я даже не знаю что на это ответить

Но попробую

На несколько строчек ниже таблицы, в той же в статье написано

Если мы говорим о реальном мире, то обычно устраивают вероятности ошибок первого и второго родов в 5-10 процентов

Более того, там даже выделен какой уровень значимости берется, зеленым цветом

И заметьте, там сказано что заказчик может выбрать

заказчик имеет ограничение по времени пилота и количеству магазинов, с которыми можно работать;
заказчик знает, эффект какого размера ожидает получить и просит обозначить количество магазинов, которые нужно для пилота (а потом и сами магазины);
заказчик открыт к нашим предложениям.

Я думаю вам не стоит больше сюда писать и лучше удалить ряд своих сообщений, а затем возможно попросить модератора удалить и мои сообщения, чтобы ненароком кто не прочитал

nikita_volkov 27 окт 2023 в 20:34

Предлагаю каждому остаться при своем мнении и закончить этот спор. В своих комментариях я уверен, так что удалять их у меня нет необходимости.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий