Comments 7
По теме сказать особо нечего, просто стало обидно, что у такой хорошей статьи нет комментов :) Пишите ещё.
Ну да, тот самый случай когда статью активно читают и звездочку кликают, а сказать в комментариях как-то нечего. Я подтверждаю что пост годный и многим послужит хорошим введением в анализ данных.
Если коротко, то проверить причинную связь без эксперимента нельзя.
И дело тут не в том, что нельзя, а в том, что есть вероятность нахождения ложной связи, когда причинной связи нет, и есть вероятность того, что причинная связь не будет найдена, хотя на самом деле есть.
Соответственно, когда уважаемый автор говорит, что причинную связь без эксперимента установить можно, то возникают уточняющие вопросы, как часто мы будем ошибаться, видеть то, чего нет, и не видеть того, что реально существует. Есть много эмпирик, которые говорят, что вот мол, эти два объекта коррелируют, но найти таких кандидатов — не равносильно доказательству, что причинная связь существует. Да и отдельный вопрос, что считать надежным доказательством существования связи, что понимать под термином «связь установлена».
Короче, идея.
Берём и генерируем искусственные данные, некоторый случайный объект A (который имеет случайные атрибуты — переменные )
Объект A — будет причина. От неё генерируем две зависимых случайных объекта — B, C.
Запускаем на вход алгоритму Propensity Modeling. Сначала только B и C.
И радуемся. Какой он оказывается плохой, в 100% случаев (надеюсь) устанавливает причины между B и C. Когда их нет. Жестокий тест, извините.
Теперь подаем на вход A, B и C. Будет интересно.
Иногда эмпирический алгоритм будет говорить, что А причина, а B и C — следствия.
Иногда наоборот. А нам интересна эта статистика. Статистика «попаданий» позволит нам не быть оптимистами при работе с реальными данными.
И дело тут не в том, что нельзя, а в том, что есть вероятность нахождения ложной связи, когда причинной связи нет, и есть вероятность того, что причинная связь не будет найдена, хотя на самом деле есть.
Соответственно, когда уважаемый автор говорит, что причинную связь без эксперимента установить можно, то возникают уточняющие вопросы, как часто мы будем ошибаться, видеть то, чего нет, и не видеть того, что реально существует. Есть много эмпирик, которые говорят, что вот мол, эти два объекта коррелируют, но найти таких кандидатов — не равносильно доказательству, что причинная связь существует. Да и отдельный вопрос, что считать надежным доказательством существования связи, что понимать под термином «связь установлена».
Короче, идея.
Берём и генерируем искусственные данные, некоторый случайный объект A (который имеет случайные атрибуты — переменные )
Объект A — будет причина. От неё генерируем две зависимых случайных объекта — B, C.
Запускаем на вход алгоритму Propensity Modeling. Сначала только B и C.
И радуемся. Какой он оказывается плохой, в 100% случаев (надеюсь) устанавливает причины между B и C. Когда их нет. Жестокий тест, извините.
Теперь подаем на вход A, B и C. Будет интересно.
Иногда эмпирический алгоритм будет говорить, что А причина, а B и C — следствия.
Иногда наоборот. А нам интересна эта статистика. Статистика «попаданий» позволит нам не быть оптимистами при работе с реальными данными.
Ну, если быть занудами, давайте уж тогда поговорим о том, что и с экспериментом причинную связь проверить нельзя. Всегда может оказаться, что исходы экспериментов случайно дали картину, подразумевающую причинность там, где её нет, или наоборот.
Да, действительно, всё именно так, как вы сказали.
Небольшое отличие в том, что при эксперименте, мы сами решаем какую выборку сделать, большую или маленькую, сколько времени ждать, сколько раз повторять эксперимент, тем самым повышая нашу уверенность в наличии связи, или наоборот, повышая нашу уверенность в отсутствии связи.
При созерцании же данных без эксперимента такой возможности получить заданный индекс уверенности нет. Есть какая то неизвестная уверенность что связь есть, а может её и нет с какой-то другой уверенностью. И чем больше переменных среди кандидатов в связи, тем хуже ваша уверенность.
Если коротко, то ставить большие деньги на причинно-следственные связи, извлекаемые таким способом, я бы не стал.
Но если просто предлагают посмотреть на метод, как например, просто посмотреть на обычный коэффициент корреляции, или на взаимную энтропию, то почему бы и нет. На безрыбье и рак рыба.
Небольшое отличие в том, что при эксперименте, мы сами решаем какую выборку сделать, большую или маленькую, сколько времени ждать, сколько раз повторять эксперимент, тем самым повышая нашу уверенность в наличии связи, или наоборот, повышая нашу уверенность в отсутствии связи.
При созерцании же данных без эксперимента такой возможности получить заданный индекс уверенности нет. Есть какая то неизвестная уверенность что связь есть, а может её и нет с какой-то другой уверенностью. И чем больше переменных среди кандидатов в связи, тем хуже ваша уверенность.
Если коротко, то ставить большие деньги на причинно-следственные связи, извлекаемые таким способом, я бы не стал.
Но если просто предлагают посмотреть на метод, как например, просто посмотреть на обычный коэффициент корреляции, или на взаимную энтропию, то почему бы и нет. На безрыбье и рак рыба.
Недавно выполнял подобные процедуры, когда пытались сделать А/В тест, но накосячили с выборкой клиентов. И группа клиентов, которым мы условно давали конфетку за заказ, показали худший результат относительно чистого предложения. Как оказалось обработчик произвел сортировку клиентов по полю расчетной вероятности совершения заказа, тем самым выбрав заведомо лучших клиентов в тест без конфетки. Благо что брали клиентов из 3-х сегментов (клиенты делились на сегменты по единственному фактору, а вероятность совершения заказа рассчитывалась по 12 факторам), и нашлись близкие по вероятности совершения заказа клиенты, которых я и сопоставил. Выявив рост спроса, при предложении «с конфеткой».
Sign up to leave a comment.
Как проверить причинную связь без эксперимента?