Causal Inference: прозрение и практика. Лекция 1. Основные понятия Causal Inference / Комментарии / Хабр

Abstraction 2 окт 2024 в 11:53

Очень важное качество любых каузальных рассуждений - они опираются не только на статистические данные, но и обязательно на модель процесса, сгенерировавшего эти данные (и, соответственно, не могут быть более валидны чем эта модель).

Новый госпиталь был оснащён передовыми технологиями и привлёк лучших специалистов. Однако в процессе времени выяснилось, что средний уровень смертности во втором госпитале значительно превысил показатели первого.
(...)
Мы получили совершенно контринтуитивный результат, даже по знаку противоположный естественным ожиданиям. Причиной этого стало то, что новый медицинский центр привлекал преимущественно пациентов с более тяжёлыми формами заболевания.

Другими словами, и более явно: первая каузальная схема

(крутизна госпиталя) ----------> (уровень смертности)

Дальше делается вывод - исходя из знания предметной области, не из данных - что граф существенно неполон. Обратите внимание, что имеющиеся данные вполне совместимы с этим графом, просто (крутизна) действует на (уровень смертности) положительно.

Вторая схема:

(крутизна госпиталя) ---------------------------> (уровень смерности)
              \------> (тяжесть заболеваний) ----/

Между (крутизной) и (смертностью) теперь есть два пути:

(крутизна) ----> (смертность)
(крутизна) ----> (тяжесть) ----> (смертность)

Пути (1) и (2) - оба каузальные: изменение квалификации персонала приведёт к изменению смертности (возможны также акаузальные пути, которые вносят вклад в корреляцию, но не "проводят" последствий вмешательства в начальный узел).

Если мы хотим оценить только путь (1), то нам нужно "заблокировать" остальные пути. Это делается "контролем по переменной": если мы разбиваем все данные на бины равной или примерно равной (тяжести) и смотрим корреляции в пределах бинов, то узел (тяжесть), как говорят, "заблокирован": корреляция за счёт проходящих через него путей вида --> X --> или <-- X --> исчезает. Именно поэтому дальше говорится

Давайте попробуем устранить эти различия в распределениях, сделав данные однородными по тяжести заболеваний, и повторим наш эксперимент.

Если бы мы понятия не имели что происходит - скажем, у нас есть два сепулькария, в одном выше хрюмзость, но ниже грямзость, и мы также заметили что в статистике есть ещё свойство кудлости, которое существенно различно - то надо ли для оценки влияния хрюмзости на грямзость брать подмножества, однородные по кудлости? Каузальный подход в этот момент требует модель: в одних моделях надо, в других, наоборот, надо не.