Регрессия к среднему — невидимая рука хаоса / Habr

Что объединяет израильских лётчиков, лечение сомнительными методами и твою жизнь? Сегодня поговорим про регрессию к среднему. Это явление порождает огромное количество заблуждений везде, где мы с ним сталкиваемся, потому что наш мозг очень любит истории и не очень любит статистику. Его неправильное понимание приводит к ошибкам в политике, медицине, науке и бизнесе.

Начнём мы с истории из книги Даниеля Канемана «Думай медленно, решай быстро». Автор преподавал психологию эффективного обучения инструкторам израильских лётчиков. Опираясь на исследования, он начал рассказывать им, что поощрение за улучшение результатов работает лучше, чем наказание за ошибки. На что опытный инструктор поделился наблюдениями: когда он хвалит курсантов за особенно чистое исполнение заданий, в следующий раз их результат ухудшается. Когда же он ругает их за особо плохое исполнение, результат в следующий раз улучшается. Почему же эмпирические данные так противоречат исследованиям? Дело вот в чём: вне зависимости от уровня владения каким-то навыком мы не способны показывать один и тот же результат, потому что всегда присутствуют некоторые случайные факторы, не поддающиеся просчёту. Поэтому после НЕОБЫЧНО удачной попытки почти любой следующий результат окажется хуже. И в обратную сторону, если пилот выполнил упражнение ОСОБЕННО плохо, то, скорее всего, следующая попытка будет лучше. Давайте попробуем разобраться почему.

История

Регрессия к среднему довольно контринтуитивна. По ироническому замечанию статистика Дэвида Фридмана, если в ходе судебного разбирательства возникает вопрос о регрессии, та сторона которой приходится объяснять её суть присяжным, обязательно проигрывает.

Её контринтуитивность подтверждает и то, что её обнаружили аж на 200 лет позже, чем дифференциальное исчисление и Ньютоновскую теорию гравитации. Это сделал троюродный брат Чарльза Дарвина. Звали его Фрэнсис Гальтон, и он тоже увлекался темой наследственности. Однако в отличие от Дарвина, расписывающегося в своём бессилии в математике, Гальтон был в ней довольно крут. Он пытался выяснить, как наследуются различные признаки и случайно сделал важнейший вклад в статистический анализ. Вот что он обнаружил.

График роста отцов и сыновей

Мой рост 183 сантиметра, как и у моего отца. Выше изображён график, в котором по одной оси рост отцов, а по другой рост сыновей (в оригинале включены дети и родители обеих полов). Вы видите точку, отражающую наш с папой результат - мой рост 183 и его рост такой же. Гальтон обобщил данные о многих родителях и детях и нанёс их на подобный график.

Фантазия на тему, что мы получили бы если бы корреляция была полной

Если корреляция была бы полной (то есть рост детей всегда равен росту родителей), то мы бы получили вот такую прямую линию. 165=165, 190=190. На ней больше всего точек было бы вокруг среднего роста для мужчин - 176 сантиметров (то есть таких пар было бы просто больше, чем, например, двухметровых отцов с их двухметровыми сыновьями). Если бы корреляции не было вообще, то мы получили бы другую картину. Хаотично разбросанные по графику точки, которые немного кучкуются вокруг центра со средним значением. Но как вы понимаете обе картины далеки от реальности. Так что же тогда получил Гальтон?

Оригинальная иллюстрация 1886 года, с которой начался регрессионный анализ.

А получил он приблизительно такую картину, напоминающую эллипс. Рост родителей имеет корреляцию с ростом детей. Но корреляция эта не идеальна. Есть много случайных факторов, влияющих на рост, таких как внутриутробное развитие, болезни, стрессы, питание и прочее. Поэтому дети очень высоких родителей хоть и выше среднего, но обычно ниже своих родителей.

Давайте возьмём отцов с ростом 200 сантиметров. Это очень высокие отцы, и в большинстве случаев их сыновья будут ниже них. Это мы наблюдаем и на графике, чем выше рост отца, тем больше сыноей остаются ниже линии его роста. Однако большинство этих сыновей будут выше среднего значения (гены всё же играют роль). Это наблюдение и есть регрессия к среднему.

За экстремальными результатами обычно следуют более обычные показатели. И мы наблюдаем это в любой ситуации с неидеальной корреляцией. То есть там, где есть хоть какая-то случайность (невозможность рассчитать/ неконтролируемые параметры).

KPI шаманизм

Представьте себе ситуацию: мы смотрим на показатели эффективности сотрудников в каком-то отделе. Давайте взглянем на лучшего и худшего работника этого месяца, и попробуем предположить, что произойдёт с их показателями в будущем? Если корреляция между навыками и показателями идеальна, то в следующем месяце не произойдёт никаких изменений. Однако если корреляция не идеальна, и результат определяется в том числе удачей, то лучший сотрудник покажет результат похуже, хоть и выше среднего. Худший так же улучшит результат, но вряд ли станет лидером. Если же балом правит случайность (например, у нас отдел по выбрасыванию монеток орлом) то регресс к среднему будет максимальным.

В реальной жизни ушлый руководитель большого отдела мог бы каждый месяц проводить тренинги для сотрудника показавшего экстремельно плохой результат. А руководство каждый месяц удвилялось бы стабильному улучшению показателей этого сотрудника.

Больше примеров

Вообще, интересное наблюдение Даниеля Каннемана заключается в том, что успех = навыки + удача (под удачей имеется ввиду случайность - неконтролируемые параметры). И если навыки всегда остаются с тобой, то удача изменчива. Это значит, что особо выразительный успех включает в себя как высокие навыки, так и высокую удачу. Именно этим объясняется так называемое проклятье обложки. Результаты спортсменов, попадающих на обложку журнала Sports illustrated неизменно ухудшаются. Как и карьеры актёров, получивших Оскар. Что в них общего? Их результат является отражением и великолепных навыков, и высокой удачи.

А вот пример из совершенно другой сферы. В 1999 году школы в штате Массачусетс поделили на отстающие, средние и лучшие по ряду показателей. Затем внесли некоторые изменения в программу. Что же произошло на следующий год? У худших школ средний балл возрос, что министерство образования, естественно, записало на свой счёт. Однако был проигнорирован тот факт, что почти все лидеры ухудшили свои показатели.

В науке игнорирование регрессии к среднему - довольно тяжкий грех. В 1976 год в British medical journal была опубликована статья про эффективность отрубей. Там людей разделили по скорости пищеварения на лучшую группу, среднюю и худшую (где-то мы такое уже слышали). Затем их кормили отрубями и смотрели, улучшаются ли показатели в худшей группе. У испытуемых наступило улучшение, что авторы статьи посчитали эффектом отрубей (правда, если бы они взглянули на лучшую группу, то увидели бы ухудшение показателей). Самое анекдотичное, авторы статьи упоминают регрессию к среднему и пишут: что она может присутствовать, но они считают, что эффект всё же есть.

Вот похожий пример: в Америке была телепередача scared straight («напуганы до исправления») где несовершеннолетним правонарушителям показывали тюрьмы, а заключённые рассказывали им об ужасах, которые их там ждут. Видите тот же рисунок - выбираем худших по произвольному показателю и смотрим, что произойдёт в результате воздействия. Организаторы в одном из штатов сообщили, что их участников арестовывают в следующем году в два раза реже. Такой эффект вполне может быть объяснён регрессией к среднему, а не эффективностью программы (чуть ниже по тексту мы это узнаем точно).

При чём тут лишний вес?

Хорошо, но какое это имеет отношение к вашей жизни? Представьте себе ситуацию. У вас разболелась голова, и вы уже не можете это игнорировать. Но подруга как раз вчера посоветовала вам классный способ от головных болей: натереть виски чесночной водой перед сном. Вы так и поступаете, и голова на следующий день болит гораздо меньше или вообще проходит. Круто! Можно звонить подруге и говорить спасибо? Не спешите.

При хронических заболеваниях вам, то становится лучше, то опять что-то болит (голова, спина или суставы, подставьте свой вариант). В какой момент мы обычно обращаемся за помощью? Когда становится совсем плохо. Вот тут мы бежим за альтернативной медициной или приходим к врачу, который выписывает нам средства из расстрельного списка препаратов. Но ведь если нам стало особенно плохо, после этого мы и так ожидаем улучшения. Не из за того, что организм сам себя спасёт, а просто, потому что любое состояние будет улучшением по сравнению с острой фазой.

А теперь представляем, что этот же график отражает ваш вес. В какой момент вы сядете на диету? В момент, когда вы уже не можете игнорировать отклонение от своей же нормы (точнее от того уровня, что ваш мозг считает нормальным). И конечно же, в этот момент кремлёвская диета вам помогает.

Нужно больше историй!

Наш мозг не любит статистику, но очень любит истории. Это ещё называется искажением нарратива. Из-за него во всех этих ситуациях мы видим истории с причинно-следственной связью вместо регрессии к среднему.

Вот вам наблюдение: умные женщины часто выходят замуж за менее умных мужчин. Сколько интересных объяснений этому вы слышали? Умные женщины избегают конкуренции умных мужчин или умные мужчины не хотят соревноваться с умными женщинами. Но корреляция между интеллектом супругов не идеальна (в том смысле, что браки с разным IQ не запрещены). А там, где корреляция не идеальна - мы обязаны ожидать регрессию к среднему.

Непонимание регресса к среднему может быть довольно опасной штукой, если дело касается медицины. Раньше благодаря заблуждениям о его природе мы верили в эффективность далеко не безвредного кровопускания или употребления родянки (токсичного вообще-то растения) для лечения бесплодия.

Так, стоп, но как тогда вообще понять, работает ли метод лечения или диета?

Именно для этого и существуют исследования с фокус-группами. Это когда мы делим группы людей на худеющих с помощью какой-то диеты, и людей, которые ничего не будут делать. Если в среднем результаты нельзя отличить, то диета не работает (конечно, в реальности фокус-группы обычно плацебо контролируемы, при делении групп происходит рандомизация и учитывается Хоторнский эффект, но об этом мы поговорим в другой раз).

Кстати, помните несовершеннолетних правонарушителей? Там тоже были проведены рандомизированные испытания с фокус-группой, которые показали, что программа приводит… к усилению антисоциального поведения. Иными словами, группа, которую не трогали, показала результаты лучше. Так что эффект всё же есть, да вот только не тот.

А как же ошибка игрока?

И вот тут есть скользкое и оттого очень интересное место. В одном из роликов я рассказывал об ошибке игрока. Это когда вы думаете, что если орёл выпал десять раз подряд, то шанс на выпадение решки возрос (спойлер: нет). Но теперь я утверждаю, что после плохого результата нужно ожидать результат лучше. Разве эти утверждения не противоречат друг другу? Должны ли мы менять свою ставку после экстремального результата?

Чтобы разобраться, давайте обратимся к настольной игре колонизаторы. В ней сумма двух кубиков указывает, какие территории получат ресурсы (а значит ценность территорий разная).

Взгляните на этот график, отражающий вероятность получения различных сумм. И вот я выбрасываю 12. Регресс к среднему говорит, что следующий бросок я сделаю, скорее всего, с меньшей суммой. Это легко понять, ведь вероятность, что я выброшу любой другой результат кроме 12 гораздо выше (она составляет примерно 97%, против 3%). Также легко понять, что тот факт, что я выбросил 12 вообще никак не влияет на будущие результаты. Выбросил я 12 или два раза по 12, вероятность другого результата в следующем броске останется равной 97%. Кубики не помнят предыдущих бросков. И наоборот, если 12 давно не выпадало, то вероятность выбросить его в следующем броске всё ещё = 3%.

Вот вам хрестоматийный пример непонимания этого: «лихорадка 53 номера». Начиная с 2003 года на протяжении многих розыгрышей итальянской лотереи перестал выпадать выигрышный номер 53. Это совпадение заставило многих людей ставить на это число гораздо больше денег. К моменту завершения этой истерии люди успели проиграть 4 миллиарда евро. А могли просто прочитать эту статью.

Нормальный такой купол

Кстати, форма распределения вероятности выпадения кубиков называется купол нормального распределения. Откуда он берётся?

Точка означает просто один из 36 вариантов.

Вот график отражающий корреляцию между значениями двух брошеных игральных кубиков, по образу графика с ростом отцов и сыновей. Тут как видите никакой корреляцией и не пахнет. Если выпала единица на первом, то есть равные шансы для любого значения на втором. Но давайте посмотрим, как часто встречаются те или иные суммы двух кубиков.

Немного перевернул его для удобства, цифрой обозначена сумма двух значений.

Некоторые суммы могут выпадать большим количеством вариантов. Например семёрку можно получить шестью разными результатами. Если мы это переведём в график (он в нижней части, немного не влез в кадр), то получим уже знакомый нам купол. Волшебство? Давайте проверим, работает ли эта магия на практике?

Взгляните на это фото. Здесь я кидал два кубика и клал фишку на соответствующую ячейку суммы. Один бросок = одна фишка. Процессом управляла случайность, но полюбуйтесь великолепным порядком, который она образовала (на видео есть таймлапс со всеми бросками под музычку).

А вот эта штука называется доска Гальтона. Он изобрёл её, чтобы не заморачиваться как я и не кидать кубики кучу раз. В остальном цель у неё та же: продемонстрировать как хаос обретает порядок.

Триумф посредственности?

Следующая история взята из книги Джордана Элленберга «Как не ошибаться». Хорас Секрист в 1930ых годах пытался выяснить, почему одни компании процветают, а другие находятся на грани банкротства. Он собрал кучу данных систематизировав их в почти 500 страничный труд под названием «Триумф посредственности». Какие бы параметры ни брал исследователь, по всем лидеры теряли лидерство, а аутсайдеры переставали быть аутсайдерами. Секрист посчитал виной этому свободную конкуренцию и приход к управлению непрофессионалов в бизнесе. Мол любой может вырваться в лидеры по стечении обстоятельств, но не каждый может удержать своё положение на рынке. Красивое причинно-следственное объяснение, всё как любит наш мозг. Однако, этот вывод игнорирует регрессию к среднему, на что указал Гарольд Хоттелинг. Он возглавлял группу Статистических исследований в Нью Йорке (та самая позиция, где позже Абрахам Вальд будет объяснять армейским чиновникам суть ошибки выжившего). Он указал, что для регрессии вовсе не нужны причины, это давно известный статистический закон. Секрист потративший 10 лет на исследования от выводов отказываться не стал. Тогда Хоттелинг сказал: «Тезис этой книги математически тривиален, и доказательство его посредством дорогостоящего и длительного исследования аналогично доказательству таблицы умножения путём замены цифр на слонов, а затем выполнению этого с другими животными. Такое представление, имеющее возможно педагогическую ценность, не вносит ничего нового ни в зоологию, ни в математику».

P.s.

Благодаря эффекту Баадера-Мейнхофф теперь вы начнёте замечать это явление повсюду. Как много историй в вашей жизни объясняется регрессом к среднему?

Мой канал в телеграмм