Обманчивая статистическая значимость / Хабр

Статистическая значимость похожа на автокафе научно‑исследовательского мира. Подъезжаешь к исследованию, забираешь свой «бургер значимости», и — бабах — у тебя в руках оказывается вкусный вывод, которым можно поделиться с друзьями. Применение показателей статистической значимости удобно не только с точки зрения читателей научных статей. Они облегчают жизнь и самим исследователям. Зачем долго и мучительно что‑то объяснять, когда можно вместо этого ограничиться парой простых слов?

Но не так всё просто.

Что можно сказать о причудливых уравнениях и о мелких деталях исследований, рассуждения о которых нам заменили показатели статистической значимости? Это — настоящая суть исследований. А когда учёные и читатели статей слишком сильно полагаются на статистические инструменты, всё может закончиться возникновением колоссальных ошибок, вроде той, которая почти нарушила законы физики.

В 2011 году физики из знаменитой лаборатории CERN сообщили о поразительном открытии: нейтрино, возможно, способны передвигаться со скоростью, превышающей скорость света. Это открытие посягнуло на теорию относительности Эйнштейна — на краеугольный камень современной физики. Исследователи были уверены в своих результатах, которые преодолели строгий порог статистической значимости, используемый в физике — 99,9 999 998%. Значит — дело закрыто. Так?

Не совсем так. Когда другие учёные тщательно проверили эксперимент, они нашли изъяны в методологии, и, в итоге, не смогли воспроизвести результаты. Первоначальное открытие, несмотря на впечатляющий уровень его статистической значимости, оказалось фальшивкой.

В этой статье мы поговорим о четырёх важных идеях, в соотв��тствии с которыми не стоит безотчётно доверять статистически значимым результатам исследований. Кроме того, мы коснёмся вопроса о том, почему нужно учитывать результаты, которые статистически значимыми не являются.

TL;DR

Вот четыре основных изъяна показателей статистической значимости:

Они придуманы людьми. Уровни статистической значимости/незначимости нередко берутся, так сказать, с потолка. А иногда исследователи и вовсе ленятся придумывать что-то своё и используют общепринятый уровень значимости 95%.
Они не несут в себе того смысла, который (большинство) людей в них вкладывает. Некий уровень статистической значимости не означает, что «Вероятность истинности X составляет Y%».
Их легко «хакнуть» (часто так и случается). Случайные данные часто называют статистически значимыми из-за того, что их получают в ходе проведения крупномасштабных экспериментов.
Они не дают никаких сведений о том, насколько важны результаты исследований. Статистическая значимость не имеет никакого отношения к оценке важности разницы между неким эталоном и объектом исследования.

Изъян №1: Показатели статистической значимости придуманы людьми

Уровни статистической значимости — это всего лишь некие пограничные значения, заданные людьми абсолютно без какой-либо опоры на математику. Поразмыслите над этим. Нечто такое, что все считают объективной мерой «значимости», по своей сути, является полностью субъективным показателем.

Математика вступает в дело за один шаг до принятия решения о статистической значимости результата исследования. Выглядит это как применение количественной меры достоверности результата. Самая распространённая форма этой меры, используемая при проверке гипотез, называется p-значением. Это значение даёт конкретную математическую вероятность того, что данные, полученные в ходе эксперимента, не являются результатом случайного стечения обстоятельств.

Например, смысл p-значения, равного 0,05, заключается в том, что имеется 5% вероятность того, что имеющиеся (или более экстремальные) значения получены случайным образом. Другими словами — такое p-значение показывает, что мы на 95% уверены в том, что полученные результаты не случайны. Предположим, вы полагаете, что некая монета — нечестная, что она чаще падает орлом вверх. То есть — вероятность выпадения орла превышает 50%. Вы подбрасываете монету 5 раз, и каждый раз выпадает орёл. Вероятность того, что это произошло случайно, при условии, что монета — честная, составляет 1/2 × 1/2 × 1/2 × 1/2 × 1/2 = 3,1%.

Но достаточно ли этого, чтобы сказать о том, что полученный результат статистически значим? Зависит от того — кому задают этот вопрос.

Часто именно тот, кто определяет то место, где будет прочерчена линия уровня значимости, оказывает большее влияние на признание результатов некоего эксперимента значимыми, чем сами данные, полученные в ходе эксперимента.

Учитывая наличие такого вот субъективного последнего шага анализа данных, я, в собственных исследованиях, часто даю читателям сведения о процентном показателе уровня значимости, а не итоговый результат, который может быть назван либо «значимым», либо «незначимым». Дело тут лишь в том, что последний шаг исследования слишком сильно зависит от мнения исследователя.

Скептик скажет: «Но существуют стандарты определения статистической значимости».

Я постоянно слышу это в виде комментария к тому, о чём рассказал выше (я довольно часто об этом говорю — к огромному удовольствию моей подруги — научного работника).

На такие слова я реагирую примерно так: «Конечно, если имеется определённый стандарт, которого вы обязаны придерживаться, например — из‑за законодательного регулирования чего‑либо, или из‑за правил, принятых в каком‑то научном журнале, тогда выбора у вас не будет. А вот если в вашем случае это не так — у вас нет причин следовать неким стандартам».

Скептик: «Но существует общепризнанный стандарт — уровень значимости 95%».

В этот момент разговора я изо всех сил пытаюсь не закатить глаза от раздражения. Это — признак откровенной лени — принимать решение о том, что уровень статистической значимости, применяемый в некоем эксперименте, составляет 95%, делая так лишь из‑за того, что это норма. Такой подход не принимает во внимание особенности того, что именно подвергается исследованию.

Я, когда вижу на работе, что кто‑то использует в эксперименте уровень значимости 95%, не объясняя причин, тут же слышу в голове тревожный звоночек. Это говорит либо о том, что исследователь не понимает последствий своего выбора, либо о том, что ему безразличны нужды компании, стоящие за экспериментом.

Лучше всего важность вышесказанного можно проиллюстрировать с помощью примера.

Предположим, вы — дата‑сайентист, который работает в IT‑компании. UI‑команда хочет получить ответ на следующий вопрос: «В какой цвет — красный или синий — следует окрасить кнопку „Subscribe“, чтобы максимизировать коэффициент кликабельности (Click Through Rate, CTR)?». UI‑команде всё равно — каким будет цвет, но ей надо выбрать один из них до конца недели. После проведения A/B‑тестирования и статистического анализа результатов мы получаем следующий результат:

https://miro.medium.com/v2/resize:fit:700/1*A9Ww6nQvuY8eag5cfrBvZw.png — Период эксперимента: 1 неделя. Размер выборки: 2000 (1000 на каждый вариант). p-значение 0,060 (вероятность того, что результаты не являются случайными, составляет 94%)
(изображение создано автором)

Дата-сайентист, который строго следует общепризнанным стандартам, может заявить представителям UI-команды следующее: «К сожалению, эксперимент не выявил статистически значимого различия в CTR красной и синей кнопок».

Это — ужасный анализ, причём — исключительно из-за его последнего субъективного шага. Предположим, вместо этого дата-сайентист проявил инициативу и как следует разобрался в предметной области. Он учёл то, что «у UI-команды нет цветовых предпочтений, есть лишь необходимость выбрать цвет до конца недели». В таком случае он задал бы очень высокий уровень значимости. Возможно — это было бы p-значение, равное 1,0. Это показало бы, что статистический анализ значения не имеет, что UI-команда с радостью выберет любой цвет, который показал более высокий CTR.

Учитывая риск того, что дата-сайентист и другие подобные специалисты могут не обладать полными сведениями, помогающими им определить наилучший уровень значимости, лучше (и проще) возложить ответственность за это на тех, кто обладает полным пониманием предметной области. В данном примере это — UI-команда. Другими словами, дата-сайентист должен был бы сообщить UI-команде следующее: «Эксперимент показал, что синяя кнопка отличается более высоким CTR, причём, я на 94% уверен в том, что это — не случайность». Последний шаг исследования — шаг определения статистической значимости результатов — должен быть сделан UI-командой. Конечно, это не значит, что дата-сайентист не должен объяснить UI-команде смысл слов «уровень значимости 94%», а так же рассказать о том, почему принятие решения о статистической значимости результатов исследования лучше доверить самой команде.

Изъян №2: Показатели статистической значимости не несут в себе того смысла, который (большинство) людей в них вкладывает

Представим, что мы живём в мире, который немного более совершенен, чем наш, в мире, где вышеописанная первая проблема больше проблемой не является. А именно — люди всегда выбирают идеальные показатели статистической значимости. Ура! Предположим, мы хотим устроить эксперимент, в котором уровень значимости установлен в 99%. Прошло несколько недель, и мы, наконец, получили результаты. Анализ показал статистическую значимость этих результатов. И снова — ура! Но что это, на самом деле, значит?

Относительно проверки гипотез распространено убеждение, в соответствии с которым вышеупомянутые 99% означают, что существует 99% вероятности того, что гипотеза верна. Это — кошмарная ошибка. Это означает лишь то, что существует 1% вероятности того, что в эксперименте, по случайности, появятся данные такого или более высокого уровня.

Статистическая значимость показателей не принимает во внимание точности эксперимента. Вот несколько примеров того, что невозможно учесть при вычислении статистической значимости:

Качество выборки. Отобранные образцы могут оказаться необъективными или нерепрезентативными.
Качество данных. Могут быть не решены различные проблемы, касающиеся самих данных. Среди них — ошибки измерений и отсутствующие данные.
Обоснованность допущений. Речь идёт о допущениях статистического эксперимента (наподобие нормальности и независимости данных), которые могут быть нарушены.
Качество планирования исследования. Плохой экспериментальный контроль, отсутствие контроля искажающих факторов, проверка нескольких результатов без корректировки уровней значимости.

Вернёмся к примеру из физики, который описан в начале статьи. После того, как другим учёным не удалось воспроизвести первоначальное открытие, физики, которые сделали его в 2011 году, сообщили, что они нашли ошибку в осцилляторе измерительного устройства. То есть — речь идёт об ошибке, связанной с планированием исследования, которая привела к полному опровержению полученных результатов.

Когда вы в следующий раз услышите о статистически значимом открытии, которое противоречит общепринятому мнению — не спешите ему верить.

Изъян №3: Показатели статистической значимости легко «хакнуть» (часто так и случается)

Суть статистической значимости — это выяснение вероятности того, что что‑то может произойти из‑за случайного стечения обстоятельств. Поэтому экспериментатор, который больше заинтересован не в том, чтобы найти истину, а в том, чтобы получить статистически значимый результат, способен достаточно легко обмануть систему.

Вероятность выпадения двух единиц на двух игральных костях равняется (1/6 × 1/6) = 1/36, или 2,8%. Этот результат столь редок, что многие люди отнесли бы его к разряду статистически значимых. А что если поэкспериментировать с костями, количество которых превышает две? Вполне естественно то, что шансы выпадения, как минимум, двух единиц возрастут:

3 кости: ≈ 7,4%
4 кости: ≈ 14,4%
5 костей: ≈ 23%
6 костей: ≈ 32,4%
7 костей: ≈ 42%
8 костей: ≈ 51%
12 костей: ≈ 80%*

*Как минимум две кости, на которых выпала единица — это эквивалент следующего: 1 (то есть — 100%, без сомнения), минус вероятность выпадения нулевого количества единиц, минус вероятность выпадения лишь одной единицы.

P (нуль единиц) = (5/6)^n.
P (в точности одна единица) = n * (1/6) * (5/6)^(n-1).
n — это количество костей.
В результате полная формула будет выглядеть так: 1 — (5/6)^n — n*(1/6)*(5/6)^(n-1).

Предположим, я провожу простой эксперимент, основанный на теории о том, что при броске игральной кости вероятность выпадения единицы выше, чем вероятность выпадения других чисел. Я бросаю 12 костей разных цветов и размеров. Вот что у меня получилось:

https://miro.medium.com/v2/resize:fit:700/1*y8j26EpfI1iKs9uMJFZnew.png — Результаты эксперимента с игральными костями (изображение создано автором)

К сожалению мои (поддержанные вычислениями) надежды на выпадение хотя бы двух единиц не оправдались… На самом деле, если подумать, я и не хотел, чтобы выпали две единицы. Меня интересовали большие красные кубики. Я полагаю, что при их броске высоки шансы выпадения шестёрок. Ах! Похоже — моя теория верна, ведь на двух больших красных кубиках выпали шестёрки! Вероятность того, что это получилось случайно, всего 2,8%. Очень интересно. Теперь надо написать статью о моих открытиях и постараться опубликовать её в научном журнале, который примет мои результаты, сочтя их статистически значимыми.

Может показаться, что эта история притянута за уши, но в реальности такое случается чаще, чем можно себе представить, особенно — в высокоуважаемой сфере академических исследований. На самом деле, это случается достаточно часто для того, чтобы соответствующему явлению дали название. Речь идёт о p‑хакинге.

Если вы удивлены — изучение академической системы прояснит вопрос о том, почему подходы, которые, с точки зрения научного метода, выглядят отвратительно, так часто применяются в сфере науки.

В науке очень сложно сделать успешную карьеру. Например, в сфере STEM лишь 0,45% аспирантов становятся профессорами. Конечно, некоторые аспиранты не хотят строить академическую карьеру. Но большинство из них (в соответствии с этим опросом — 67%), всё же, этого хотят. В результате, грубо говоря, у человека, желающего построить карьеру в науке, есть один шанс из ста на то, чтобы, отучившись в аспирантуре, стать профессором. Учитывая такие шансы — этому человеку нужно считать себя исключительной личностью. Или, скорее, ему нужно, чтобы другие люди его таким воспринимали, так как сам себя он принять на работу не может. Как измеряется эта вот «исключительность»?

Возможно, неудивительно то, что самый важный показатель успеха учёного — это его научное влияние. Общепринятыми критериями научного влияния автора являются индекс Хирша (h‑индекс), индекс научной продуктивности (G‑индекс) и индекс i10 (количество публикаций учёного, процитированных не менее 10 раз). Их роднит то, что все они сильно ориентированы на цитирование, то есть — на то, сколько раз опубликованные работы некоего учёного были упомянуты в других опубликованных работах. Тот, кто хочет преуспеть в академической среде и знает об этих критериях, должен сосредоточиться на публикациях об исследованиях, которые, скорее всего, кто‑то процитирует.

Вероятность цитирования автора повышается в том случае, если он опубликует свою работу в высокорейтинговом академическом журнале. А, так как 88% лучших журнальных статей рассказывают о статистически значимых результатах, у статей, посвящённых статистически значимым исследованиям, больше шансов быть принятыми в подобные журналы. Это заводит на кривую дорожку многих благонамеренных учёных, ориентированных на карьеру. Они начинают с применения научной методологии создания научных публикаций:

https://miro.medium.com/v2/resize:fit:2560/1*Fu3Q_Dc0ULKvuha7wChW4A.png — Дерево принятия решений, применяемое при подготовке публикации об эксперименте, автор которого придерживается научного метода (изображение создано автором с применением Mermaid)

Сначала разрабатывают теорию, потом проводят эксперимент и оценивают статистическую значимость его результатов. Если результаты оказываются статистически значимыми — готовят статью и отправляют в журнал. В противном случае речь о возможной публикации не идёт. Если статья получает положительную рецензию — её принимают к публикации и публикую. Если журнал статью не принимает — она уходит на доработку и её снова отправляют в журнал.

Начав с вышеописанного подхода, карьерно‑ориентированные учёные доходят до того, что искажают применяемую ими методологию так, что их работа лишь выглядит как научная. На самом же деле настоящие научные методы такие учёные просто выбрасывают. Выглядит это так:

https://miro.medium.com/v2/resize:fit:2556/1*_ode5fVmw0cTZm4Q0dIaKA.png — Дерево принятия решений, применяемое для максимизации успеха публикации по результатам каждого эксперимента (изображение создано автором с применением Mermaid)

Здесь, если результаты эксперимента оказались, в свете существующей теории, статистически незначимыми, исследователь размышляет о новой теории, основанной на результатах эксперимента.

Учитывая то, что, следуя этим диаграммам принятия решений, исследователь пишет статью после обнаружения статистически значимого результата, у рецензентов нет оснований для обвинения экспериментатора в p-хакерстве.

Ну, это всё теория. А действительно ли такое достаточно часто происходит на практике?

Ответом на этот вопрос будет громкое «Да». На самом деле — большинство научных исследований не удаётся воспроизвести другим учёным. Невоспроизводимость результатов означает, что исследователь, пишущий статью, пытается провести эксперимент, который был описан в другой публикации, но приходит к статистически неожиданным результатам. Часто бывает так, что результат, являющийся статистически значимым в исходной публикации, оказывается статистически незначимым при воспроизведении эксперимента. А в некоторых случаях такой результат оказывается статистически значимым, но для гипотезы, обратной исходной!

Изъян №4: Показатели статистической значимости не дают никаких сведений о том, насколько важны результаты исследований

И наконец — статистическая значимость никак не оценивает разницу между неким эталоном и объектом исследования.

Поразмыслим над этим: показатель статистической значимости обычно сообщает нам следующее: «Разница, вероя��но, появилась не по какой-то случайности». Но он ничего не говорит о том, имеет ли эта разница какое-то значение в реальном мире.

Предположим, вы исследуете новое лекарство и выясняете, что оно облегчает головную боль на 0,0001% лучше, чем плацебо. Если провести соответствующий эксперимент на миллионах людей, то, из-за огромного размера выборки, это крошечное отличие может оказаться статистически значимым. Но… кого заботит облегчение боли на 0,0001%? На практике никакого смысла в этом нет.

С другой стороны — можно найти лекарство, уменьшающее боль на 5% лучше плацебо. Но при его исследовании не было проведено достаточно масштабного эксперимента, способного продемонстрировать статистическую значимость результатов. Вероятно, в медицине существует много подобных примеров. Если такое лекарство стоит недорого, у фармацевтических компаний не будет стимула к проведению эксперимента, так как крупномасштабные медицинские эксперименты очень дороги.

Именно поэтому важно оценивать размер эффекта (то, насколько велик этот эффект) отдельно от уровня статистической значимости результатов эксперимента. В реальном мире нам нужно и то и другое — такой эффект, который вряд ли вызван случайными причинами, и который при этом достаточно велик для того, чтобы что-то значить.

Примером подобной ошибки, встречающейся снова и снова, является (статистически значимое) обнаружение канцерогенов — то есть веществ, вызывающих рак. Вот что об этом писало издание Guardian в материале 2015 года:

Бекон, ветчина и сосиски, наряду с сигаретами, являются основной причиной развития рака, заявила Всемирная организация здравоохранения, поместив переработанное мясо в ту же группу риска, в которую входят асбест, алкоголь, мышьяк и табак.

Это — дезинформация в чистом виде. Бекон, ветчина и сосиски в той же группе риска, что и асбест, алкоголь, мышьяк и табак. Серьёзно? Но принадлежность чего-либо к некоей группе риска ничего не говорит о масштабе воздействия канцерогенов на человека. Она указывает, скорее, на то, насколько ВОЗ уверена в том, что нечто является канцерогеном. То есть — речь идёт о статистической значимости.

Масштабы случаев заболевания раком, вызванных переработанным мясом, неясны, так как в данной сфере не было проведено рандомизированных контролируемых исследований (РКИ). Одна из самых заметных работ, указывающих на то, что переработанное мясо вызывает рак — это обсервационное исследование (подумайте о корреляции, а не о причинно-следственной связи), проведённое в Великобритании. В ходе этого исследования выяснено, что у людей, съедающих в день, в среднем, более 79 граммов красного и переработанного мяса, риск развития рака кишечника на 32% выше, чем у людей, съедающих ежедневно, в среднем, менее 11 граммов таких продуктов.

Но, чтобы понять истинный риск — надо выяснить то, какое количество людей подвержено риску развития рака кишечника. В каждой группе из 10000 человек, съедающих менее 11 граммов мяса, у 45 был диагностирован рак кишечника. А среди тех, кто съедал более 79 граммов, рак был диагностирован у 59 человек. Получается, что речь идёт о 14 дополнительных случаях рака кишечника на 10000 человек, или о 0,14%. В Великобритании выживаемость пациентов с раком кишечника составляет 53%, поэтому грубая оценка смертельной опасности, которую несут в себе канцерогены, содержащиеся в переработанном мясе, составляет 0,07%.

Сравним это с другой субстанцией, упомянутой в статье Guardian — с табаком. Вот что пишет по этому поводу Cancer Research:

Потребление табака является главной предотвратимой причиной развития рака и наступления смерти в Великобритании. Это же — одна из основных предотвратимых причин заболеваний и смерти в мире. В 2021 году табак стал причиной около 75 800 смертей в Великобритании — причиной примерно десятой части (11%) всех смертей от всех причин.

Во первых — ух ты. Не курите.

Во‑вторых — смертность от рака, вызванного табаком в 11%/0.07% = 157 раз выше, чем смертность от переработанного мяса! Вернёмся к цитате из статьи: «Бекон, ветчина и сосиски, наряду с сигаретами, являются основной причиной развития рака». Одним словом — это — фальшивые новости.

Итоги

В результате можно сказать, что, хотя статистическая значимость занимает определённое место в проверке достоверности количественных исследований, очень важно понимать те жёсткие ограничения, которые связаны с её применением.

На нас, как на читателях различных публикаций, лежит ответственность критической оценки заявлений о статистической значимости чего‑либо. В следующий раз, когда вам встретится публикация с результатами некоего исследования, или какая‑нибудь статья, где заявляют о «статистической значимости» результатов, найдите время на то, чтобы задаться следующими вопросами:

Согласуется ли пороговый уровень статистической значимости с той предметной областью, в которой проводится исследование?
Насколько хорошо были спланированы исследование и процесс сбора данных?
Могли ли исследователи применять p‑хакинг или другие сомнительные практики?
Какова практическая значимость величины исследуемого эффекта?

Задавая эти вопросы и требуя более глубоких обсуждений того, что касается статистической значимости, мы можем помочь в распространении более ответственного и точного подхода к использованию этого инструмента.

О будущем статистического анализа

Я, на самом деле, думаю, что главная причина того, что «статистическая значимость» обрела столь широкую популярность, заключается в её названии. Люди ассоциируют «статистику» с математикой и объективностью, а «значимость», с чем‑то, скажем так, значительным и серьёзным. Надеюсь, моя статья убедила вас в том, что эти ассоциации ошибочны.

Если учёные и специалисты из более широких сфер решат, что им нужно справиться с проблемой чрезмерной популярности «статистической значимости» — им всем стоит серьёзно подумать о том, чтобы просто дать этому инструменту другое название. Может — это будет «проверка порога вероятности», или «неслучайная степень достоверности». Впрочем, это лишило бы «статистическую значимость» удобства и доступности, сравнимых с покупкой Биг Мака в автокафе.

О, а приходите к нам работать? 🤗 💰

Мы в wunderfund.io занимаемся высокочастотной алготорговлей с 2014 года. Высокочастотная торговля — это непрерывное соревнование лучших программистов и математиков всего мира. Присоединившись к нам, вы станете частью этой увлекательной схватки.

Мы предлагаем интересные и сложные задачи по анализу данных и low latency разработке для увлеченных исследователей и программистов. Гибкий график и никакой бюрократии, решения быстро принимаются и воплощаются в жизнь.

Сейчас мы ищем плюсовиков, питонистов, дата-инженеров и мл-рисерчеров.

Присоединяйтесь к нашей команде

Обманчивая статистическая значимость