Правдоподобия, P-значения и кризис воспроизводимости / Хабр

Или: Как переход от публикации P-значений к публикации функций правдоподобия поможет справиться с кризисом воспроизводимости: личное мнение Элиезера Юдковского.

Если Монро нарисовал комиксы про 75% существующих интересных проблем, а четверть моих статей интересные, то какова вероятность, что рано или поздно мне придётся искать КДПВ где-то ещё?

Если Монро нарисовал комиксы про 75% существующих интересных проблем, а четверть моих статей интересные, то какова вероятность, что рано или поздно мне придётся искать КДПВ где-то ещё?

Комментарий переводчика: Юдковский, автор HPMOR, создатель Lesswrong и прочая и прочая, изложил свою позицию по поводу пользы байесовской статистики в естественных науках в форме диалога. Прямо классический такой диалог из античности или эпохи возрождения, с персонажами, излагающими идеи, обменом колкостями вперемешку с запутанными аргументами и неизбежно тупящим Симплицио. Диалог довольно длинный, минут на двадцать чтения, но по-моему, он того стоит.

Дисклеймеры

Этот диалог был написан сторонником байесовского подхода. Реплики Учёного в нижеприведённом диалоге могут и не пройти идеологический тест Тьюринга на фреквентизм. Возможно, что они не отдают должное аргументам и контраргументам сторонников частотного подхода к вероятности.
Автор не рассчитывает, что описанные ниже предложения будут приняты широким научным сообществом в ближайшие десять лет. Тем не менее, это стоило написать.

Если вы ещё не знакомы с правилом Байеса, на сайте Arbital есть подробное введение.

Модератор: Добрый вечер. Сегодня в нашей студии: Учёный, практикующий специалист в области… химической психологии или чего-то типа того; его оппонент Байесовец, который намерен доказать, что кризис воспроизводимости в науке можно как-то преодолеть с помощью замены P-значений на что-то из Байесовской статистики…
Студент: Извините, как это пишется?
Модератор:… и, наконец, ничего не понимающий Студент справа от меня.

Модератор: Байесовец, не могли бы вы для начала рассказать, в чём суть вашего предложения?
Байесовец: Грубо говоря, суть вот в чём. Предположим, у нас есть монета. Мы подбрасываем её шесть раз и наблюдаем серию «ОООООР» (прим. пер.: здесь и далее О — Орёл, Р — Решка). Стоит ли нам подозревать, что с монетой что-то не то?
Учёный: Нет.
Байесовец: Монета тут просто для примера. Предположим, мы предлагаем выборке добровольцев тарелку с двумя печеньками: одна с зелёной посыпкой и одна с красной. Первые пять человек берут зелёные печеньки, а шестой берёт красную. Верно ли, что люди предпочитают печеньки с зелёной посыпкой, или же такой результат лучше считать случайным?
Студент: Наверное, можно заподозрить, что, может быть, людям больше по душе зелёная посыпка. По крайней мере, студентам-психологам, которые склонны идти добровольцами в странные эксперименты, зелёная посыпка нравится больше. Даже после шести наблюдений можно так заподозрить, хотя я подозреваю, что тут есть какой-то подвох.
Учёный: Я думаю, это ещё не подозрительно. Много какие гипотезы выглядят многообещающе при N=6, но не подтверждаются при N=60.
Байесовец: Лично я бы заподозрил, что наши добровольцы не предпочитают красную посыпку, или хотя бы предпочитают её не очень сильно. Но вообще я придумал эти примеры только чтобы показать, как в современной научной статистике считаются P-значения, и что с ними с байесовской точки зрения не так.
Учёный: А нельзя придумать более реалистичный пример с 30 добровольцами?
Байесовец: Можно, но Студент и так ничего не понимает.
Студент: Это точно.
Байесовец: Итак, уважаемые знатоки: Орёл, орёл, орёл, орёл, орёл, решка. Внимание, вопрос: вы назовёте этот результат «статистически значимым» или нет?
Учёный: Господин ведущий, это не значимо. При нулевой гипотезе, что монетка честная (или при аналогичной нулевой гипотезе, что цвет посыпки не влияет на выбор печенек) такой же или более выраженный результат можно получить в 14 из 64 случаев.
Студент: Ага. Я правильно понимаю: Это потому что мы считаем исходы ОООООО и РРОРРР «такими же или более выраженными», их в общей сложности 14, а всего возможных исходов при 6 бросках 2⁶=64. 14/64 — это 22%, что выше 5%, поэтому результат не считается значимым на уровне p<0.05. Так?
Учёный: Верно. Я бы ещё заметил, что на практике даже при исходе ОООООО не стоит останавливать эксперимент и писать статью про то, что монетка всегда выпадает орлом.
Байесовец: Дело в том, что если можно перестать бросать монетку в любой момент, то придётся спросить себя: «Насколько вероятно, что я найду такой момент для остановки эксперимента, в который количество орлов будет выглядеть публикабельно?» А это в парадигме P-значений уже совсем другая история.
Учёный: Я имел в виду только то, что всего шесть опытов — это несерьёзно, даже если мы изучаем цвет печенек. Но да, Вы тоже правы.
Студент: А почему вообще важно, могу я перестать бросать монетку или не могу?
Байесовец: Какой чудесный вопрос.
Учёный: Дело в том, что P-значения — штука сложная. Нельзя просто взять числа, закинуть их в программу и публиковать то, что эта программа выдаст. Если Вы заранее решили подбросить монетку ровно шесть раз, а потом остановиться независимо от результата, то результат ОООООО или РРРРРР будет получаться в среднем 2 раза из 64, или в 3,1% случаев. Это значимо на уровне p<0,05. Но предположим, что на самом деле Вы лживый и бессовестный фальсификатор. Или просто некомпетентный студент, который сам не понимает, что делает. Вместо того, чтобы заранее выбрать число бросков, вы кидаете и кидаете монетку до тех пор, пока не получите результат, который выглядит статистически значимым. Он и был бы статистически значимым, если бы Вы заранее решили подкинуть монетку ровно столько же раз. Но на самом деле Вы этого заранее не решали. Вы решили остановиться только после того, как получили результаты. Так делать нельзя.
Студент: Окей, я про это где-то читал, но так и не понял, что тут плохого. Это же моё исследование, и мне должно быть виднее, достаточно данных или нет.
Учёный: Весь смысл P-значений в том, чтобы создать тест, который нулевая гипотеза не сможет пройти. Убедиться, иначе говоря, в том, что дым без огня бывает не слишком часто. Для этого нужно так организовать исследования, чтобы не генерировать «статистически значимые» открытия в отсутствие искомого феномена. Если подбросить монетку ровно шесть раз (и определиться с этим числом заранее), то вероятность получить от честной монетки шесть орлов или шесть решек меньше 5%. Если же бросать монетку сколько угодно раз, а после каждого броска пересчитывать P-значение (делая вид, что количество бросков было известно заранее), то шанс рано или поздно получить меньше p<0,05 гораздо больше 5%. Поэтому такой эксперимент обнаруживает дым без огня гораздо чаще, чем в 1 из 20 случаев.
Байесовец: Лично я люблю формулировать эту проблему примерно так: допустим, Вы бросаете монетку и получаете ОООООР. Если при этом Вы в ведомых только Аллаху (ибо Аллах — мудрый, знающий) глубинах своего сердца определились с числом бросков заранее, то результат не значим; p=0,22. Если же Вы после трёхмесячного поста принесли Святому Франциску обет бросать монетку до тех пор, пока не выпадет решка, то этот же результат статистически значим с вполне неплохим p=0,03. Потому что шанс того, что при вероятностях 1:1 решки придётся ждать шесть и более бросков, 1/32.
Студент: Что?
Учёный: Это скорее пародия, конечно. На практике никто не станет бросать монетку до тех пор, пока не выпадет единственная решка, а затем останавливаться. Но вообще-то Байесовец прав, P-значения именно так и работают. Строго говоря, мы пытаемся узнать, насколько редок полученный результат среди тех, которые мы могли бы получить. Человек, бросающий монетку до первой решки, может получить результаты {Р, ОР, ООР, ОООР, ООООР, ОООООР...} и так далее. Класс результатов, в котором совершается шесть и более бросков — это {ОООООР, ООООООР, ОООООООР...}, суммарная вероятность которых 1/64 + 1/128+ 1/256… = 1/32. А человек, бросающий монетку ровно шесть раз, получает один из результатов класса {РРРРРР, ОООООР, ООООРО, ОООООРР...}, в котором 64 элемента. Для целей нашего эксперимента ОООООР эквивалентно ООООРО, ОООРОО и прочим таким же. Так что да, всё это довольно контр-интуитивно. Если бы мы действительно проводили первый эксперимент — ОООООР было бы значимым результатом, который маловероятен с честной монетой. А если бы мы проводили второй эксперимент — ОООООР значимым бы не было, потому что даже с честной монеткой время от времени случается нечто подобное.
Байесовец: Вас случайно не беспокоит то, что результаты эксперимента зависят от того, что вы думаете?
Учёный: Это вопрос совести. Какие угодно исследования мало чего будут стоить, если врать об их результатах, то есть буквально говорить неправду о том, какой стороной выпала монета. Если врать о том, какой именно эксперимент проводился — эффект будет тот же. Так что надо просто взять и честно сказать, по каким именно правилам совершались броски. Конечно, содержимое головы учёного менее очевидно, чем то, какой стороной лежит монетка. Поэтому всегда есть возможность подкрутить параметры анализа, не писать, как определялось число субъектов, выбрать тот статистический тест, который подтверждает вашу любимую гипотезу… Много чего можно придумать при желании. И это будет проще, чем фальсифицировать исходные данные. По-английски это называется p-hacking. И на практике, разумеется, используются гораздо менее очевидные способы создавать дым без огня, чем придуманная постфактум дурацкая нулевая гипотеза. Это серьёзная проблема, и в какой-то степени кризис воспроизводимости с ней связан, хотя и непонятно, в какой именно.
Студент: Это… звучит разумно? Наверно, это одна из тех штук, с которыми надо долго разбираться и перебрать кучу примеров, и тогда всё станет ясно?
Байесовец: Нет.
Студент: В смысле?
Байесовец: В смысле «Студент, Вы были правы с самого начала». Если то, что экспериментатор думает, никак не влияет на то, какой стороной падает монета, то его мысли не должны влиять и на то, что результаты броска сообщают нам о мироздании. Мой дорогой Студент, преподаваемая Вам статистика — не более чем переусложнённая куча кривых костылей, которую даже не озаботились сделать внутренне непротиворечивой. Ради всего святого, она выдаёт разные неправильные результаты в зависимости от того, что творится в Вашей голове! И это гораздо более серьёзная проблема, чем склонность некоторых учёных слегка приврать в «Материалах и методах».
Учёный: Это… серьёзное заявление, мягко говоря. Но скажите, прошу Вас: что же нам, несчастным, делать?
Байесовец: Анализировать следующим образом: данный конкретный результат ОООООР может быть получен при шести бросках идеально сбалансированной монеты с вероятностью 1/64, или примерно 1,6%. Предположим, мы уже подозревали, что наша монетка сбалансирована неидеально. И не просто неидеально, а таким образом, чтобы она выпадала орлом в среднем пять из шести раз. Это, конечно, дикое упрощение, но к реалистичным гипотезам я перейду чуть попозже. Так вот, эта гипотетическая шулерская монетка выдаёт последовательность ОООООР с вероятностью (5/6)⁵*(1/6)¹. Это примерно 6,7%. Так что у нас есть две гипотезы: «Монетка самая обычная» и «Монетка выпадает орлом в 5/6 случаев». Данный конкретный результат во втором случае в 4,3 раза более вероятен, чем в первом. Вероятность последовательности ОООООР для другой гипотетической шулерской монетки, которая в 5 случаях из шести выпадает решкой, составляет 0,01%. Так что если кто-нибудь вдруг думал, что перед нами эта вторая монетка — то у нас теперь есть неплохой аргумент против его гипотезы. Данный конкретный результат в 146 раз вероятнее для честной монетки, чем для монетки, которая выпадает орлом всего один раз из шести. Аналогично, наши гипотетические любители красных печенек с гораздо меньшей вероятностью ели бы зелёные.
Студент: Окей, математику я вроде бы понял. Но, честно говоря, не улавливаю, в чём её смысл.
Байесовец: Сейчас объясню, но сперва обратите внимание вот на что: результаты моих вычислений никак не зависят от того, почему монета была подброшена именно шесть раз. Может быть, после шестого броска Вы решили, что данных уже вполне достаточно. Может быть, после серии из пяти бросков Вам во сне явилась Намагири Тайяр и посоветовала бросить монету ещё раз. Монеточке всё равно. Факт остаётся фактом: данная конкретная серия ОООООР для честной монеты вчетверо менее вероятна, чем для монеты, которая выпадает орлом пять раз из шести.
Учёный: Согласен, как минимум одно полезное свойство у Ваших вычислений есть. А что дальше?
Байесовец: А дальше вы публикуете результаты в журнале. Желательно вместе с сырыми данными, потому что тогда любой желающий может вычислить правдоподобие какой угодно гипотезы. Допустим, кто-нибудь неожиданно заинтересовался гипотезой «Монета выпадает орлом 9 раз из 10, а не 5 раз из 6» В этом случае серия наблюдений ОООООР имеет вероятность 5,9%, что чуть меньше нашей гипотезы про пять орлов из шести бросков (6,7%), но в 3,7 раз больше гипотезы, что монета сбалансирована идеально (1,6%). Заранее придумать все возможные гипотезы невозможно, да и не нужно. Достаточно публиковать полные данные — тогда любой, у кого появилась гипотеза, сможет легко посчитать нужные ему правдоподобия. Байесовская парадигма требует публикации сырых данных, потому что основное внимание сосредоточено именно на конкретном результате, а не на каком-то классе предположительно одинаковых исходов.
Учёный: В этом я с Вами согласен, публикация полных наборов данных — один из важнейших шагов к преодолению кризиса воспроизводимости. Но лично я не понимаю, что мне потом делать со всеми этими «А в столько-то раз вероятнее, чем Б».
Студент: Я тоже.
Байесовец: Это не совсем тривиально… вы читали наше введение в правило Байеса?
Студент: Отлично. Вот только очередного трёхсотстраничного учебника статистики мне и не хватало.
Байесовец: Его вообще-то за час можно прочитать. Просто это всё в буквальном смысле не тривиально, то есть требует объяснений. Но окей, за неимением полноценного введения я постараюсь что-нибудь придумать. Скорей всего, это будет звучать разумно — и логика действительно корректна — но не факт, что самоочевидно. Поехали. Существует теорема, которая доказывает корректность следующих рассуждений:
(Байесовец набирает воздух)
Байесовец: Допустим, в убийстве подозревают профессора Плюма и мисс Скарлет. Изучив биографии обоих, мы предполагаем, что профессору убить человека было бы вдвое легче, чем мисс Скарлет. С этого предположения и начнём. Выясняется, однако, что покойный был отравлен. Мы знаем, что если профессор Плюм соберётся кого-нибудь убить, то он использует яд с вероятностью 10% (а в 9 случаях из 10 предпочтёт, например, револьвер). Мисс Скарлет же, если она решится на убийство, использует яд с вероятностью 60%. Иными словами, использование яда профессором в шесть раз менее вероятно, чем использование яда мисс Скарлет. Так как у нас есть новая информация, а именно способ убийства, то мы должны обновить наше предположение и считать, что Плюм примерно втрое менее вероятный убийца: 2*1/6 = 1/3.
Студент: Не уверен, что я это понял. Что вообще значит фраза «Профессор Плюм втрое менее вероятный убийца, чем мисс Скарлет»?
Байесовец: Она значит, что если у нас нет других подозреваемых — то вероятность того, что жертву убил именно Плюм, составляет 1/4. Остальные 3/4 составляют вероятность того, что убийца — мисс Скарлет. Поэтому вероятность вины профессора втрое ниже, чем таковая мисс Скарлет.
Учёный: А теперь уже я хочу знать, что вы имеете в виду под «вероятностью вины». Плюм либо совершил убийство, либо он его не совершал. Мы не можем рассмотреть выборку убийств и обнаружить, что Плюм действительно виновен в четверти из них.
Байесовец: Я надеялся в это не влезать, ну да ладно. Мой добрый Учёный, я имею в виду, что если бы Вы предложили мне пари со ставками 1:1 на то, убивал ли Плюм жертву или нет, то я бы поставил на то, что он этого не делал. Но если по условиям пари я плачу бы Вам $1 в случае его невиновности, а Вы платите мне $5 в случае его вины, я бы с радостью поставил на вину. Президентские выборы 2012 года проходили всего однажды и «Вероятность победы Обамы» такая же концептуально невнятная штука, как «Вероятность вины Плюма». Но если бы 7 ноября вам предложили поставить $10 на Обаму и обещали $1000 в случае его победы — то едва ли вы отказались бы от такой ставки. В целом, когда рынки предсказаний и большие ликвидные пулы ставок принимают ставки в 6:4 на какое-то событие, это событие происходит примерно в 60% случаев. Рынки и пулы хорошо откалиброваны по вероятностям в этом диапазоне. Будь они откалиброваны плохо, то есть если бы события, на которые принимают ставки в 6:4, происходили в 80% случаев, то кто-нибудь смог бы это заметить и обогатиться за счёт таких ставок. При этом он повышал бы цену ставки до тех пор, пока рынок не станет хорошо откалиброванным. А раз события с рыночной оценкой вероятности в 70% действительно случаются примерно 7 раз из 10, то я не понимаю, зачем настаивать на том, что такая вероятность не имеет смысла.
Студент: Признаю, звучит убедительно. Но наверняка же это мне только кажется, и на самом деле есть целая куча хитрых аргументов за и против.
Байесовец: Куча аргументов действительно есть, но общий вывод из неё таков, что ваше интуитивное представление довольно близко к истине.
Учёный: Ладно, к этому мы ещё вернёмся. А что, если существуют два агента, оба в Ваших терминах «хорошо откалиброванные», но один из них утверждает «60%», а другой — «70%»?
Байесовец: Допустим, я подбрасываю монетку и не смотрю, какой стороной она выпала. В этом случае моё незнание — это не информация про монетку, это информация про меня. Оно существует в голове, а не в окружающем мире, так же как белые пятна на карте не означают, что на этом месте нет территории. Если Вы посмотрели на монетку, а я нет — вполне разумно, что мы с Вами в разных состояниях неуверенности по её поводу. Учитывая, что я не уверен на сто процентов, мне имеет смысл выразить свою неуверенность в терминах вероятности. Существует штук триста теорем, которые утверждают, что если чьё-то выражение неуверенности не является по сути распределением вероятности — то, в общем, так ему и надо. Почему-то всегда так получается, что если мышление агента в условиях неуверенности нарушает любую из стандартных аксиом теории вероятности — земля разверзается, вода превращается в кровь, а с небес сыплются доминируемые стратегии и заведомо проигрышные ставки.
Учёный: Ладно, тут я был неправ. К этому мы тоже ещё вернёмся, но сперва всё-таки ответьте на мой вопрос: что нам делать с правдоподобиями после того, как мы их получили?
Байесовец: Согласно законам теории вероятности, эти правдоподобия и есть доказательства. Именно они заставляют нас изменить наши априорные вероятности с 2: 1 в пользу Плюма на 3:1 в пользу Скарлет. Если у меня есть две гипотезы и правдоподобия данных для обеих, то мне следует менять своё мнение описанным выше образом. Если же я меняю его как-нибудь по-другому — то небеса разверзаются, стратегии сыплются и так далее. Теорема Байеса: это не просто статистический приём, это ЗАКОН.
Студент: Извиняюсь, но я всё ещё не понял. Допустим, мы проводим эксперимент. И, допустим, полученные результаты вшестеро вероятнее, если герра Труппа убил профессор Плюм, чем они были бы, будь убийцей мисс Скарлет (прим. пер. — Студент, очевидно, перепутал правдоподобия использования яда двумя убийцами. Далее обсуждается именно такое соотношение). Арестовывать нам профессора или нет?
Учёный: Полагаю, для начала надо придумать более-менее реалистичную априорную вероятность, например "a priori я полагаю, что вероятность убийства Труппа Плюмом 20%". Затем её надо перемножить на отношение правдоподобий, составляющее 6:1, и получить отношение апостериорных вероятностей 3:2, что Плюм таки убил Труппа. После чего можно заявить, что Плюм виновен с вероятностью 60%, а дальше пусть разбирается прокуратура.
Байесовец: Нет. Ради всего святого! Вы действительно думаете, что байесовская статистика так и работает?
Учёный: А она работает не так? Я всегда считал, что её главное достоинство в том, что она даёт нам апостериорные вероятности, которых P-значения действительно не дают, а главный недостаток — в том, что для этого нужны априорные вероятности. Так как их приходится брать более или менее с потолка, корректность апостериорных вероятностей можно оспаривать до скончания времён.
Байесовец: В статьях нужно публиковать правдоподобия. Точнее, нужно публиковать сырые данные и вычислять для них несколько интересующих нас правдоподобий. Но уж точно не апостериорные вероятности.
Студент: Я опять запутался. Что такое апостериорные вероятности?
Байесовец: Апостериорная вероятность — это утверждение типа «С вероятностью 60% герра Труппа убил профессор Плюм». Как уже отметил мой коллега, из P-значений такие утверждения не следуют. И, на мой взгляд, им не место в экспериментальных статьях, потому что это не результаты эксперимента.
Студент: Но… окей, Учёный, вопрос к вам: допустим, мы получили результаты с p<0,01, то есть нечто с вероятностью менее 1% при нулевой гипотезе «Профессор Плюм не убивал герра Труппа». Арестовывать нам его или нет?
Учёный: Во-первых, это не реалистичная нулевая гипотеза. Скорей всего, нулевой гипотезой будет что-то вроде «Никто не убивал герра Труппа» или «все подозреваемые виновны в равной степени». Но даже если бы описанная Вами нулевая гипотеза работала, даже если бы мы могли отвергнуть невиновность Плюма с p<0,01, всё равно нельзя было бы сказать, что Плюм виновен с вероятностью 99%. P-значения этого нам не сообщают.
Студент: А что они тогда сообщают?
Учёный: Они сообщают, что наблюдаемые данные входят в некий класс возможных исходов, и что результаты этого класса наблюдаются менее чем в 1% случаев, если нулевая гипотеза верна. Больше P-значение не значит ничего. Нельзя просто взять и перейти от p<0,01 к «Профессор Плюм виновен с вероятностью 99%». Байесовец, скорее всего, лучше меня сможет объяснить, почему. Вообще в науке нельзя интерпретировать что-то одно как что-то другое. Цифры обозначают ровно то, что они обозначают, не больше и не меньше.
Студент: Вообще отлично. Сперва я не понимал, что мне делать с правдоподобиями, а теперь я ещё и не понимаю, что мне делать с P-значениями. Какой эксперимент требуется, чтобы наконец отправить Плюма в тюрьму?
Учёный: На практике? Если ещё пара экспериментов в других лабораториях подтвердит его вину с p<0,01, то скорее всего он действительно виновен.
Байесовец: А «кризис воспроизводимости» — это когда позже дело поднимают и оказывается, что он таки не совершал убийства.
Учёный: В общем, да.
Студент: Как-то неприятно получается.
Учёный: Жизнь вообще неприятная штука.
Студент: Итак… Байесовец, у Вас же наверняка есть похожий ответ? Что-нибудь типа того, что если отношение правдоподобий достаточно большое, скажем, 100:1, то на практике можно считать соответствующую гипотезу истинной?
Байесовец: Есть, но он несколько сложнее. Допустим, я бросаю монету 20 раз и получаю ОООРОООРОРОРРОООРОООРРОР. Подвох в том, что правдоподобие гипотезы «Монета гарантированно выдаёт последовательность ОООРОООРОРОРРОООРОООРРОР» выше правдоподобия гипотезы «Монета равновероятно выпадает орлом или решкой» примерно в миллион раз. На практике, если Вы не вручили мне эту гипотезу в запечатанном конверте до начала эксперимента, я буду считать её сильно переобученной. Мне придётся выдать этой гипотезе штраф за сложность как минимум в 2²⁰:1, потому что одно только описание последовательности занимает 20 бит. Иными словами, понизить априорную вероятность настолько, что она более чем компенсирует преимущество в правдоподобии. И это не единственный подводный камень. Но тем не менее, если понять, как и почему работает правило Байеса — то в каждом конкретном случае можно разбираться по ходу дела. Если отношение правдоподобий за Плюма против любого другого подозреваемого 1000:1, а подозреваемых вообще всего шестеро, то можно предположить, что априорная вероятность едва ли была значительно больше 10:1 против того, что он убийца. Если так, то можно считать, что он виновен с вероятностью 99%.
Учёный: Но тем не менее, в статье это писать не стоит?
Байесовец: Верно. Как бы сформулировать… Ключевое условие байесовского анализа в том, что надо учитывать всю релевантную информацию. Нельзя исключать данные из анализа только потому, что они вам не нравятся. Это вообще-то ключевое условие науки как таковой, независимо от используемой статистики. Есть куча статей, выводы которых получились только потому, что не был учтён какой-то фактор или выборка нерепрезентативна по какому-то параметру. Я про это к чему? А к тому, что откуда мне (как экспериментатору) знать, что такое «вся релевантная информация»? Кто я такой, чтобы вычислять апостериорные вероятности? Может быть, кто-то опубликовал статью, в которой есть дополнительные данные и дополнительные правдоподобия, которые мне следовало бы учесть, а я её ещё не прочитал. Поэтому я просто публикую свои данные и свои функции правдоподобия — и всё! Я не могу утверждать, что рассмотрел все аргументы и теперь могу предложить достоверные апостериорные вероятности. И даже если бы я мог, то через неделю может выйти ещё одна статья, и эти вероятности устареют.
Студент: Грубо говоря, экспериментатор должен просто опубликовать свои данные, рассчитать для них несколько правдоподобий и всё? А уже потом кто-нибудь другой пусть решает, как с ними поступить?
Байесовец: Кому-нибудь придётся выбрать априорные вероятности — равные, или с максимальной энтропией, или с штрафами за сложность, или ещё какие-нибудь, — потом постараться собрать все возможные данные, вычислить правдоподобия, убедиться, что результат не бредовый, и прочая и прочая. И их всё равно придётся пересчитывать, если через неделю выйдет новая статья.
Студент: Звучит довольно трудоёмко.
Байесовец: Было бы гораздо хуже, если бы мы взялись за мета-анализ P-значений. Обновлять байесовские вероятности гораздо проще. Достаточно просто перемножить старые апостериорные вероятности на новые функции правдоподобия и нормализовать. Всё. Если эксперимент 1 даёт отношение правдоподобий 4:1 для гипотез А и Б, а эксперимент 2 даёт для них же отношение правдоподобий 9:1, то вместе они дают отношение 36:1. Вот и всё.
Студент: А с P-значениями так делать нельзя? Один эксперимент с p=0,05 и другой эксперимент с p=0,01 не означают, что на самом деле p<0,0005?
Учёный: Нет.
Байесовец: Дорогие зрители, пожалуйста, обратите внимание на мою высокомерную улыбку.
Учёный: Но меня всё ещё беспокоит необходимость придумывать априорные вероятности.
Байесовец: А почему она вас беспокоит больше, чем то, что все решили считать один эксперимент и две репликации с p<0,01 критерием Истины?
Учёный: Вы хотите сказать, что выбор априорных значений не более субъективен, чем интерпретация P-значений? Хм. Я хотел заявить, что требование, скажем, p<0,001 должно гарантировать объективность. Но тогда Вы ответите, что цифра 0,001 (вместо 0,1 или 1e-10) точно также высосана из пальца.
Байесовец: И добавлю к этому, что требовать любого произвольного P-значения менее эффективно, чем высосать из того же пальца априорную вероятность. Одна из первых теорем, грозящих нарушителям аксиом вероятности карами египетскими, была доказана Абрахамом Вальдом в 1947 году. Он пытался описать все приемлемые стратегии, называя стратегией какой-то способ реагировать на то, что вы наблюдаете. Разумеется, разные стратегии при разных обстоятельствах могут быть более или менее выгодными. Приемлемой стратегией он назвал такую, которая не доминируется какой-то другой стратегией при всех возможных условиях. Так вот, Вальд обнаружил, что класс приемлемых стратегий совпадает с классом стратегий, которые содержат распределение вероятности, обновляют его на основании наблюдений по правилу Байеса и оптимизируют функцию полезности.
Студент: Извините, а по-русски можно?
Байесовец: Если Вы что-то делаете в связи с тем, что вы наблюдаете, и получаете больше или меньше, например, денег, в зависимости от того, каков реальный мир, то верно одно из двух. Либо Ваша стратегия в каком-то смысле содержит распределение вероятностей и обновляет его по правилу Байеса, либо есть какая-то другая стратегия, которая никогда не уступает Вашей, а иногда её превосходит. То есть Вы, например, говорите: «Я не буду бросать курить, пока не увижу статью, доказывающую связь курения с раком при p<0,0001». Как минимум теоретически существует способ сказать «На мой взгляд, связь курения с раком существует с вероятностью 0,01%. Какие ваши правдоподобия?», который будет не хуже первой формулировки, какие бы у кого ни были априорные вероятности существования такой связи.
Учёный: Серьёзно?
Байесовец: Ага. Байесовская революция началась с этой теоремы; с тех пор она потихоньку набирает обороты. Стоит отметить, что Вальд доказал свою теорему через пару десятилетий после изобретения P-значений. Это, по-моему, объясняет, как так вышло, что вся современная наука оказалась завязана на заведомо неэффективную статистику.
Учёный: То есть вы предлагаете выкинуть P-значения и вместо них публиковать только отношения правдоподобий?
Байесовец: Коротко говоря, да.
Учёный: Что-то я не очень верю в идеальные решения, подходящие для любых условий. Я подозреваю — пожалуйста, не сочтите за оскорбление — что вы идеалист. По моему опыту, в разных ситуациях бывают нужны разные инструменты и было бы неразумно выкидывать все, кроме одного.
Байесовец: Что ж, я готов объяснить, в чём я идеалист, а в чём нет. Функции правдоподобия сами по себе не разрешат кризис воспроизводимости. Его нельзя полностью разрешить, просто приказав всем использовать более эффективную статистику. Популярность журналов с открытым доступом не зависит от выбора между правдоподобиями и P-значениями. Проблемы с системой рецензирования тоже от него не зависят.
Учёный: А всё остальное, стало быть зависит?
Байесовец: Не всё, но они могут много с чем помочь. Давайте посчитаем.
Байесовец: Во-первых. Функции правдоподобия не заставляют проводить границу между «статистически значимыми» и «незначимыми» результатами. У эксперимента не может быть «положительный» или «отрицательный» исход. То, что называется нулевой гипотезой — теперь просто одна из гипотез, ничем принципиально не отличающаяся от всех остальных. Если Вы кидаете монету и получаете ООРОРРРООО — нельзя сказать, что эксперимент не смог «отвергнуть нулевую гипотезу при p<0,05» или «воспроизвести ранее полученный результат». Он всего лишь добавил данные, которые поддерживают гипотезу честной монеты против гипотезы «5/6 орлов» с отношением правдоподобий 3,78: 1. Так что с массовым принятием байесовской статистики результаты таких экспериментов будут реже отправляться в стол. Не совсем никогда, потому что редакторам журналов неожиданные результаты всё-таки интереснее честных монет, и с этим надо бороться напрямую. Но P-значения не просто не борются с таким подходом, они его стимулируют! Именно из-за него p-hacking вообще существует. Так что переход к правдоподобиям не принесёт счастья всем и даром, но он точно поможет.
Байесовец: Во-вторых. Система правдоподобий гораздо сильнее подчёркивает важность исходных данных и будет стимулировать их публикацию везде, где это возможно, потому что байесовский анализ строится на том, насколько вероятны данные конкретные результаты в той или иной модели. Система P-значений, напротив, заставляет исследователя рассматривать данные как всего лишь один из членов класса «столь же крайних» результатов. Некоторые учёные любят держать все свои драгоценные данные при себе; дело тут не только в статистике. Но P-значения стимулируют и это, потому что для статьи важны не сами данные, а то, входят ли они в какой-то определённый класс. После того, как это установлено, вся содержащаяся в них информация будто бы схлопывается в единственный бит «значимости» или «незначимости».
Байесовец: В-третьих. С точки зрения теории вероятности, с байесовской точки зрения, разные величины эффектов — это разные гипотезы. Это логично, потому что им соответсвуют разные функции правдоподобия и соответственно разные вероятности наблюдаемых данных. Если один эксперимент обнаружил величину эффекта в 0,4, а другой эксперимент обнаружил «статистически значимую» величину того же эффекта в 0,1, то эксперимент не воспроизвёлся и мы не знаем, что там с эффектом на самом деле. Это позволит избежать довольно распространённой ситуации, когда величина «статистически значимого» эффекта всё убывает и убывает с увеличением выборки.
Байесовец: В-четвёртых. Функции правдоподобия намного упрощают объединение данных и мета-анализ. Они даже могут помочь нам заметить, что данные собраны в неоднородных условиях или что мы не рассматриваем истинную гипотезу. В этом случае либо все функции будут близки к нулю при всех возможных параметрах, либо лучшая гипотеза будет давать на объединённых данных намного меньшее правдоподобие, чем она сама предсказывает. Более строгий подход к воспроизводимости позволит быстро понять, можно ли вообще считать такой-то эксперимент повтором такого-то.
Байесовец: В-пятых. Функции правдоподобия не зависят от того, что о них думают. Это объективные высказывания о данных. Если публиковать значения правдоподобия, то существует только один способ обмануть читателя — фальсифицировать сами данные. P-hacking не сработает.
Учёный: Вот в этом я как раз сильно сомневаюсь. Допустим, я решу убедить вас, что монета чаще выпадает орлом, хотя на самом деле она честная. Я возьму монету, буду кидать её до тех пор, пока случайно не получу чуть больше орлов, а потом остановлюсь. Что тогда?
Байесовец: Валяйте. Если не фальсифицировать данные, вы меня не обманете.
Учёный: Вопрос был про то, что случится, если я буду проверять отношение правдоподобий после каждого броска и остановлюсь, как только оно поддержит мою любимую теорию.
Байесовец: Как идеалист, соблазнённый обманчивой красотой теории вероятности, я вам отвечаю: пока вы даёте мне честные сырые данные, я могу и должен делать только одно — перемножать согласно правилу Байеса.
Учёный: Серьёзно?
Байесовец: Серьёзно.
Учёный: То есть вас не волнует, что я могу проверять отношение правдоподобий до тех пор, пока оно мне не понравится?
Байесовец: Валяйте.
Учёный: Окей. Тогда я напишу скрипт на Питоне, который симулирует бросок честной монеты до, скажем, 300 раз, и посмотрю, как часто мне удастся получить отношение 20:1 в пользу гипотезы «монета выпадает орлом в 55% случаев»… Что?
Байесовец: Да просто забавное совпадение. Когда я только узнал про это всё и сомневался в том, что отношения правдоподобий нельзя обмануть каким-нибудь хитрым образом, то я написал такую же программу на Питоне. Позже один мой приятель тоже узнал про отношения правдоподобий и тоже написал такую же программу, тоже почему-то на Питоне. Он её запустил и обнаружил, что отношение 20:1 для гипотезы «55% орлов» было обнаружено хотя бы однажды в 1.4% серий бросков. Если требовать, например, 30:1 или 50:1, их частота падает ещё быстрее.
Учёный: Если считать ваши полтора процента P-значением, то выглядит неплохо. Но это очень грубый способ обмануть анализ; возможно, есть более сложные и эффективные?
Байесовец: Мне было… лет пять, наверное, если не меньше, когда я впервые узнал про сложение. Одно из моих самых ранних воспоминаний. Я сидел, прибавлял 3 к 5 и всё пытался придумать какой-нибудь способ не получить 8. Что, конечно, очень мило и вообще важный шаг к пониманию того, что такое сложение (и математика в целом). Но сейчас-то это именно что мило, потому что мы взрослые и понимаем, что 5 плюс 3 неизбежно равно 8. Скрипт, постоянно проверяющий отношение правдоподобий, делает то же самое, что и я в детстве. Разобравшись в теории, я понял, что попытки обмануть правило Байеса очевидно обречены. Это как пытаться разложить 3 каким-нибудь хитрым образом на 2 и 1 и добавлять их по отдельности к 5, или пытаться добавить сперва 1, а только потом 2. Ни так, ни эдак 7 или 9 не получится. Результат сложения — это теорема, и совершенно неважно, какую именно последовательность операций мы совершаем. Если она действительно эквивалентна прибавлению 3 к 5, то на выходе не может получиться ничего, кроме 8. Теоремы теории вероятности — это тоже теоремы. Если бы скрипт действительно мог сработать, это означало бы противоречие в теории вероятности, а значит — противоречие в арифметике Пеано, на которой построен анализ вероятностей с помощью рациональных чисел. То, что вы и я пытались сделать — ровно так же сложно, как сложить 3 и 5 в стандартной аксиоматике арифметики и получить 7.
Студент: Э, почему?
Учёный: Я тоже не понял.
Байесовец: Пусть e обозначает наблюдения, H обозначает гипотезу, !X обозначает «не X», P(H) обозначает вероятность гипотезы, а P(X|Y) обозначает условную вероятность X при условии, что верно Y. Существует теорема, показывающая, что

P(H) = P(H|e) * P(e)) + (P(H|!e) * P(!e)

Следовательно, для функций вероятности нет никакого сколь угодно сложного аналога p-hacking, не считая фальсификации данных, потому что никакая известная байесовскому агенту процедура не заставит его обновить свои априорные вероятности в заведомо некорректную сторону. Для каждого изменения, которое мы можем получить от наблюдения e, существует обратное ему изменение, которое можно ожидать от наблюдения !e.
Студент: Что?
Учёный: Я тоже не понял.
Байесовец: Окей, отложим пока математику и посмотрим… да, на кризис воспроизводимости. Учёный сказал, что он с подозрением относится к идеальным универсальным решениям. Но на мой взгляд переход к функциям правдоподобия действительно должен решить сразу многие проблемы. Допустим… сейчас придумаю. Допустим, у некой корпорации большие проблемы с бухгалтерским учётом. Проблемы эти связаны с тем, что вся бухгалтерия пользуется числами с плавающей точкой; и это бы ещё полбеды, но используется три разных реализации (примерно в трети корпорации каждая), поэтому получается вообще Бог весть что. Кто-нибудь, например, берёт 1,0, тысячу раз прибавляет 0,0001, потом вычитает 0,1 и получает 0.999999999999989. Потом он едет на другой этаж, повторяет вычисления на их компьютерах и получает 1.000000000000004. И все думают, что так и надо. А погрешность, предположим, реально ОГРОМНАЯ, все три реализации — плод противоестественного союза наскальных рисунков и римских цифр. Так что за счёт различий между ними можно получить вполне ощутимые различия в результатах. Разумеется, все подбирают реализации так, чтобы у них сходилась квартальная отчётность. Поэтому считается неплохим результатом, если бюджет отдела не противоречит хотя бы сам себе, а департамент когнитивного прайминга, скорее всего, разорился 20 лет назад. И тут выхожу я, весь в белом, и говорю: «Добрый день. А что, если вместо трёх ваших реализаций вы будете использовать вот эту крутую штуку, которой нельзя манипулировать подобным образом и которая решит половину ваших проблем.»
(Байесовец, голосом Учёного): «Я с подозрением отношусь к таким универсальным решениям», отвечает мне главный бухгалтер. «Не сочтите за оскорбление, но вы, батенька, идеалист. По моему опыту, разные записи чисел с плавающей точкой хорошо подходят для разных операций, так что не стоит сразу выкидывать все инструменты, кроме одного.»
Байесовец: На что я ему отвечаю: «Может, это и звучит чересчур смело, но я собираюсь продемонстрировать вам идеальное представление дробей, в котором результаты не зависят от того, в каком порядке вы прибавляете числа или на чьём компьютере происходят вычисления. Может быть, в 1920 году, когда ваша система только создавалась, оно и требовало чересчур много памяти. Но сейчас-то не 1920 год, вы можете позволить себе не экономить вычислительные ресурсы. Тем более у вас там сколько, 30 миллионов банковских счетов? Это на самом деле ерунда. Да, у моего представления есть свои недостатки. Например, квадратные корни берутся значительно сложнее. Но как часто, если честно, вам надо взять квадратный корень от чьей-нибудь зарплаты? Для большинства реальных задач эта система не уступает вашей, и к тому же её нельзя обмануть, не подделывая входные значения.» После чего я им объясняю, как представить в памяти целое число произвольной длины и как представить рациональное число в виде отношения двух целых. То есть то, что сейчас мы бы назвали самоочевидным способом представлять настоящие рациональные числа в памяти компьютера. Единственную и неповторимую систему теорем про рациональные числа, для которой числа с плавающей точкой являются всего лишь приближением. И если вы обрабатываете несчастные 30 миллионов счетов; если на практике ваши аппроксимации при этом не сходятся ни друг с другом, ни сами с собой; если они к тому же позволяют всем желающим воровать ваши деньги; если, наконец, на дворе не 1920 год и вы можете позволить себе нормальные компьютеры — то необходимость перевести бухгалтерию на настоящие рациональные числа довольно очевидна. Точно так же правило Байеса и его следствия — единственная система теорем про вероятности, основанных на аксиомах и строго доказанных. И поэтому в ней не работает p-hacking.
Учёный: Это… смело. Даже если всё, что вы говорите — правда, остаются ещё и практические сложности. Та статистика, которой мы сейчас пользуемся, формировалась не одно десятилетие; она доказала свою полезность. Как ваш светлый байесовский путь показал себя на практике?
Байесовец: В естественных науках он почти не использовался. В машинном обучении, где, как бы это поскромней сказать, довольно легко заметить, что модель некорректна — потому что основанный на ней ИИ не работает — так вот, в машинном обучении я последний раз видел частотный подход к вероятности лет десять тому назад. И я не могу припомнить ни одной работы, в которой ИИ бы считал P-значение какой-нибудь гипотезы. Если вероятность вообще хоть как-то фигурирует в исследовании, то она почти наверняка байесовская. Если что-то классифицируется по унитарным кодам, то минимизируется перекрёстная энтропия, а не… Я даже не знаю, что могло бы быть аналогом P-значений в ИИ. Рискну предположить, что тут дело вот в чём. Статистика в машинном обучении либо работает, либо нет, и это сразу видно: ИИ либо делает то, что должен, либо тупит. А в естественных науках всем прежде всего нужны публикации. Раз уж так сложилось, что в статьях принято указывать P-значения, а за невоспроизводимые результаты не карают — имеем то, что имеем.
Учёный: То есть вы скорей математик или программист, чем естественник-экспериментатор? Меня это почему-то не удивляет. Я не сомневаюсь, что более удачный статистический аппарат может существовать, но опыт использования P-значений тоже чего-нибудь да стоит. Да, сейчас их часто подкручивают тем или иным образом, но мы знаем, как это делается, и начинаем понимать, как с этим бороться. Подводные камни P-значений по крайней мере известны. В любой новой системе они тоже будут. Но вот где именно — выяснится только через десятилетия. Возможно, они будут даже опаснее нынешних.
Байесовец: Да, вороватые бухгалтера наверняка придумают какие-нибудь новые увлекательные манипуляции с рациональными числами. Особенно в тех случаях, когда точные операции всё-таки окажутся слишком вычислительно дорогими и придётся как-то аппроксимировать. Но я по-прежнему считаю, что если ту же экспериментальную психологию прямо сейчас разрывает кризис воспроизводимости, и если этот кризис явно связан с использованием P-значений, которые, откровенно говоря, не более чем куча противоречивых костылей — то стоит хотя бы попробовать использовать более рациональный метод. Хотя я тоже не призываю всё снести и отстроить заново. На практике можно для начала отказаться от P-значений в какой-нибудь одной области (хотя бы и в психологии) и посмотреть, что из этого получится.
Учёный: И как вы собираетесь уговаривать психологов на такой эксперимент?
Байесовец: Понятия не имею. Откровенно говоря, я не сильно рассчитываю, что кто-то что-то действительно поменяет. Скорее всего, люди просто будут пользоваться P-значениями до скончания веков. Такие дела. Но есть шанс, что идея всё-таки окажется популярной. Я был приятно удивлён тем, как быстро прижился Open Access. Я был приятно удивлён тем, что кризис воспроизводимости вообще заметили, и более того — людей это волнует. Возможно, P-значения ещё вытащат на базарную площадь и вздёрнут при большом стечении народу (прим. пер.: как минимум один психологический журнал в 2015 году отказался от тестирования нулевых гипотез). Если так, то я буду приятно удивлён. В этом случае окажется, что моя работа по популяризации правила Байеса и правдоподобий была не зря.
Учёный: Может также оказаться, что правдоподобия в экспериментальной науке никому не нравятся, а P-значения все считают удобными и полезными.
Байесовец: Если университетский курс статистики был настолько чудовищен, что при одной мысли о теории вероятностей у них трясутся поджилки — то да, изменения должны будут прийти извне. Я лично рассчитываю, что наш дорогой Студент прочитает короткое и довольно увлекательное введение в байесовскую теорию вероятности, сравнит его с со своим устрашающим учебником по статистике и будет следующие полгода умолять Вас «Ну пожалуйста, можно я просто посчитаю правдоподобия и всё, пожалуйста, ну разрешите».
Студент: Э… ну я его почитаю сперва, ладно?
Байесовец: Дорогой Студент, задумайтесь над своим выбором. Некоторые изменения в науке происходят только потому, что студенты растут в окружении разных идей и выбирают из них верные. Это известный афоризм Макса Планка, а Макс Планк ерунды не скажет. Ergo, способность науки отличать плохие идеи от хороших зависит исключительно от интеллекта студентов.
Учёный: Ну, это уже…
Модератор: И на этом мы завершаем нашу передачу. Спасибо за внимание!