Правдоподобия, P-значения и кризис воспроизводимости

https://arbital.com/p/likelihoods_not_pvalues/?l=4xx
  • Перевод
Или: Как переход от публикации P-значений к публикации функций правдоподобия поможет справиться с кризисом воспроизводимости: личное мнение Элиезера Юдковского.

Если Монро нарисовал комиксы про 75% существующих интересных проблем, а четверть моих статей интересные, то какова вероятность, что рано или поздно мне придётся искать КДПВ где-то ещё?

Комментарий переводчика: Юдковский, автор HPMOR, создатель Lesswrong и прочая и прочая, изложил свою позицию по поводу пользы байесовской статистики в естественных науках в форме диалога. Прямо классический такой диалог из античности или эпохи возрождения, с персонажами, излагающими идеи, обменом колкостями вперемешку с запутанными аргументами и неизбежно тупящим Симплицио. Диалог довольно длинный, минут на двадцать чтения, но по-моему, он того стоит.

Дисклеймеры
  • Этот диалог был написан сторонником байесовского подхода. Реплики Учёного в нижеприведённом диалоге могут и не пройти идеологический тест Тьюринга на фреквентизм. Возможно, что они не отдают должное аргументам и контраргументам сторонников частотного подхода к вероятности.
  • Автор не рассчитывает, что описанные ниже предложения будут приняты широким научным сообществом в ближайшие десять лет. Тем не менее, это стоило написать.

Если вы ещё не знакомы с правилом Байеса, на сайте Arbital есть подробное введение.

Модератор: Добрый вечер. Сегодня в нашей студии: Учёный, практикующий специалист в области… химической психологии или чего-то типа того; его оппонент Байесовец, который намерен доказать, что кризис воспроизводимости в науке можно как-то преодолеть с помощью замены P-значений на что-то из Байесовской статистики…
Студент: Извините, как это пишется?
Модератор:… и, наконец, ничего не понимающий Студент справа от меня.

Модератор: Байесовец, не могли бы вы для начала рассказать, в чём суть вашего предложения?
Байесовец: Грубо говоря, суть вот в чём. Предположим, у нас есть монета. Мы подбрасываем её шесть раз и наблюдаем серию «ОООООР» (прим. пер.: здесь и далее О — Орёл, Р — Решка). Стоит ли нам подозревать, что с монетой что-то не то?
Учёный: Нет.
Байесовец: Монета тут просто для примера. Предположим, мы предлагаем выборке добровольцев тарелку с двумя печеньками: одна с зелёной посыпкой и одна с красной. Первые пять человек берут зелёные печеньки, а шестой берёт красную. Верно ли, что люди предпочитают печеньки с зелёной посыпкой, или же такой результат лучше считать случайным?
Студент: Наверное, можно заподозрить, что, может быть, людям больше по душе зелёная посыпка. По крайней мере, студентам-психологам, которые склонны идти добровольцами в странные эксперименты, зелёная посыпка нравится больше. Даже после шести наблюдений можно так заподозрить, хотя я подозреваю, что тут есть какой-то подвох.
Учёный: Я думаю, это ещё не подозрительно. Много какие гипотезы выглядят многообещающе при N=6, но не подтверждаются при N=60.
Байесовец: Лично я бы заподозрил, что наши добровольцы не предпочитают красную посыпку, или хотя бы предпочитают её не очень сильно. Но вообще я придумал эти примеры только чтобы показать, как в современной научной статистике считаются P-значения, и что с ними с байесовской точки зрения не так.
Учёный: А нельзя придумать более реалистичный пример с 30 добровольцами?
Байесовец: Можно, но Студент и так ничего не понимает.
Студент: Это точно.
Байесовец: Итак, уважаемые знатоки: Орёл, орёл, орёл, орёл, орёл, решка. Внимание, вопрос: вы назовёте этот результат «статистически значимым» или нет?
Учёный: Господин ведущий, это не значимо. При нулевой гипотезе, что монетка честная (или при аналогичной нулевой гипотезе, что цвет посыпки не влияет на выбор печенек) такой же или более выраженный результат можно получить в 14 из 64 случаев.
Студент: Ага. Я правильно понимаю: Это потому что мы считаем исходы ОООООО и РРОРРР «такими же или более выраженными», их в общей сложности 14, а всего возможных исходов при 6 бросках 26=64. 14/64 — это 22%, что выше 5%, поэтому результат не считается значимым на уровне p<0.05. Так?
Учёный: Верно. Я бы ещё заметил, что на практике даже при исходе ОООООО не стоит останавливать эксперимент и писать статью про то, что монетка всегда выпадает орлом.
Байесовец: Дело в том, что если можно перестать бросать монетку в любой момент, то придётся спросить себя: «Насколько вероятно, что я найду такой момент для остановки эксперимента, в который количество орлов будет выглядеть публикабельно?» А это в парадигме P-значений уже совсем другая история.
Учёный: Я имел в виду только то, что всего шесть опытов — это несерьёзно, даже если мы изучаем цвет печенек. Но да, Вы тоже правы.
Студент: А почему вообще важно, могу я перестать бросать монетку или не могу?
Байесовец: Какой чудесный вопрос.
Учёный: Дело в том, что P-значения — штука сложная. Нельзя просто взять числа, закинуть их в программу и публиковать то, что эта программа выдаст. Если Вы заранее решили подбросить монетку ровно шесть раз, а потом остановиться независимо от результата, то результат ОООООО или РРРРРР будет получаться в среднем 2 раза из 64, или в 3,1% случаев. Это значимо на уровне p<0,05. Но предположим, что на самом деле Вы лживый и бессовестный фальсификатор. Или просто некомпетентный студент, который сам не понимает, что делает. Вместо того, чтобы заранее выбрать число бросков, вы кидаете и кидаете монетку до тех пор, пока не получите результат, который выглядит статистически значимым. Он и был бы статистически значимым, если бы Вы заранее решили подкинуть монетку ровно столько же раз. Но на самом деле Вы этого заранее не решали. Вы решили остановиться только после того, как получили результаты. Так делать нельзя.
Студент: Окей, я про это где-то читал, но так и не понял, что тут плохого. Это же моё исследование, и мне должно быть виднее, достаточно данных или нет.
Учёный: Весь смысл P-значений в том, чтобы создать тест, который нулевая гипотеза не сможет пройти. Убедиться, иначе говоря, в том, что дым без огня бывает не слишком часто. Для этого нужно так организовать исследования, чтобы не генерировать «статистически значимые» открытия в отсутствие искомого феномена. Если подбросить монетку ровно шесть раз (и определиться с этим числом заранее), то вероятность получить от честной монетки шесть орлов или шесть решек меньше 5%. Если же бросать монетку сколько угодно раз, а после каждого броска пересчитывать P-значение (делая вид, что количество бросков было известно заранее), то шанс рано или поздно получить меньше p<0,05 гораздо больше 5%. Поэтому такой эксперимент обнаруживает дым без огня гораздо чаще, чем в 1 из 20 случаев.
Байесовец: Лично я люблю формулировать эту проблему примерно так: допустим, Вы бросаете монетку и получаете ОООООР. Если при этом Вы в ведомых только Аллаху (ибо Аллах — мудрый, знающий) глубинах своего сердца определились с числом бросков заранее, то результат не значим; p=0,22. Если же Вы после трёхмесячного поста принесли Святому Франциску обет бросать монетку до тех пор, пока не выпадет решка, то этот же результат статистически значим с вполне неплохим p=0,03. Потому что шанс того, что при вероятностях 1:1 решки придётся ждать шесть и более бросков, 1/32.
Студент: Что?
Учёный: Это скорее пародия, конечно. На практике никто не станет бросать монетку до тех пор, пока не выпадет единственная решка, а затем останавливаться. Но вообще-то Байесовец прав, P-значения именно так и работают. Строго говоря, мы пытаемся узнать, насколько редок полученный результат среди тех, которые мы могли бы получить. Человек, бросающий монетку до первой решки, может получить результаты {Р, ОР, ООР, ОООР, ООООР, ОООООР...} и так далее. Класс результатов, в котором совершается шесть и более бросков — это {ОООООР, ООООООР, ОООООООР...}, суммарная вероятность которых 1/64 + 1/128+ 1/256… = 1/32. А человек, бросающий монетку ровно шесть раз, получает один из результатов класса {РРРРРР, ОООООР, ООООРО, ОООООРР...}, в котором 64 элемента. Для целей нашего эксперимента ОООООР эквивалентно ООООРО, ОООРОО и прочим таким же. Так что да, всё это довольно контр-интуитивно. Если бы мы действительно проводили первый эксперимент — ОООООР было бы значимым результатом, который маловероятен с честной монетой. А если бы мы проводили второй эксперимент — ОООООР значимым бы не было, потому что даже с честной монеткой время от времени случается нечто подобное.
Байесовец: Вас случайно не беспокоит то, что результаты эксперимента зависят от того, что вы думаете?
Учёный: Это вопрос совести. Какие угодно исследования мало чего будут стоить, если врать об их результатах, то есть буквально говорить неправду о том, какой стороной выпала монета. Если врать о том, какой именно эксперимент проводился — эффект будет тот же. Так что надо просто взять и честно сказать, по каким именно правилам совершались броски. Конечно, содержимое головы учёного менее очевидно, чем то, какой стороной лежит монетка. Поэтому всегда есть возможность подкрутить параметры анализа, не писать, как определялось число субъектов, выбрать тот статистический тест, который подтверждает вашу любимую гипотезу… Много чего можно придумать при желании. И это будет проще, чем фальсифицировать исходные данные. По-английски это называется p-hacking. И на практике, разумеется, используются гораздо менее очевидные способы создавать дым без огня, чем придуманная постфактум дурацкая нулевая гипотеза. Это серьёзная проблема, и в какой-то степени кризис воспроизводимости с ней связан, хотя и непонятно, в какой именно.
Студент: Это… звучит разумно? Наверно, это одна из тех штук, с которыми надо долго разбираться и перебрать кучу примеров, и тогда всё станет ясно?
Байесовец: Нет.
Студент: В смысле?
Байесовец: В смысле «Студент, Вы были правы с самого начала». Если то, что экспериментатор думает, никак не влияет на то, какой стороной падает монета, то его мысли не должны влиять и на то, что результаты броска сообщают нам о мироздании. Мой дорогой Студент, преподаваемая Вам статистика — не более чем переусложнённая куча кривых костылей, которую даже не озаботились сделать внутренне непротиворечивой. Ради всего святого, она выдаёт разные неправильные результаты в зависимости от того, что творится в Вашей голове! И это гораздо более серьёзная проблема, чем склонность некоторых учёных слегка приврать в «Материалах и методах».
Учёный: Это… серьёзное заявление, мягко говоря. Но скажите, прошу Вас: что же нам, несчастным, делать?
Байесовец: Анализировать следующим образом: данный конкретный результат ОООООР может быть получен при шести бросках идеально сбалансированной монеты с вероятностью 1/64, или примерно 1,6%. Предположим, мы уже подозревали, что наша монетка сбалансирована неидеально. И не просто неидеально, а таким образом, чтобы она выпадала орлом в среднем пять из шести раз. Это, конечно, дикое упрощение, но к реалистичным гипотезам я перейду чуть попозже. Так вот, эта гипотетическая шулерская монетка выдаёт последовательность ОООООР с вероятностью (5/6)5*(1/6)1. Это примерно 6,7%. Так что у нас есть две гипотезы: «Монетка самая обычная» и «Монетка выпадает орлом в 5/6 случаев». Данный конкретный результат во втором случае в 4,3 раза более вероятен, чем в первом. Вероятность последовательности ОООООР для другой гипотетической шулерской монетки, которая в 5 случаях из шести выпадает решкой, составляет 0,01%. Так что если кто-нибудь вдруг думал, что перед нами эта вторая монетка — то у нас теперь есть неплохой аргумент против его гипотезы. Данный конкретный результат в 146 раз вероятнее для честной монетки, чем для монетки, которая выпадает орлом всего один раз из шести. Аналогично, наши гипотетические любители красных печенек с гораздо меньшей вероятностью ели бы зелёные.
Студент: Окей, математику я вроде бы понял. Но, честно говоря, не улавливаю, в чём её смысл.
Байесовец: Сейчас объясню, но сперва обратите внимание вот на что: результаты моих вычислений никак не зависят от того, почему монета была подброшена именно шесть раз. Может быть, после шестого броска Вы решили, что данных уже вполне достаточно. Может быть, после серии из пяти бросков Вам во сне явилась Намагири Тайяр и посоветовала бросить монету ещё раз. Монеточке всё равно. Факт остаётся фактом: данная конкретная серия ОООООР для честной монеты вчетверо менее вероятна, чем для монеты, которая выпадает орлом пять раз из шести.
Учёный: Согласен, как минимум одно полезное свойство у Ваших вычислений есть. А что дальше?
Байесовец: А дальше вы публикуете результаты в журнале. Желательно вместе с сырыми данными, потому что тогда любой желающий может вычислить правдоподобие какой угодно гипотезы. Допустим, кто-нибудь неожиданно заинтересовался гипотезой «Монета выпадает орлом 9 раз из 10, а не 5 раз из 6» В этом случае серия наблюдений ОООООР имеет вероятность 5,9%, что чуть меньше нашей гипотезы про пять орлов из шести бросков (6,7%), но в 3,7 раз больше гипотезы, что монета сбалансирована идеально (1,6%). Заранее придумать все возможные гипотезы невозможно, да и не нужно. Достаточно публиковать полные данные — тогда любой, у кого появилась гипотеза, сможет легко посчитать нужные ему правдоподобия. Байесовская парадигма требует публикации сырых данных, потому что основное внимание сосредоточено именно на конкретном результате, а не на каком-то классе предположительно одинаковых исходов.
Учёный: В этом я с Вами согласен, публикация полных наборов данных — один из важнейших шагов к преодолению кризиса воспроизводимости. Но лично я не понимаю, что мне потом делать со всеми этими «А в столько-то раз вероятнее, чем Б».
Студент: Я тоже.
Байесовец: Это не совсем тривиально… вы читали наше введение в правило Байеса?
Студент: Отлично. Вот только очередного трёхсотстраничного учебника статистики мне и не хватало.
Байесовец: Его вообще-то за час можно прочитать. Просто это всё в буквальном смысле не тривиально, то есть требует объяснений. Но окей, за неимением полноценного введения я постараюсь что-нибудь придумать. Скорей всего, это будет звучать разумно — и логика действительно корректна — но не факт, что самоочевидно. Поехали. Существует теорема, которая доказывает корректность следующих рассуждений:
(Байесовец набирает воздух)
Байесовец: Допустим, в убийстве подозревают профессора Плюма и мисс Скарлет. Изучив биографии обоих, мы предполагаем, что профессору убить человека было бы вдвое легче, чем мисс Скарлет. С этого предположения и начнём. Выясняется, однако, что покойный был отравлен. Мы знаем, что если профессор Плюм соберётся кого-нибудь убить, то он использует яд с вероятностью 10% (а в 9 случаях из 10 предпочтёт, например, револьвер). Мисс Скарлет же, если она решится на убийство, использует яд с вероятностью 60%. Иными словами, использование яда профессором в шесть раз менее вероятно, чем использование яда мисс Скарлет. Так как у нас есть новая информация, а именно способ убийства, то мы должны обновить наше предположение и считать, что Плюм примерно втрое менее вероятный убийца: 2*1/6 = 1/3.
Студент: Не уверен, что я это понял. Что вообще значит фраза «Профессор Плюм втрое менее вероятный убийца, чем мисс Скарлет»?
Байесовец: Она значит, что если у нас нет других подозреваемых — то вероятность того, что жертву убил именно Плюм, составляет 1/4. Остальные 3/4 составляют вероятность того, что убийца — мисс Скарлет. Поэтому вероятность вины профессора втрое ниже, чем таковая мисс Скарлет.
Учёный: А теперь уже я хочу знать, что вы имеете в виду под «вероятностью вины». Плюм либо совершил убийство, либо он его не совершал. Мы не можем рассмотреть выборку убийств и обнаружить, что Плюм действительно виновен в четверти из них.
Байесовец: Я надеялся в это не влезать, ну да ладно. Мой добрый Учёный, я имею в виду, что если бы Вы предложили мне пари со ставками 1:1 на то, убивал ли Плюм жертву или нет, то я бы поставил на то, что он этого не делал. Но если по условиям пари я плачу бы Вам $1 в случае его невиновности, а Вы платите мне $5 в случае его вины, я бы с радостью поставил на вину. Президентские выборы 2012 года проходили всего однажды и «Вероятность победы Обамы» такая же концептуально невнятная штука, как «Вероятность вины Плюма». Но если бы 7 ноября вам предложили поставить $10 на Обаму и обещали $1000 в случае его победы — то едва ли вы отказались бы от такой ставки. В целом, когда рынки предсказаний и большие ликвидные пулы ставок принимают ставки в 6:4 на какое-то событие, это событие происходит примерно в 60% случаев. Рынки и пулы хорошо откалиброваны по вероятностям в этом диапазоне. Будь они откалиброваны плохо, то есть если бы события, на которые принимают ставки в 6:4, происходили в 80% случаев, то кто-нибудь смог бы это заметить и обогатиться за счёт таких ставок. При этом он повышал бы цену ставки до тех пор, пока рынок не станет хорошо откалиброванным. А раз события с рыночной оценкой вероятности в 70% действительно случаются примерно 7 раз из 10, то я не понимаю, зачем настаивать на том, что такая вероятность не имеет смысла.
Студент: Признаю, звучит убедительно. Но наверняка же это мне только кажется, и на самом деле есть целая куча хитрых аргументов за и против.
Байесовец: Куча аргументов действительно есть, но общий вывод из неё таков, что ваше интуитивное представление довольно близко к истине.
Учёный: Ладно, к этому мы ещё вернёмся. А что, если существуют два агента, оба в Ваших терминах «хорошо откалиброванные», но один из них утверждает «60%», а другой — «70%»?
Байесовец: Допустим, я подбрасываю монетку и не смотрю, какой стороной она выпала. В этом случае моё незнание — это не информация про монетку, это информация про меня. Оно существует в голове, а не в окружающем мире, так же как белые пятна на карте не означают, что на этом месте нет территории. Если Вы посмотрели на монетку, а я нет — вполне разумно, что мы с Вами в разных состояниях неуверенности по её поводу. Учитывая, что я не уверен на сто процентов, мне имеет смысл выразить свою неуверенность в терминах вероятности. Существует штук триста теорем, которые утверждают, что если чьё-то выражение неуверенности не является по сути распределением вероятности — то, в общем, так ему и надо. Почему-то всегда так получается, что если мышление агента в условиях неуверенности нарушает любую из стандартных аксиом теории вероятности — земля разверзается, вода превращается в кровь, а с небес сыплются доминируемые стратегии и заведомо проигрышные ставки.
Учёный: Ладно, тут я был неправ. К этому мы тоже ещё вернёмся, но сперва всё-таки ответьте на мой вопрос: что нам делать с правдоподобиями после того, как мы их получили?
Байесовец: Согласно законам теории вероятности, эти правдоподобия и есть доказательства. Именно они заставляют нас изменить наши априорные вероятности с 2: 1 в пользу Плюма на 3:1 в пользу Скарлет. Если у меня есть две гипотезы и правдоподобия данных для обеих, то мне следует менять своё мнение описанным выше образом. Если же я меняю его как-нибудь по-другому — то небеса разверзаются, стратегии сыплются и так далее. Теорема Байеса: это не просто статистический приём, это ЗАКОН.
Студент: Извиняюсь, но я всё ещё не понял. Допустим, мы проводим эксперимент. И, допустим, полученные результаты вшестеро вероятнее, если герра Труппа убил профессор Плюм, чем они были бы, будь убийцей мисс Скарлет (прим. пер. — Студент, очевидно, перепутал правдоподобия использования яда двумя убийцами. Далее обсуждается именно такое соотношение). Арестовывать нам профессора или нет?
Учёный: Полагаю, для начала надо придумать более-менее реалистичную априорную вероятность, например "a priori я полагаю, что вероятность убийства Труппа Плюмом 20%". Затем её надо перемножить на отношение правдоподобий, составляющее 6:1, и получить отношение апостериорных вероятностей 3:2, что Плюм таки убил Труппа. После чего можно заявить, что Плюм виновен с вероятностью 60%, а дальше пусть разбирается прокуратура.
Байесовец: Нет. Ради всего святого! Вы действительно думаете, что байесовская статистика так и работает?
Учёный: А она работает не так? Я всегда считал, что её главное достоинство в том, что она даёт нам апостериорные вероятности, которых P-значения действительно не дают, а главный недостаток — в том, что для этого нужны априорные вероятности. Так как их приходится брать более или менее с потолка, корректность апостериорных вероятностей можно оспаривать до скончания времён.
Байесовец: В статьях нужно публиковать правдоподобия. Точнее, нужно публиковать сырые данные и вычислять для них несколько интересующих нас правдоподобий. Но уж точно не апостериорные вероятности.
Студент: Я опять запутался. Что такое апостериорные вероятности?
Байесовец: Апостериорная вероятность — это утверждение типа «С вероятностью 60% герра Труппа убил профессор Плюм». Как уже отметил мой коллега, из P-значений такие утверждения не следуют. И, на мой взгляд, им не место в экспериментальных статьях, потому что это не результаты эксперимента.
Студент: Но… окей, Учёный, вопрос к вам: допустим, мы получили результаты с p<0,01, то есть нечто с вероятностью менее 1% при нулевой гипотезе «Профессор Плюм не убивал герра Труппа». Арестовывать нам его или нет?
Учёный: Во-первых, это не реалистичная нулевая гипотеза. Скорей всего, нулевой гипотезой будет что-то вроде «Никто не убивал герра Труппа» или «все подозреваемые виновны в равной степени». Но даже если бы описанная Вами нулевая гипотеза работала, даже если бы мы могли отвергнуть невиновность Плюма с p<0,01, всё равно нельзя было бы сказать, что Плюм виновен с вероятностью 99%. P-значения этого нам не сообщают.
Студент: А что они тогда сообщают?
Учёный: Они сообщают, что наблюдаемые данные входят в некий класс возможных исходов, и что результаты этого класса наблюдаются менее чем в 1% случаев, если нулевая гипотеза верна. Больше P-значение не значит ничего. Нельзя просто взять и перейти от p<0,01 к «Профессор Плюм виновен с вероятностью 99%». Байесовец, скорее всего, лучше меня сможет объяснить, почему. Вообще в науке нельзя интерпретировать что-то одно как что-то другое. Цифры обозначают ровно то, что они обозначают, не больше и не меньше.
Студент: Вообще отлично. Сперва я не понимал, что мне делать с правдоподобиями, а теперь я ещё и не понимаю, что мне делать с P-значениями. Какой эксперимент требуется, чтобы наконец отправить Плюма в тюрьму?
Учёный: На практике? Если ещё пара экспериментов в других лабораториях подтвердит его вину с p<0,01, то скорее всего он действительно виновен.
Байесовец: А «кризис воспроизводимости» — это когда позже дело поднимают и оказывается, что он таки не совершал убийства.
Учёный: В общем, да.
Студент: Как-то неприятно получается.
Учёный: Жизнь вообще неприятная штука.
Студент: Итак… Байесовец, у Вас же наверняка есть похожий ответ? Что-нибудь типа того, что если отношение правдоподобий достаточно большое, скажем, 100:1, то на практике можно считать соответствующую гипотезу истинной?
Байесовец: Есть, но он несколько сложнее. Допустим, я бросаю монету 20 раз и получаю ОООРОООРОРОРРОООРОООРРОР. Подвох в том, что правдоподобие гипотезы «Монета гарантированно выдаёт последовательность ОООРОООРОРОРРОООРОООРРОР» выше правдоподобия гипотезы «Монета равновероятно выпадает орлом или решкой» примерно в миллион раз. На практике, если Вы не вручили мне эту гипотезу в запечатанном конверте до начала эксперимента, я буду считать её сильно переобученной. Мне придётся выдать этой гипотезе штраф за сложность как минимум в 220:1, потому что одно только описание последовательности занимает 20 бит. Иными словами, понизить априорную вероятность настолько, что она более чем компенсирует преимущество в правдоподобии. И это не единственный подводный камень. Но тем не менее, если понять, как и почему работает правило Байеса — то в каждом конкретном случае можно разбираться по ходу дела. Если отношение правдоподобий за Плюма против любого другого подозреваемого 1000:1, а подозреваемых вообще всего шестеро, то можно предположить, что априорная вероятность едва ли была значительно больше 10:1 против того, что он убийца. Если так, то можно считать, что он виновен с вероятностью 99%.
Учёный: Но тем не менее, в статье это писать не стоит?
Байесовец: Верно. Как бы сформулировать… Ключевое условие байесовского анализа в том, что надо учитывать всю релевантную информацию. Нельзя исключать данные из анализа только потому, что они вам не нравятся. Это вообще-то ключевое условие науки как таковой, независимо от используемой статистики. Есть куча статей, выводы которых получились только потому, что не был учтён какой-то фактор или выборка нерепрезентативна по какому-то параметру. Я про это к чему? А к тому, что откуда мне (как экспериментатору) знать, что такое «вся релевантная информация»? Кто я такой, чтобы вычислять апостериорные вероятности? Может быть, кто-то опубликовал статью, в которой есть дополнительные данные и дополнительные правдоподобия, которые мне следовало бы учесть, а я её ещё не прочитал. Поэтому я просто публикую свои данные и свои функции правдоподобия — и всё! Я не могу утверждать, что рассмотрел все аргументы и теперь могу предложить достоверные апостериорные вероятности. И даже если бы я мог, то через неделю может выйти ещё одна статья, и эти вероятности устареют.
Студент: Грубо говоря, экспериментатор должен просто опубликовать свои данные, рассчитать для них несколько правдоподобий и всё? А уже потом кто-нибудь другой пусть решает, как с ними поступить?
Байесовец: Кому-нибудь придётся выбрать априорные вероятности — равные, или с максимальной энтропией, или с штрафами за сложность, или ещё какие-нибудь, — потом постараться собрать все возможные данные, вычислить правдоподобия, убедиться, что результат не бредовый, и прочая и прочая. И их всё равно придётся пересчитывать, если через неделю выйдет новая статья.
Студент: Звучит довольно трудоёмко.
Байесовец: Было бы гораздо хуже, если бы мы взялись за мета-анализ P-значений. Обновлять байесовские вероятности гораздо проще. Достаточно просто перемножить старые апостериорные вероятности на новые функции правдоподобия и нормализовать. Всё. Если эксперимент 1 даёт отношение правдоподобий 4:1 для гипотез А и Б, а эксперимент 2 даёт для них же отношение правдоподобий 9:1, то вместе они дают отношение 36:1. Вот и всё.
Студент: А с P-значениями так делать нельзя? Один эксперимент с p=0,05 и другой эксперимент с p=0,01 не означают, что на самом деле p<0,0005?
Учёный: Нет.
Байесовец: Дорогие зрители, пожалуйста, обратите внимание на мою высокомерную улыбку.
Учёный: Но меня всё ещё беспокоит необходимость придумывать априорные вероятности.
Байесовец: А почему она вас беспокоит больше, чем то, что все решили считать один эксперимент и две репликации с p<0,01 критерием Истины?
Учёный: Вы хотите сказать, что выбор априорных значений не более субъективен, чем интерпретация P-значений? Хм. Я хотел заявить, что требование, скажем, p<0,001 должно гарантировать объективность. Но тогда Вы ответите, что цифра 0,001 (вместо 0,1 или 1e-10) точно также высосана из пальца.
Байесовец: И добавлю к этому, что требовать любого произвольного P-значения менее эффективно, чем высосать из того же пальца априорную вероятность. Одна из первых теорем, грозящих нарушителям аксиом вероятности карами египетскими, была доказана Абрахамом Вальдом в 1947 году. Он пытался описать все приемлемые стратегии, называя стратегией какой-то способ реагировать на то, что вы наблюдаете. Разумеется, разные стратегии при разных обстоятельствах могут быть более или менее выгодными. Приемлемой стратегией он назвал такую, которая не доминируется какой-то другой стратегией при всех возможных условиях. Так вот, Вальд обнаружил, что класс приемлемых стратегий совпадает с классом стратегий, которые содержат распределение вероятности, обновляют его на основании наблюдений по правилу Байеса и оптимизируют функцию полезности.
Студент: Извините, а по-русски можно?
Байесовец: Если Вы что-то делаете в связи с тем, что вы наблюдаете, и получаете больше или меньше, например, денег, в зависимости от того, каков реальный мир, то верно одно из двух. Либо Ваша стратегия в каком-то смысле содержит распределение вероятностей и обновляет его по правилу Байеса, либо есть какая-то другая стратегия, которая никогда не уступает Вашей, а иногда её превосходит. То есть Вы, например, говорите: «Я не буду бросать курить, пока не увижу статью, доказывающую связь курения с раком при p<0,0001». Как минимум теоретически существует способ сказать «На мой взгляд, связь курения с раком существует с вероятностью 0,01%. Какие ваши правдоподобия?», который будет не хуже первой формулировки, какие бы у кого ни были априорные вероятности существования такой связи.
Учёный: Серьёзно?
Байесовец: Ага. Байесовская революция началась с этой теоремы; с тех пор она потихоньку набирает обороты. Стоит отметить, что Вальд доказал свою теорему через пару десятилетий после изобретения P-значений. Это, по-моему, объясняет, как так вышло, что вся современная наука оказалась завязана на заведомо неэффективную статистику.
Учёный: То есть вы предлагаете выкинуть P-значения и вместо них публиковать только отношения правдоподобий?
Байесовец: Коротко говоря, да.
Учёный: Что-то я не очень верю в идеальные решения, подходящие для любых условий. Я подозреваю — пожалуйста, не сочтите за оскорбление — что вы идеалист. По моему опыту, в разных ситуациях бывают нужны разные инструменты и было бы неразумно выкидывать все, кроме одного.
Байесовец: Что ж, я готов объяснить, в чём я идеалист, а в чём нет. Функции правдоподобия сами по себе не разрешат кризис воспроизводимости. Его нельзя полностью разрешить, просто приказав всем использовать более эффективную статистику. Популярность журналов с открытым доступом не зависит от выбора между правдоподобиями и P-значениями. Проблемы с системой рецензирования тоже от него не зависят.
Учёный: А всё остальное, стало быть зависит?
Байесовец: Не всё, но они могут много с чем помочь. Давайте посчитаем.
Байесовец: Во-первых. Функции правдоподобия не заставляют проводить границу между «статистически значимыми» и «незначимыми» результатами. У эксперимента не может быть «положительный» или «отрицательный» исход. То, что называется нулевой гипотезой — теперь просто одна из гипотез, ничем принципиально не отличающаяся от всех остальных. Если Вы кидаете монету и получаете ООРОРРРООО — нельзя сказать, что эксперимент не смог «отвергнуть нулевую гипотезу при p<0,05» или «воспроизвести ранее полученный результат». Он всего лишь добавил данные, которые поддерживают гипотезу честной монеты против гипотезы «5/6 орлов» с отношением правдоподобий 3,78: 1. Так что с массовым принятием байесовской статистики результаты таких экспериментов будут реже отправляться в стол. Не совсем никогда, потому что редакторам журналов неожиданные результаты всё-таки интереснее честных монет, и с этим надо бороться напрямую. Но P-значения не просто не борются с таким подходом, они его стимулируют! Именно из-за него p-hacking вообще существует. Так что переход к правдоподобиям не принесёт счастья всем и даром, но он точно поможет.
Байесовец: Во-вторых. Система правдоподобий гораздо сильнее подчёркивает важность исходных данных и будет стимулировать их публикацию везде, где это возможно, потому что байесовский анализ строится на том, насколько вероятны данные конкретные результаты в той или иной модели. Система P-значений, напротив, заставляет исследователя рассматривать данные как всего лишь один из членов класса «столь же крайних» результатов. Некоторые учёные любят держать все свои драгоценные данные при себе; дело тут не только в статистике. Но P-значения стимулируют и это, потому что для статьи важны не сами данные, а то, входят ли они в какой-то определённый класс. После того, как это установлено, вся содержащаяся в них информация будто бы схлопывается в единственный бит «значимости» или «незначимости».
Байесовец: В-третьих. С точки зрения теории вероятности, с байесовской точки зрения, разные величины эффектов — это разные гипотезы. Это логично, потому что им соответсвуют разные функции правдоподобия и соответственно разные вероятности наблюдаемых данных. Если один эксперимент обнаружил величину эффекта в 0,4, а другой эксперимент обнаружил «статистически значимую» величину того же эффекта в 0,1, то эксперимент не воспроизвёлся и мы не знаем, что там с эффектом на самом деле. Это позволит избежать довольно распространённой ситуации, когда величина «статистически значимого» эффекта всё убывает и убывает с увеличением выборки.
Байесовец: В-четвёртых. Функции правдоподобия намного упрощают объединение данных и мета-анализ. Они даже могут помочь нам заметить, что данные собраны в неоднородных условиях или что мы не рассматриваем истинную гипотезу. В этом случае либо все функции будут близки к нулю при всех возможных параметрах, либо лучшая гипотеза будет давать на объединённых данных намного меньшее правдоподобие, чем она сама предсказывает. Более строгий подход к воспроизводимости позволит быстро понять, можно ли вообще считать такой-то эксперимент повтором такого-то.
Байесовец: В-пятых. Функции правдоподобия не зависят от того, что о них думают. Это объективные высказывания о данных. Если публиковать значения правдоподобия, то есть только один способ обмануть читателя — фальсифицировать сами данные. P-hacking не сработает.
Учёный: Вот в этом я как раз сильно сомневаюсь. Допустим, я решу убедить вас, что монета чаще выпадает орлом, хотя на самом деле она честная. Я возьму монету, буду кидать её до тех пор, пока случайно не получу чуть больше орлов, а потом остановлюсь. Что тогда?
Байесовец: Валяйте. Если не фальсифицировать данные, вы меня не обманете.
Учёный: Вопрос был про то, что случится, если я буду проверять отношение правдоподобий после каждого броска и остановлюсь, как только оно поддержит мою любимую теорию.
Байесовец: Как идеалист, соблазнённый обманчивой красотой теории вероятности, я вам отвечаю: пока вы даёте мне честные сырые данные, я могу и должен делать только одно — перемножать согласно правилу Байеса.
Учёный: Серьёзно?
Байесовец: Серьёзно.
Учёный: То есть вас не волнует, что я могу проверять отношение правдоподобий до тех пор, пока оно мне не понравится?
Байесовец: Валяйте.
Учёный: Окей. Тогда я напишу скрипт на Питоне, который симулирует бросок честной монеты до, скажем, 300 раз, и посмотрю, как часто мне удастся получить отношение 20:1 в пользу гипотезы «монета выпадает орлом в 55% случаев»… Что?
Байесовец: Да просто забавное совпадение. Когда я только узнал про это всё и сомневался в том, что отношения правдоподобий нельзя обмануть каким-нибудь хитрым образом, то я написал такую же программу на Питоне. Позже один мой приятель тоже узнал про отношения правдоподобий и тоже написал такую же программу, тоже почему-то на Питоне. Он её запустил и обнаружил, что отношение 20:1 для гипотезы «55% орлов» было обнаружено хотя бы однажды в 1.4% серий бросков. Если требовать, например, 30:1 или 50:1, их частота падает ещё быстрее.
Учёный: Если считать ваши полтора процента P-значением, то выглядит неплохо. Но это очень грубый способ обмануть анализ; возможно, есть более сложные и эффективные?
Байесовец: Мне было… лет пять, наверное, если не меньше, когда я впервые узнал про сложение. Одно из моих самых ранних воспоминаний. Я сидел, прибавлял 3 к 5 и всё пытался придумать какой-нибудь способ не получить 8. Что, конечно, очень мило и вообще важный шаг к пониманию того, что такое сложение (и математика в целом). Но сейчас-то это именно что мило, потому что мы взрослые и понимаем, что 5 плюс 3 неизбежно равно 8. Скрипт, постоянно проверяющий отношение правдоподобий, делает то же самое, что и я в детстве. Разобравшись в теории, я понял, что попытки обмануть правило Байеса очевидно обречены. Это как пытаться разложить 3 каким-нибудь хитрым образом на 2 и 1 и добавлять их по отдельности к 5, или пытаться добавить сперва 1, а только потом 2. Ни так, ни эдак 7 или 9 не получится. Результат сложения — это теорема, и совершенно неважно, какую именно последовательность операций мы совершаем. Если она действительно эквивалентна прибавлению 3 к 5, то на выходе не может получиться ничего, кроме 8. Теоремы теории вероятности — это тоже теоремы. Если бы скрипт действительно мог сработать, это означало бы противоречие в теории вероятности, а значит — противоречие в арифметике Пеано, на которой построен анализ вероятностей с помощью рациональных чисел. То, что вы и я пытались сделать — ровно так же сложно, как сложить 3 и 5 в стандартной аксиоматике арифметики и получить 7.
Студент: Э, почему?
Учёный: Я тоже не понял.
Байесовец: Пусть e обозначает наблюдения, H обозначает гипотезу, !X обозначает «не X», P(H) обозначает вероятность гипотезы, а P(X|Y) обозначает условную вероятность X при условии, что верно Y. Существует теорема, показывающая, что

P(H) = P(H|e) * P(e)) + (P(H|!e) * P(!e)

Следовательно, для функций вероятности нет никакого сколь угодно сложного аналога p-hacking, не считая фальсификации данных, потому что никакая известная байесовскому агенту процедура не заставит его обновить свои априорные вероятности в заведомо некорректную сторону. Для каждого изменения, которое мы можем получить от наблюдения e, существует обратное ему изменение, которое можно ожидать от наблюдения !e.
Студент: Что?
Учёный: Я тоже не понял.
Байесовец: Окей, отложим пока математику и посмотрим… да, на кризис воспроизводимости. Учёный сказал, что он с подозрением относится к идеальным универсальным решениям. Но на мой взгляд переход к функциям правдоподобия действительно должен решить сразу многие проблемы. Допустим… сейчас придумаю. Допустим, у некой корпорации большие проблемы с бухгалтерским учётом. Проблемы эти связаны с тем, что вся бухгалтерия пользуется числами с плавающей точкой; и это бы ещё полбеды, но используется три разных реализации (примерно в трети корпорации каждая), поэтому получается вообще Бог весть что. Кто-нибудь, например, берёт 1,0, тысячу раз прибавляет 0,0001, потом вычитает 0,1 и получает 0.999999999999989. Потом он едет на другой этаж, повторяет вычисления на их компьютерах и получает 1.000000000000004. И все думают, что так и надо. А погрешность, предположим, реально ОГРОМНАЯ, все три реализации — плод противоестественного союза наскальных рисунков и римских цифр. Так что за счёт различий между ними можно получить вполне ощутимые различия в результатах. Разумеется, все подбирают реализации так, чтобы у них сходилась квартальная отчётность. Поэтому считается неплохим результатом, если бюджет отдела не противоречит хотя бы сам себе, а департамент когнитивного прайминга, скорее всего, разорился 20 лет назад. И тут выхожу я, весь в белом, и говорю: «Добрый день. А что, если вместо трёх ваших реализаций вы будете использовать вот эту крутую штуку, которой нельзя манипулировать подобным образом и которая решит половину ваших проблем.»
(Байесовец, голосом Учёного): «Я с подозрением отношусь к таким универсальным решениям», отвечает мне главный бухгалтер. «Не сочтите за оскорбление, но вы, батенька, идеалист. По моему опыту, разные записи чисел с плавающей точкой хорошо подходят для разных операций, так что не стоит сразу выкидывать все инструменты, кроме одного.»
Байесовец: На что я ему отвечаю: «Может, это и звучит чересчур смело, но я собираюсь продемонстрировать вам идеальное представление дробей, в котором результаты не зависят от того, в каком порядке вы прибавляете числа или на чьём компьютере происходят вычисления. Может быть, в 1920 году, когда ваша система только создавалась, оно и требовало чересчур много памяти. Но сейчас-то не 1920 год, вы можете позволить себе не экономить вычислительные ресурсы. Тем более у вас там сколько, 30 миллионов банковских счетов? Это на самом деле ерунда. Да, у моего представления есть свои недостатки. Например, квадратные корни берутся значительно сложнее. Но как часто, если честно, вам надо взять квадратный корень от чьей-нибудь зарплаты? Для большинства реальных задач эта система не уступает вашей, и к тому же её нельзя обмануть, не подделывая входные значения.» После чего я им объясняю, как представить в памяти целое число произвольной длины и как представить рациональное число в виде отношения двух целых. То есть то, что сейчас мы бы назвали самоочевидным способом представлять настоящие рациональные числа в памяти компьютера. Единственную и неповторимую систему теорем про рациональные числа, для которой числа с плавающей точкой являются всего лишь приближением. И если вы обрабатываете несчастные 30 миллионов счетов; если на практике ваши аппроксимации при этом не сходятся ни друг с другом, ни сами с собой; если они к тому же позволяют всем желающим воровать ваши деньги; если, наконец, на дворе не 1920 год и вы можете позволить себе нормальные компьютеры — то необходимость перевести бухгалтерию на настоящие рациональные числа довольно очевидна. Точно так же правило Байеса и его следствия — единственная система теорем про вероятности, основанных на аксиомах и строго доказанных. И поэтому в ней не работает p-hacking.
Учёный: Это… смело. Даже если всё, что вы говорите — правда, остаются ещё и практические сложности. Та статистика, которой мы сейчас пользуемся, формировалась не одно десятилетие; она доказала свою полезность. Как ваш светлый байесовский путь показал себя на практике?
Байесовец: В естественных науках он почти не использовался. В машинном обучении, где, как бы это поскромней сказать, довольно легко заметить, что модель некорректна — потому что основанный на ней ИИ не работает — так вот, в машинном обучении я последний раз видел частотный подход к вероятности лет десять тому назад. И я не могу припомнить ни одной работы, в которой ИИ бы считал P-значение какой-нибудь гипотезы. Если вероятность вообще хоть как-то фигурирует в исследовании, то она почти наверняка байесовская. Если что-то классифицируется по унитарным кодам, то минимизируется перекрёстная энтропия, а не… Я даже не знаю, что могло бы быть аналогом P-значений в ИИ. Рискну предположить, что тут дело вот в чём. Статистика в машинном обучении либо работает, либо нет, и это сразу видно: ИИ либо делает то, что должен, либо тупит. А в естественных науках всем прежде всего нужны публикации. Раз уж так сложилось, что в статьях принято указывать P-значения, а за невоспроизводимые результаты не карают — имеем то, что имеем.
Учёный: То есть вы скорей математик или программист, чем естественник-экспериментатор? Меня это почему-то не удивляет. Я не сомневаюсь, что более удачный статистический аппарат может существовать, но опыт использования P-значений тоже чего-нибудь да стоит. Да, сейчас их часто подкручивают тем или иным образом, но мы знаем, как это делается, и начинаем понимать, как с этим бороться. Подводные камни P-значений по крайней мере известны. В любой новой системе они тоже будут. Но вот где именно — выяснится только через десятилетия. Возможно, они будут даже опаснее нынешних.
Байесовец: Да, вороватые бухгалтера наверняка придумают какие-нибудь новые увлекательные манипуляции с рациональными числами. Особенно в тех случаях, когда точные операции всё-таки окажутся слишком вычислительно дорогими и придётся как-то аппроксимировать. Но я по-прежнему считаю, что если ту же экспериментальную психологию прямо сейчас разрывает кризис воспроизводимости, и если этот кризис явно связан с использованием P-значений, которые, откровенно говоря, не более чем куча противоречивых костылей — то стоит хотя бы попробовать использовать более рациональный метод. Хотя я тоже не призываю всё снести и отстроить заново. На практике можно для начала отказаться от P-значений в какой-нибудь одной области (хотя бы и в психологии) и посмотреть, что из этого получится.
Учёный: И как вы собираетесь уговаривать психологов на такой эксперимент?
Байесовец: Понятия не имею. Откровенно говоря, я не сильно рассчитываю, что кто-то что-то действительно поменяет. Скорее всего, люди просто будут пользоваться P-значениями до скончания веков. Такие дела. Но есть шанс, что идея всё-таки окажется популярной. Я был приятно удивлён тем, как быстро прижился Open Access. Я был приятно удивлён тем, что кризис воспроизводимости вообще заметили, и более того — людей это волнует. Возможно, P-значения ещё вытащат на базарную площадь и вздёрнут при большом стечении народу (прим. пер.: как минимум один психологический журнал в 2015 году отказался от тестирования нулевых гипотез). Если так, то я буду приятно удивлён. В этом случае окажется, что моя работа по популяризации правила Байеса и правдоподобий была не зря.
Учёный: Может также оказаться, что правдоподобия в экспериментальной науке никому не нравятся, а P-значения все считают удобными и полезными.
Байесовец: Если университетский курс статистики был настолько чудовищен, что при одной мысли о теории вероятностей у них трясутся поджилки — то да, изменения должны будут прийти извне. Я лично рассчитываю, что наш дорогой Студент прочитает короткое и довольно увлекательное введение в байесовскую теорию вероятности, сравнит его с со своим устрашающим учебником по статистике и будет следующие полгода умолять Вас «Ну пожалуйста, можно я просто посчитаю правдоподобия и всё, пожалуйста, ну разрешите».
Студент: Э… ну я его почитаю сперва, ладно?
Байесовец: Дорогой Студент, задумайтесь над своим выбором. Некоторые изменения в науке происходят только потому, что студенты растут в окружении разных идей и выбирают из них верные. Это известный афоризм Макса Планка, а Макс Планк ерунды не скажет. Ergo, способность науки отличать плохие идеи от хороших зависит исключительно от интеллекта студентов.
Учёный: Ну, это уже…
Модератор: И на этом мы завершаем нашу передачу. Спасибо за внимание!
Поделиться публикацией
Комментарии 32
    +4
    Проблема в том, что введение в научную практику баесовского подхода к значимости еще трудозатратнее, чем просто даже просто открытые данные. А в нынешних реалиях приходится печататься все быстрее, чтобы оставаться конкуретным на рынке, где «publish or perish» — главенствующая концепция. Более того, с точки зрения рынка ученые не заинтересованы в качественных данных per se. Есть точка «оптимума» в соотношении время на эксперимент/качество, где данные уже достаточно хорошие для нормального журнала, и больше время тратить уже не выгодно, и при этом данные окажутся не обязательно полезны для будущих исследований.
      0
      Кажется, что узкое место здесь — это как раз понятие «нормальный жернал». Допустим, какой-то один журнал начнет принимать статьи только с правдоподобиями, а не с p-значением. Если предположить, что это приведет к тому, что а)это сильно повлияет на воспроизводимость и б)те, кто использует потом опубликованные результаты, заинтересованы в том, чтобы они были воспроизводимыми, у такого журнала начнет активно расти индекс цитируемости, что, в свою очередь, подтолкнет другие журналы на смену требований. Сообщество при нынешней системе не заинтересовано в производстве качественных данных, вопрос в том, заинтересовано ли оно в получении из журналов качественных данных, и если да, то это может послужить двигателем перехода.
        +1
        Тот же Юдковский в новой «Inadequate Equilibria: Where and How Civilizations Get Stuck» (оч. рекомендую, кстати) пишет, что в современной науке достигнуто равновесие Нэша, когда в целом ситуация неоптимальна, но ни одна из сторон не может улучшить ее в одиночку. Т.е. нужно направленное усилие и со стороны издателей, и со стороны грантодателей, и со стороны ученых, чтобы изменить что-то. При этом в ближайшей перспективе это усилие может быть не выгодно ни одной из сторон.

        Другими словами, кто выберет для публикаций новый журнал с малым impact factor, да еще и со странными требованиями, если есть Nature, которые опубликуют статью, и ты будешь в шоколаде. С другой стороны, кто будет создавать журнал, в котором совершенно отличные требования, если в нем никто не будет публиковаться. Наконец, сам процесс воспроизводства никому не интересен, т.к. повторение эксперимента нельзя опубликовать в крутом журнале. Получается такой замкнутый круг, что ситуация плохая, но выхода из нее не видно.
          0
          Я там ближе к концу привожу ссылку, один журнал таки отказался и про это историческое событие даже Nature редакторскую колонку опубликовала. Дальше такая затея, кажется, не особо распространилась.
            0
            Может быть, придется все по-очереди делать? Сначала разобраться с открытой наукой, чтобы уйти из-под гнета Elsevier, а там уже смотреть, как быть с воспроизводством и статистикой?..
              0

              У открытой науки есть один мало афишируемый недостаток. А именно — полтора-два килобакса за честь хостить свою PDF-ку на plos.org/biomedcentral.org. Это всё ещё лучше, чем платить эльзевиру/шпрингеру/NPG по тридцать баксов за статью (хотя против них помогает сай-хаб), но ощутимо бьёт по независимым исследователям и мелким сайд-проектам. Даже учитывая это, открытая наука уже случилась, продолжает развиваться и храни её Господь; с байесовщиной, p<0.005 или чем там ещё ей конкурировать незачем. Можно параллельно менять финансовую модель публикации и статистическую парадигму: не конкурировало же внедрение открытого доступа со случившимся примерно тогда же широким распространением методов NGS, всяких *omics и прочей современной молекулярной генетики.

                0
                Ну если на открытую науку выделяются те же государственные деньги — то все ок должно быть? Вроде как за это сейчас борются в Европах…

                Я не имел ввиду конкуренцию напрямую, но скорее то, что пока большие печатные дома доминируют, введение новых подходов будет затруднено. И не очень даже понятно, как к этому подойти. А вот когда они будут побеждены, то и равновесие поменяется, и может станет проще выходить с новыми принципами.
                  0

                  Я-то в Россиях, вот в чём дело. За чтение статей у нас как не платили — так и не платят, а не платить за публикацию как-то не получается.


                  Насчёт печатных домов — в такой формулировке не берусь спорить. Им, скорее всего, особо нет дела до стандартов редакций, лишь бы бренд журнала совсем не скатывался.

            +3
            Немного капитанизма. Импакт фактор в первую очередь зависит от авторов: высокий фактор не означает, что каждую статью цитируют по много раз, это значит, что в этом журнале публикуется больше высокоцитируемых авторов. А большинство статей так и имеют 0-4.
            Собственно, описанное равновесие можно сломать силами авторов, если они будут взаимодействовать не как обезличенные профессионалы, а социально, как знакомые. На самом деле, тусовки по узким отраслям довольно тесные, и ныне живущих людей, чьи статьи читают в тусовке по мере выхода, примерно 10. Т.е. после конференции должны с пивом сесть 10 человек, договориться, а потом написать в мейлинг-лист или выступить совместно на конфе. Получится как с agile manifesto: на него обратили внимание не потому, что там что-то новое или ранее недоступное, а потому, что его подписали очень уважаемые программисты.
              0
              Мне кажется, есть разница между agile manifesto и нынешней наукой: статьи пишутся большим количеством людей, часто из разных стран, и большая часть этих людей — PhD и постдоки, которые с большой вероятностью будут работать в другой сфере/тусовке через пару лет. Так что для них не выгоден такой подход: им нужно получить сейчас, а не через много лет, когда система «сломается». Кроме того, это работает и на уровне государственного подхода: в каких-то странах для финансирования имеет значение качество статей, где-то — количество, где-то гранты и т.п.

              Я не знаю насчет всех наук, в физике, где я работаю, очень сложно представить такой сценарий. Хотя было бы круто, конечно.
                0
                Я не скажу за всю науку, но в микроскопии и проточной цитометрии:
                — Есть официальные объединения и почти совпадающие с ними неофициальные. Например, в Бостоне на посиделках пьют пиво (один из маститых местных цитометристов пивовар-любитель).
                — Есть мейлинг-листы и форумы, немного, значимых порядка 5, где задают как конкретные вопросы, от нубовых до cutting-edge, так и вопросы, которые не задают в публикациях (например, «я сделал всё по ману, а картинка фиговая. Почему?») и получают ответы, которые не публикуют («Производитель врёт», или «У новейшего метода очень ограниченная применимость», или «Выкинь, данные не подтверждены, хотя матмодель красивая»).
                — Общаться, в том числе трансгранично, полезно, так проще отловить тренды и получить срез философии науки. Обычно это доходит до людей на дипломе, если не раньше.

                Знакомые (хроматографист, молбиолог и анхимик) рассказывают сходные вещи о своих узких областях.
                  0
                  Здорово у вас! В физике такого и близко нет (по крайней мере в моих областях, по крайней мере насколько я знаю:)).
                    0
                    Вы ещё скажите, что осле конференций организатор и отдельные спикеры не собираются ещё разок после закрытия, чтобы более приближённо к реальности проговорить прошедшие доклады.
                      0
                      Это конечно есть, как же иначе. Как бы распитие пива на конференциях-то есть, а вот никакой онлайн активности — увы. Я не уверен, насколько это общение на конференциях может перерасти в такое движение. Есть ощущение, что конкуренция может быть сильнее желания поменять что-то. Но, возможно, это мне снизу моего PhD кажется:)
                        0
                        Через Researchgate пробовали? Может, уже что есть, а может, пригласить получится.
                          0
                          Ну проблема в том, что мои области достаточно широки — это сотни научных групп… Даже в «топе» окажется пара десятков.
                          А на researchgate кисло совсем, никто из хороших групп там не живет (активно по крайней мере).
          0
          Платит обычно государство, какие оно требования для грантов определить, так все и будут делать.
            0
            В идеале, конечно. Только нужно, чтобы государству было выгодно определить новые требования. Если в конкретной стране введут новые требования, это снизит количество публикаций в «хороших» журналах из этой страны: т.к. на каждое исследование нужно будет гораздо больше времени, нужно будет переучить огромное число людей, и т.п. А это негативно отразится на общей политике: никто не хочет потерять лидерство (или позиции) в «рейтинге» хороших для науки стран, т.к. это снизит приток инвестиций, замедлит индустрию, и т.д.

            До тех пор, пока качество исследования определяется «крутостью» журнала, где оно опубликовано, ничего не может поменяться. Ну и дальше мой коммент выше.
            0
            Практически полностью соглашусь с Вами. У как назрели вопросы: если корень всех бед с воспроизводимостью действительно в «publish or perish», 1) верно ли, что «финансово-независимые» группы (у которых в acknowledgments нет никаких source of funds) публикуют исключительно воспроизводимые данные с функциями правдоподобия, 2) какой хороший критерий отбора мог бы заменить «publish or perish»?
              +1
              1) Не могу сказать с уверенностью, но в физике независимые группы иногда производят более интересные и смелые результаты. Проблема на самом деле не в финансировании, а в том, что большая часть научной группы остается в группе всего на пару лет — PhD студенты и постдоки, и как раз для них критично получить публикации в «крутом» журнале, т.к. на этом будет основана их дальнейшая карьера. Независимых групп слишком мало, чтобы было свое сообщество «независимых» ученых с достаточным количеством постоянных позиций.
              Я, например, сейчас делаю PhD, и, несмотря на всю поддержку «открытой» науки и прочих светлых принципов, вынужден пытаться опубликоваться в «крутых» закрытых журналах. Потому что иначе я никогда не получу постоянную позицию.

              2) Ни малейшего понятия… Особенно, как это сделать реалистично. Я выше писал, что в настоящий момент ни одной стороне не выгодно что-либо менять в одностороннем порядке.

              А так, если фантазировать, может быть, возможна система, где есть две раздельных категории научных групп: одни занимаются авангардными исследованиями, а другие — проверкой результатов. Эти категории могут не пересекаться ни по финансированию, ни по постоянным позициям: условно, для второй категории критерии получения грантов могут быть фундаментально другими, но и требования и возможности тоже. Тогда и правила для «авангарда» можно будет тоже менять в какой-то степени, по крайней мере всегда будет вариант перехода в категорию верификаторов.
                +2
                1. Не то чтоб исключительно, но в целом без давления publish or perish лучше, чем с ним. Приводить самого Юдковского в пример не очень корректно, потому что он едва ли стал бы громогласно восхвалять идеи, которым сам не склонен следовать (see what I did here?), но обвинений его MIRI в плохой статистике я не видел. Или есть такой биоинформатик Robert Edgar, который в своих аффилиациях гордо пишет "independent researcher". Так вот он весьма склонен писать про то, что не так в разных подходах к анализу ампликонов (спойлер: чуть ли не всё). А финансируемые грантами группы биологов не очень любят обсуждать, почему тот анализ, которым они пользуются, показывает то нужные вещи, то погоду на Марсе. Хотя тут может быть и другая история: биоинформатик хочет придумать самый лучший на свете алгоритм или датасет, а биолог боится математики и хочет просто посмотреть, какие у него там в пробе бактерии.


                2. В том-то и беда, что никакой из ныне известных. В принципе можно публиковать препринты на arxiv/хабре/собственном блоге, но с точки зрения неспециалиста хороший и плохой препринт ничем не отличаются. Журналы ставят свою репутацию на то, что всё опубликованное в них соответствует каким-то стандартам. Выводы могут быть ошибочными, но по крайней мере статья в Nature не высосана из пальца и не аргументирована наукообразной бессмыслицей.


              0
              Тема крутая, но похоже её невозможно понять не прорешав гору задач до полного усвоения всех нужных для понимания теорем.
                0

                Лично для меня основная сложность в том, чтоб формализовать гипотезы типа "Эта пригоршня векторов относится к одному кластеру, а вот та — к другому" в виде функций правдоподобия. Как ни крути, тестов p-value напридумывали примерно на все случаи жизни и гуглятся они в три клика.

                  0
                  После некоторых размышлений пожалуй полностью соглашусь, не хватает разбора конкретных примеров из различных наук т.е. сама по себе концепция мне уже кажется понятной — берём какую-то, по сути произвольную, априорную вероятность (Сергей Белков как один из вариантов упоминал экспертные оценки), проводим исследование, получаем данные, суём в формулу вероятности полученные на основе этих данных, получаем уточнённую (апостриорную) вероятность, которую в следующем эксперименте уже принимаем за априорную и так итеративно улучшаем искомую вероятность, по идее она должна сходиться в реальной.
                  Однако, вопрос корректного рассчёта всех членов формулы может быть весьма не очевидным в конкретных случаях, тем более для людей не сильно знающих теорию вероятностей.
                  Например есть у нас выборка человеков и данные — результаты теста на логическое/аналитическое мышление и теста на веру в сверхестественное.
                  Мы предполагаем, что проблемы с мышлением взаимосвязаны с верой, нам как-то надо рассчитать вероятность того, что такая выборка получится при истинности гипотезы, я вот сходу не скажу как это сделать, возможно коэффициент корреляции как-то связан с этой вероятностью, но боюсь если я сам начну изобретать формулы, то получиться дичь.
                  0
                  Я в своё время прорешал много задач, но вот тот вот пассаж с формулой и бухгалтерией — это что-то из серии «а теперь рисуем сову».
                  +1
                  «Кризис воспроизводимости» имеет отношение исключительно к стимулам (incentive) которые есть у людей публикующих «исследования», а не к методике. Есть ли «кризис воспроизводимости» во внутренних докладах лабораторий Самсунга или Интела? Не знаю, но думаю что нет. Покуда «наука» финансируется с помощью насилия (государством), процент фуфла на выходе будет увеличиваться.
                    +2

                    Не требуется менять стимулы, что бы в физике не было кризиса воспроизводимости. Потому что там методика другая. Если вы хотите решать проблему сменой стимулов, поиском правильных людей, которые в правительстве будут финансировать правильные исследования — вы идёте по сложному пути. Смена методики в сто раз надёжнее и, при всех сложностях, проще, чем смена правительства на правильных умных людей.

                      0
                      Проблемы которые я хотел бы решить это не кризис воспроизводимости, а то сколько налогов я плачу государству, невозможность (или сложность) обеспечить независимую комфортабельную старость из-за выпуска денег и налогообложения собственности, это разрушение природы из-за субсидириванных дорог и нефти, это бесконечные войны, тюрьмы, насилие, это перевод ценных невозобновимых ресурсов на армию, это разрушение генетического фонда из-за отьёма денег у мирных и трудоспособных и субсидирования детей у всех прочих.

                      Ну то есть науку я тоже люблю, это так, для перспективы.
                        +1
                        «Кризис воспроизводимости» имеет отношение исключительно к стимулам

                        Это не верно и не обосновано.


                        сколько налогов я плачу государству

                        Это всё к теме статьи напрямую не относится. А косвенно решается развитием социальных наук. Текущая основная проблема которых озвучена в статье. Вы можете надеяться, что эти проблемы будут решены БЕЗ развития социальных наук, но это вряд ли. Если только дед мороз.

                          0
                          > Это не верно и не обосновано.

                          Доказать я тут ничего к сожалению не могу, да и область не моя, но вот в какую бы сторону я начал копать:

                          1. Сравнить источники жалоб на невоспроизводимость или любую доступную информацию по воспроизводимости. Каким образом финансируются исследования в каждом случае? Есть ли корреляция между воспроизводимостью и финансированием через насилие, через пожертвования и в виде инвестиций?

                          2. Мы знаем что большие организации постоянно ведут исследования, в том числе очень «мягких» вещей (поведения и предпочтений клиентов). В каком-нибудь Амазоне одновременно ведутся сотни, если не тысячи экспериментов, некоторые из них имеют значительные финансы завязанные на результат. Мы также знаем что инраструктуру для таких экспериментов поддерживают и развивают исключительно умные и высокооплачиваемые сотрудники (https://www.payscale.com/research/US/Job=Principal_Data_Scientist%2c_IT/Salary указывает $150k по Штатам). Насколько мне известно повсеместно используется p-нотация. Если есть способ более точной оценки результатов и более верного (или даже простого) способа принятия решений на основе такой оценки, я уверен что есть с кем поговорить.

                          Я кстати не пытаюсь какашками кидаться, спасибо за статью.
                            0
                            Тут такая же ситуация, как с с++ раньше. Чтобы писать на нем, нужно внимательно следить за памятью, выделять, правильно освобождать, следить за всеми редкими случаями. Это очень тяжело, количество ошибок при написании было огромное.
                            Можно решать это улучшением стимула — отбором лучших сотрудников, повышения зарплаты, ответственности. Многие так и поступали. А можно изменить метод — сделать новый язык со сборкой мусора, или тем кто хочет остаться на с++ сделать умные указатели.

                            Если можно изменить методику так, чтобы человеческий фактор вообще выпал из рассмотрения (ну по крайней мере стал значительно меньше) — то это практически всегда более правильный путь.
                    +1
                    Теперь ждём переводы статей про рассчёт правдоподобия и упомянутого учебника по байесовской статистике.
                    Ну и оставлю ссылку на близкую тему и того же автора.

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое