synedra Nov 19 2018 at 06:59

Правдоподобия, P-значения и кризис воспроизводимости

26 min

21K

Translation

+23

Comments 41

Shkaff Nov 19 2018 at 07:53

Проблема в том, что введение в научную практику баесовского подхода к значимости еще трудозатратнее, чем просто даже просто открытые данные. А в нынешних реалиях приходится печататься все быстрее, чтобы оставаться конкуретным на рынке, где «publish or perish» — главенствующая концепция. Более того, с точки зрения рынка ученые не заинтересованы в качественных данных per se. Есть точка «оптимума» в соотношении время на эксперимент/качество, где данные уже достаточно хорошие для нормального журнала, и больше время тратить уже не выгодно, и при этом данные окажутся не обязательно полезны для будущих исследований.

stetzen Nov 19 2018 at 11:55

Кажется, что узкое место здесь — это как раз понятие «нормальный жернал». Допустим, какой-то один журнал начнет принимать статьи только с правдоподобиями, а не с p-значением. Если предположить, что это приведет к тому, что а)это сильно повлияет на воспроизводимость и б)те, кто использует потом опубликованные результаты, заинтересованы в том, чтобы они были воспроизводимыми, у такого журнала начнет активно расти индекс цитируемости, что, в свою очередь, подтолкнет другие журналы на смену требований. Сообщество при нынешней системе не заинтересовано в производстве качественных данных, вопрос в том, заинтересовано ли оно в получении из журналов качественных данных, и если да, то это может послужить двигателем перехода.

Shkaff Nov 19 2018 at 12:30

Тот же Юдковский в новой «Inadequate Equilibria: Where and How Civilizations Get Stuck» (оч. рекомендую, кстати) пишет, что в современной науке достигнуто равновесие Нэша, когда в целом ситуация неоптимальна, но ни одна из сторон не может улучшить ее в одиночку. Т.е. нужно направленное усилие и со стороны издателей, и со стороны грантодателей, и со стороны ученых, чтобы изменить что-то. При этом в ближайшей перспективе это усилие может быть не выгодно ни одной из сторон.

Другими словами, кто выберет для публикаций новый журнал с малым impact factor, да еще и со странными требованиями, если есть Nature, которые опубликуют статью, и ты будешь в шоколаде. С другой стороны, кто будет создавать журнал, в котором совершенно отличные требования, если в нем никто не будет публиковаться. Наконец, сам процесс воспроизводства никому не интересен, т.к. повторение эксперимента нельзя опубликовать в крутом журнале. Получается такой замкнутый круг, что ситуация плохая, но выхода из нее не видно.

synedra Nov 19 2018 at 12:58

Я там ближе к концу привожу ссылку, один журнал таки отказался и про это историческое событие даже Nature редакторскую колонку опубликовала. Дальше такая затея, кажется, не особо распространилась.

Shkaff Nov 19 2018 at 13:18

Может быть, придется все по-очереди делать? Сначала разобраться с открытой наукой, чтобы уйти из-под гнета Elsevier, а там уже смотреть, как быть с воспроизводством и статистикой?..

synedra Nov 19 2018 at 14:10

У открытой науки есть один мало афишируемый недостаток. А именно — полтора-два килобакса за честь хостить свою PDF-ку на plos.org/biomedcentral.org. Это всё ещё лучше, чем платить эльзевиру/шпрингеру/NPG по тридцать баксов за статью (хотя против них помогает сай-хаб), но ощутимо бьёт по независимым исследователям и мелким сайд-проектам. Даже учитывая это, открытая наука уже случилась, продолжает развиваться и храни её Господь; с байесовщиной, p<0.005 или чем там ещё ей конкурировать незачем. Можно параллельно менять финансовую модель публикации и статистическую парадигму: не конкурировало же внедрение открытого доступа со случившимся примерно тогда же широким распространением методов NGS, всяких *omics и прочей современной молекулярной генетики.

Shkaff Nov 19 2018 at 14:34

Ну если на открытую науку выделяются те же государственные деньги — то все ок должно быть? Вроде как за это сейчас борются в Европах…

Я не имел ввиду конкуренцию напрямую, но скорее то, что пока большие печатные дома доминируют, введение новых подходов будет затруднено. И не очень даже понятно, как к этому подойти. А вот когда они будут побеждены, то и равновесие поменяется, и может станет проще выходить с новыми принципами.

synedra Nov 19 2018 at 14:54

Я-то в Россиях, вот в чём дело. За чтение статей у нас как не платили — так и не платят, а не платить за публикацию как-то не получается.

Насчёт печатных домов — в такой формулировке не берусь спорить. Им, скорее всего, особо нет дела до стандартов редакций, лишь бы бренд журнала совсем не скатывался.

Nashev Feb 15 2019 at 07:48

А что если в Nature и подобных журналах попробовать печатать разгромные статьи про то, как глупо доверять p-value и про то, насколько полезны и удобны правдоподобия?

synedra Feb 23 2019 at 12:20

Насчёт Nature не скажу уверенно (хотя про кризис воспроизведения они таки писали, помнится), а в более мелких профильных журналах публикуют регулярно. И как-то воз и ныне там.

Shkaff Feb 23 2019 at 12:41

Вот и вот как минимум.

Nashev Feb 25 2019 at 06:28

В первой Bayes не упоминается вовсе, во второй — один раз всего. Plausibility тоже только во второй, и тоже мало — всего два раза. Забавно… И при том эти упоминания не про ту plausibility, да и Байеса не то чтобы советуют.

Shkaff Feb 25 2019 at 06:59

Ну, всего понемногу, наверное, хорошо хоть так пока… сперва расскажут, чем p-value плохи, а потом будут постепенно внедрять мысль, что вот есть отличная замена в виде теоремы байеса. Это я так, мечты-мечты.

Nashev Feb 25 2019 at 07:46

В английском, оказывается, принято название Likelihood, а не прямо plausibility en.wikipedia.org/wiki/Likelihood_function

Впрочем, это слово в этих двух статьях не упоминается вовсе))

Gryphon88 Nov 19 2018 at 14:19

Немного капитанизма. Импакт фактор в первую очередь зависит от авторов: высокий фактор не означает, что каждую статью цитируют по много раз, это значит, что в этом журнале публикуется больше высокоцитируемых авторов. А большинство статей так и имеют 0-4.
Собственно, описанное равновесие можно сломать силами авторов, если они будут взаимодействовать не как обезличенные профессионалы, а социально, как знакомые. На самом деле, тусовки по узким отраслям довольно тесные, и ныне живущих людей, чьи статьи читают в тусовке по мере выхода, примерно 10. Т.е. после конференции должны с пивом сесть 10 человек, договориться, а потом написать в мейлинг-лист или выступить совместно на конфе. Получится как с agile manifesto: на него обратили внимание не потому, что там что-то новое или ранее недоступное, а потому, что его подписали очень уважаемые программисты.

Shkaff Nov 19 2018 at 14:27

Мне кажется, есть разница между agile manifesto и нынешней наукой: статьи пишутся большим количеством людей, часто из разных стран, и большая часть этих людей — PhD и постдоки, которые с большой вероятностью будут работать в другой сфере/тусовке через пару лет. Так что для них не выгоден такой подход: им нужно получить сейчас, а не через много лет, когда система «сломается». Кроме того, это работает и на уровне государственного подхода: в каких-то странах для финансирования имеет значение качество статей, где-то — количество, где-то гранты и т.п.

Я не знаю насчет всех наук, в физике, где я работаю, очень сложно представить такой сценарий. Хотя было бы круто, конечно.

Gryphon88 Nov 19 2018 at 14:42

Я не скажу за всю науку, но в микроскопии и проточной цитометрии:
— Есть официальные объединения и почти совпадающие с ними неофициальные. Например, в Бостоне на посиделках пьют пиво (один из маститых местных цитометристов пивовар-любитель).
— Есть мейлинг-листы и форумы, немного, значимых порядка 5, где задают как конкретные вопросы, от нубовых до cutting-edge, так и вопросы, которые не задают в публикациях (например, «я сделал всё по ману, а картинка фиговая. Почему?») и получают ответы, которые не публикуют («Производитель врёт», или «У новейшего метода очень ограниченная применимость», или «Выкинь, данные не подтверждены, хотя матмодель красивая»).
— Общаться, в том числе трансгранично, полезно, так проще отловить тренды и получить срез философии науки. Обычно это доходит до людей на дипломе, если не раньше.

Знакомые (хроматографист, молбиолог и анхимик) рассказывают сходные вещи о своих узких областях.

Shkaff Nov 19 2018 at 14:45

Здорово у вас! В физике такого и близко нет (по крайней мере в моих областях, по крайней мере насколько я знаю:)).

Gryphon88 Nov 19 2018 at 14:54

Вы ещё скажите, что осле конференций организатор и отдельные спикеры не собираются ещё разок после закрытия, чтобы более приближённо к реальности проговорить прошедшие доклады.

Shkaff Nov 19 2018 at 14:59

Это конечно есть, как же иначе. Как бы распитие пива на конференциях-то есть, а вот никакой онлайн активности — увы. Я не уверен, насколько это общение на конференциях может перерасти в такое движение. Есть ощущение, что конкуренция может быть сильнее желания поменять что-то. Но, возможно, это мне снизу моего PhD кажется:)

Gryphon88 Nov 19 2018 at 15:05

Через Researchgate пробовали? Может, уже что есть, а может, пригласить получится.

Shkaff Nov 19 2018 at 15:12

Ну проблема в том, что мои области достаточно широки — это сотни научных групп… Даже в «топе» окажется пара десятков.
А на researchgate кисло совсем, никто из хороших групп там не живет (активно по крайней мере).

worldmind Nov 19 2018 at 12:20

Платит обычно государство, какие оно требования для грантов определить, так все и будут делать.

Shkaff Nov 19 2018 at 12:35

В идеале, конечно. Только нужно, чтобы государству было выгодно определить новые требования. Если в конкретной стране введут новые требования, это снизит количество публикаций в «хороших» журналах из этой страны: т.к. на каждое исследование нужно будет гораздо больше времени, нужно будет переучить огромное число людей, и т.п. А это негативно отразится на общей политике: никто не хочет потерять лидерство (или позиции) в «рейтинге» хороших для науки стран, т.к. это снизит приток инвестиций, замедлит индустрию, и т.д.

До тех пор, пока качество исследования определяется «крутостью» журнала, где оно опубликовано, ничего не может поменяться. Ну и дальше мой коммент выше.

Glycosylase Nov 19 2018 at 12:55

Практически полностью соглашусь с Вами. У как назрели вопросы: если корень всех бед с воспроизводимостью действительно в «publish or perish», 1) верно ли, что «финансово-независимые» группы (у которых в acknowledgments нет никаких source of funds) публикуют исключительно воспроизводимые данные с функциями правдоподобия, 2) какой хороший критерий отбора мог бы заменить «publish or perish»?

Shkaff Nov 19 2018 at 13:15

1) Не могу сказать с уверенностью, но в физике независимые группы иногда производят более интересные и смелые результаты. Проблема на самом деле не в финансировании, а в том, что большая часть научной группы остается в группе всего на пару лет — PhD студенты и постдоки, и как раз для них критично получить публикации в «крутом» журнале, т.к. на этом будет основана их дальнейшая карьера. Независимых групп слишком мало, чтобы было свое сообщество «независимых» ученых с достаточным количеством постоянных позиций.
Я, например, сейчас делаю PhD, и, несмотря на всю поддержку «открытой» науки и прочих светлых принципов, вынужден пытаться опубликоваться в «крутых» закрытых журналах. Потому что иначе я никогда не получу постоянную позицию.

2) Ни малейшего понятия… Особенно, как это сделать реалистично. Я выше писал, что в настоящий момент ни одной стороне не выгодно что-либо менять в одностороннем порядке.

А так, если фантазировать, может быть, возможна система, где есть две раздельных категории научных групп: одни занимаются авангардными исследованиями, а другие — проверкой результатов. Эти категории могут не пересекаться ни по финансированию, ни по постоянным позициям: условно, для второй категории критерии получения грантов могут быть фундаментально другими, но и требования и возможности тоже. Тогда и правила для «авангарда» можно будет тоже менять в какой-то степени, по крайней мере всегда будет вариант перехода в категорию верификаторов.

synedra Nov 19 2018 at 13:16

Не то чтоб исключительно, но в целом без давления publish or perish лучше, чем с ним. Приводить самого Юдковского в пример не очень корректно, потому что он едва ли стал бы громогласно восхвалять идеи, которым сам не склонен следовать (see what I did here?), но обвинений его MIRI в плохой статистике я не видел. Или есть такой биоинформатик Robert Edgar, который в своих аффилиациях гордо пишет "independent researcher". Так вот он весьма склонен писать про то, что не так в разных подходах к анализу ампликонов (спойлер: чуть ли не всё). А финансируемые грантами группы биологов не очень любят обсуждать, почему тот анализ, которым они пользуются, показывает то нужные вещи, то погоду на Марсе. Хотя тут может быть и другая история: биоинформатик хочет придумать самый лучший на свете алгоритм или датасет, а биолог боится математики и хочет просто посмотреть, какие у него там в пробе бактерии.
В том-то и беда, что никакой из ныне известных. В принципе можно публиковать препринты на arxiv/хабре/собственном блоге, но с точки зрения неспециалиста хороший и плохой препринт ничем не отличаются. Журналы ставят свою репутацию на то, что всё опубликованное в них соответствует каким-то стандартам. Выводы могут быть ошибочными, но по крайней мере статья в Nature не высосана из пальца и не аргументирована наукообразной бессмыслицей.

worldmind Nov 19 2018 at 12:18

Тема крутая, но похоже её невозможно понять не прорешав гору задач до полного усвоения всех нужных для понимания теорем.

synedra Nov 19 2018 at 13:18

Лично для меня основная сложность в том, чтоб формализовать гипотезы типа "Эта пригоршня векторов относится к одному кластеру, а вот та — к другому" в виде функций правдоподобия. Как ни крути, тестов p-value напридумывали примерно на все случаи жизни и гуглятся они в три клика.

worldmind Dec 5 2018 at 08:16

После некоторых размышлений пожалуй полностью соглашусь, не хватает разбора конкретных примеров из различных наук т.е. сама по себе концепция мне уже кажется понятной — берём какую-то, по сути произвольную, априорную вероятность (Сергей Белков как один из вариантов упоминал экспертные оценки), проводим исследование, получаем данные, суём в формулу вероятности полученные на основе этих данных, получаем уточнённую (апостриорную) вероятность, которую в следующем эксперименте уже принимаем за априорную и так итеративно улучшаем искомую вероятность, по идее она должна сходиться в реальной.
Однако, вопрос корректного рассчёта всех членов формулы может быть весьма не очевидным в конкретных случаях, тем более для людей не сильно знающих теорию вероятностей.
Например есть у нас выборка человеков и данные — результаты теста на логическое/аналитическое мышление и теста на веру в сверхестественное.
Мы предполагаем, что проблемы с мышлением взаимосвязаны с верой, нам как-то надо рассчитать вероятность того, что такая выборка получится при истинности гипотезы, я вот сходу не скажу как это сделать, возможно коэффициент корреляции как-то связан с этой вероятностью, но боюсь если я сам начну изобретать формулы, то получиться дичь.

UFO landed and left these words here

Nashev Feb 15 2019 at 07:44

Дык там он ведь вообще не про решение, а про возможность наличия «уникального метода, решающего кучу проблем разом»

Umrug Nov 20 2018 at 02:17

«Кризис воспроизводимости» имеет отношение исключительно к стимулам (incentive) которые есть у людей публикующих «исследования», а не к методике. Есть ли «кризис воспроизводимости» во внутренних докладах лабораторий Самсунга или Интела? Не знаю, но думаю что нет. Покуда «наука» финансируется с помощью насилия (государством), процент фуфла на выходе будет увеличиваться.

Hardcoin Nov 20 2018 at 15:05

Не требуется менять стимулы, что бы в физике не было кризиса воспроизводимости. Потому что там методика другая. Если вы хотите решать проблему сменой стимулов, поиском правильных людей, которые в правительстве будут финансировать правильные исследования — вы идёте по сложному пути. Смена методики в сто раз надёжнее и, при всех сложностях, проще, чем смена правительства на правильных умных людей.

Umrug Nov 21 2018 at 05:49

Проблемы которые я хотел бы решить это не кризис воспроизводимости, а то сколько налогов я плачу государству, невозможность (или сложность) обеспечить независимую комфортабельную старость из-за выпуска денег и налогообложения собственности, это разрушение природы из-за субсидириванных дорог и нефти, это бесконечные войны, тюрьмы, насилие, это перевод ценных невозобновимых ресурсов на армию, это разрушение генетического фонда из-за отьёма денег у мирных и трудоспособных и субсидирования детей у всех прочих.

Ну то есть науку я тоже люблю, это так, для перспективы.

Hardcoin Nov 21 2018 at 07:27

«Кризис воспроизводимости» имеет отношение исключительно к стимулам

Это не верно и не обосновано.

сколько налогов я плачу государству

Это всё к теме статьи напрямую не относится. А косвенно решается развитием социальных наук. Текущая основная проблема которых озвучена в статье. Вы можете надеяться, что эти проблемы будут решены БЕЗ развития социальных наук, но это вряд ли. Если только дед мороз.

Umrug Nov 24 2018 at 06:17

> Это не верно и не обосновано.

Доказать я тут ничего к сожалению не могу, да и область не моя, но вот в какую бы сторону я начал копать:

1. Сравнить источники жалоб на невоспроизводимость или любую доступную информацию по воспроизводимости. Каким образом финансируются исследования в каждом случае? Есть ли корреляция между воспроизводимостью и финансированием через насилие, через пожертвования и в виде инвестиций?

2. Мы знаем что большие организации постоянно ведут исследования, в том числе очень «мягких» вещей (поведения и предпочтений клиентов). В каком-нибудь Амазоне одновременно ведутся сотни, если не тысячи экспериментов, некоторые из них имеют значительные финансы завязанные на результат. Мы также знаем что инраструктуру для таких экспериментов поддерживают и развивают исключительно умные и высокооплачиваемые сотрудники (https://www.payscale.com/research/US/Job=Principal_Data_Scientist%2c_IT/Salary указывает $150k по Штатам). Насколько мне известно повсеместно используется p-нотация. Если есть способ более точной оценки результатов и более верного (или даже простого) способа принятия решений на основе такой оценки, я уверен что есть с кем поговорить.

Я кстати не пытаюсь какашками кидаться, спасибо за статью.

myxo Nov 24 2018 at 13:23

Тут такая же ситуация, как с с++ раньше. Чтобы писать на нем, нужно внимательно следить за памятью, выделять, правильно освобождать, следить за всеми редкими случаями. Это очень тяжело, количество ошибок при написании было огромное.
Можно решать это улучшением стимула — отбором лучших сотрудников, повышения зарплаты, ответственности. Многие так и поступали. А можно изменить метод — сделать новый язык со сборкой мусора, или тем кто хочет остаться на с++ сделать умные указатели.

Если можно изменить методику так, чтобы человеческий фактор вообще выпал из рассмотрения (ну по крайней мере стал значительно меньше) — то это практически всегда более правильный путь.

wormball Feb 10 2022 at 10:05

> невозможность (или сложность) обеспечить независимую комфортабельную старость из-за выпуска денег и налогообложения собственности

Так это, извините, не баг, а фича. Ежели будет легко накопить на безбедную старость, то все так сделают, будут сидеть на мешке с деньгами и тратить их понемногу. Только вот внезапно окажется, что товаров за эти деньги вам никто не продаст, ибо не только вы такие умные, но и все остальные — нафик работать и производить что-либо полезное, когда денег и так до конца жизни хватит? А конец жизни при таком раскладе наступит очень быстро.

Это, конечно, идеальный мысленный эксперимент, а в реальности такого никогда не произойдёт, ибо как только люди заметят, что у всех стало много денег, а работать никто не хочет — те, кто ещё не бросил работать, начнут продавать результаты своего труда за ещё большую цену, а те, кто уже бросил работать, станут задумываться об возобновлении работы. Так что никакого рая или ада на земле не выйдет, а попросту инфляция сама собой зародится.

worldmind Dec 4 2018 at 15:02

Теперь ждём переводы статей про рассчёт правдоподобия и упомянутого учебника по байесовской статистике.
Ну и оставлю ссылку на близкую тему и того же автора.

Nashev Feb 17 2019 at 06:48

Что-то всё равно нифига не понятно