Обновить

Комментарии 13

Познакомился с последовательным анализом Ввльда в мединституте в 80х, всё время помнил о нём, но в науке всегда спрашивали минимальный обьем выборки и количество наборов реактивов, так что было не до Вальда :)..

Мне кажется, что медицина и здравоохранение - это очень чувствительная тема, где опаснее всего перегибать с требованиями. Мое убеждение состоит в том, что Байесовский вывод должен превалировать в этой сфере, как ничто другое.

Подавляющее большинство грантов до сих пор требуют предопределенного плана. Вы говорите: "Мы будем тестировать гипотезу последовательно, пока не станет ясно, что...", а бюрократ слышит: "Шарлатанство, шарлатанство, шарлатанство".

Сколько пишу и рецензирую заявки на гранты, ни разу не видел, даже у самых многословных аппликантов, чтобы в заявке в явном виде указывали такие частности, как метод статанализа экспериментальных даных. Абсолютный максимум, что встречал, это спойлер типа "результаты будут проанализированы методами мат. статистики", без конкретики.

Я сам работаю с экспериментами, результаты которых абсолютно однозначны, и потому редко использую статанализ, однако если мне и приходится к нему прибегать, я уж совершенно точно не обинуюсь соображениями, какие методы больше нравятся кому-то там. Но могу сказать точно, что если передо мной встанет выбор:

-ставить эксперименты последовательно, каждый раз после этого производя расчеты, хватит экспериментов или надо ещё

или

-поставить одновременно в 1.5-2 раза больше экспериментов, но зато точно и заранее известно сколько именно, и обработать результаты один раз после завершения серии

я без колебаний выберу второй вариант, потому что он гарантированно будет выгоднее по совокупности временных, трудовых и материальных затрат. Повторюсь - я говорю именно про ту область науки, в которой работаю сам.

Спасибо за ценный комментарий, жаль что не удалось сразу на него ответить.

Я не прав в плане того, что позволил себе в статье уничижительную и невзвешенную риторику в адрес бюрократии. Разумеется я не считаю всех грантодателей и администраторов "бюрократами", а их работу бессмысленной. В большой науке процесс, часто и обоснованно превалирует над результатом, потому что в процессе можно наткнуться на что-то более интересное чем заявлено в целях. Надеюсь, что тот факт, что в заявках редко указывают методы статанализа свидетельствует в пользу того, что процесс отлажен и работает для огромного пласта исследований.

Планирование, отчетность и предсказуемость - это столпы на которых стоит не только большая наука но и крупный бизнес.

Моя сфера деятельности - это поиск и продвижение хороших идей для бизнеса. А там важен результат и скорость его получения. Представьте крупный маркетплейс, когда на кону ежедневно сотни миллионов рублей. Промедление в две недели тестирования какой-нибудь фичи - это миллионы рублей утерянной прибыли и что еще хуже, отданные позиции конкурентам. Скорость тестирования гипотез для бизнеса - это действительно олицетворение адаптивности. Выживает не сильнейший, а тот кто готов меняться, а это значит что необходимо уметь быстро тестировать изменения и что еще важнее - необходимо уметь правильно рисковать.

Моя статья, это вовсе не крестовый поход против "классики". Моя статья - это призыв к тому что бы "последовательное мышление" стало еще одним важным инструментов в арсенале как науки так и бизнеса.

Почему ваш комментарий является для меня ценным? Вы не опровергаете мою основную мысль, а лишь очерчиваете границы ее применимости в своей области - и это прекрасно. С такими людьми прекрасно вести диалог, особенно публичный.

Если это отношение равно 3, то можно сказать, что гипотеза H_{0} объясняет наблюдаемое количество орлов в 3 раза лучше чем H_{1} и наоборот, если отношение равно 1/3, то H_{1} объясняет наблюдения в два раза лучше чем H_{0}

Почему в первом случае, когда соотношение 3:1 в три раза, а во втором случае, когда 1:3 в два раза?

Очепятка. Спасибо, поправил.

Уравнение Баеса содержит в себе абсолютно все данные, которые только могут быть. А соотнощение правдоподобий достаточно для сравнения двух гипотез. Это фундаментально как 2+2, как подсчёт предметов, как термодинамика, как вообще можно сомневаться в этом?

А научный метод - это просто эвристика. Нет ничего фундаментального в научном принципе. Но с другой стороны, эвристика хорошая. Что касается последовательного анализа, то с помощью уранения Баеса и экспоненциального распределения, должно быть несложно смоделировать bias последовательного анализа, связанный с ранней остановкой.

Позвольте немного дополнить ваш комментарий, что бы его посыл был понятен более молодой публике.

1) Уравнение Байеса содержит в себе абсолютно все имеющиеся данные. Но в тоже самое время оно действительно содержит в себе абсолютно всю информацию о неопределенности, что в свою очередь дает больше свободы (и ответственности) в интерпретации результатов. И совершенно верно - это фундаментальная штука, которая позволяет проверять наши представления о мире, т.е. это надо понимать и этим надо пользоваться как в повседневной так и в профессиональной жизни.

2) Научный метод - это и правда в большей мере эвристика. Когда мы что-то исследуем, то мы всегда выдвигаем некоторое количество гипотез, и - да, в какой-то мере мы доказываем или отклоняем эти гипотезы в случайном порядке, хотя нам может показаться, что это не совсем так. Но теорема Байеса позволяет ранжировать наши гипотезы по шкале "адекватности", а в некоторых случаях для ускорения анализа гипотез можно и нужно пользоваться последовательным анализом. Так эвристика под названием "Научный метод" станет максимально быстрой.

3) Что касается bias, то представьте что мы проводим 1000 A/B тестов и мы останавливаем каждый из них как только результат становится значимым. В тех тестах, где мы рано увидели сильный эффект (положительный или отрицательный) - мы остановились рано. А в тех тестах, где эффект слабый или колебания данных были не в его пользу мы продолжали тест дольше, возможно, так и не достигнув значимости. В результате наша итоговая оценка эффекта (например, разница конверсий между A и B) будет систематически завышена, т.е. смещена - мы отбираем несколько больше тех "удачных" траекторий данных, которые рано пересекли границу. Это так называемый "синдром победителя" или смещение обусловленное ранней остановкой. Эта проблема активно исследуется, но по большей части все исследования вращаются вокруг методов ресэмплинга. Например, бутстрап позволяет понять насколько нам "повезло" наткнуться на несколько выбросов в данных, а перестановки позволяют в какой-то мере решить проблему "загрязнения" выборки. Но тут важно понимать, что если мы работаем с последовательным анализом, то ресэмплинг должен учитывать правила остановки и неопределенность, которую они порождают. Поэтому Байесовский вывод будет далеко не лишним и к тому же он позволит оценить риски связанные с принятием или отклонением разных гипотез, что в некоторых случаях является скорее обязательным, чем "не лишним".

Прошу прощения, я иногда лчень сумбурно пишу. И мой комментарий был именно сумбуреым. Я хотел сказать, что испытываю некоторый скептицизм по поводу последовательного анализа в том виде в котором я сейчас прочитал.

  1. Остановка. Первая проблема в том, что Допустим мы пока что собрали N точек. И после получения каждой новой точки нетерпеливый статистик считает максимум лайклихуд и постериор параметров. И в какой-то момент, если данные об успешности эксперимента перевешивают - эксперимент останавливают. А какой такой критерий есть в Байесовской статистике? Тут их нет и это суть скептицизма. А дальше мысль: Мы сделали N бросков, мы получили распределение. Точнее самую лучшую версию того что можно было вывести (если наша модель верна).

    И тут, что я хотел сказать, что если у нас есть какой-то искусственный рубеж на который мы ориентируемся - то несложно посчитать bias через использование экспоненциального распределения. Но сейчас, я думаю, что тут по-другому решается. Давайте так, и я и Вы попробуем не подглядывая в интернет, аналитически прийти к тому, как можно смоделировать этот bias ранней остановки в эксперименте бросания biased монетки и завтра поделиться вычислениями? У меня уже пара идей, но ... работа.

Мне попадалось несколько статей в которых вводят критерий Байеса как-то очень просто: если отношение правдоподобий отличается более чем в три раза, то это отличие становится поводом принять решение. Что в общем-то добавляет еще больше скептицизма. Как по мне тут важнее приемлемая степень уверенности/неопределенности, чем какое-то конкретное число.

Что касается смещений, то здесь особо ничего нового не придумаешь. Ну и вообще, я не совсем уверен, что тут можно к чему-то прийти аналитически - насколько я могу судить, то все правила остановки в современных библиотеках калибруются численно. Например, можно сделать какой-нибудь последовательный тест, скажем на "нормальность" данных и легко откалибровать правила остановки с помощью численных расчетов, но как сделать это аналитически я даже не могу предположить.

Тем не менее, если у вас есть идеи, то пожалуйста поделитесь.

Часа 3 потратил, но сделал лишь часть.

Тут две задачи можно рассматривать. Сравнение, что bias влево vs вправо и вторая задача biased coin vs нет.

Можно построить P ( P(D|H1)/P(D|H0)<3|N). Оказалось, что даже это не просто и я сдался - сделал это через Монте-Карло и построил графики (кстати красивые)

Мы получили вероятность того, что на шаге N у нас будет "подтверждённая гипотеза 1".

Дальше запал угас, но логика подсказывает, что для второй задачи вряд ли это возможно ( H0 более вероятна почти для всех параметров в плане меры Лебега и выходит сложная зависимость от N). А вторую задачу можно как-то атаковать с того угла, что раз гипотеза подтвердилась, скорее всего она уже не поменяется. Значит, есть недооценка, её нужно как-то оценить.

Как-то так.

Если честно, то я ни черта не понял. А думать об этом даже как-то немного больновато. Давайте оставим этот вопрос без ответа - пусть во Вселенной будет на одну тайну больше :)

Ладно. Если что, могу сфотать записи - там всё подробно расписано и по-порядку. Я вообще хоббист больше в плане Баесовской статистики, но имею более-менее представление о ней. Может, конда-нибудь буду проф связан.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации