Comments 9
Метод максимального правдоподобия позволяет оценить неизвестный параметр по имеющейся выборке.
Информация Фишера позволяет измерить объем информации, которую несет в себе одно наблюдение или выборка наблюдений в целом.
С того момента, как статистические методы стали применять к реальным данным, существует проблема доказательства , что все "если", которые необходимы для применения этих методов справедливы для реальных данных.
Например, еще в прошлом веке было признано, что в реальности нормальный закон распределения данных встречается очень редко. В результате этого признания появилась теория и методы робастного оценивания.
В 21 веке, опять наступают на те же грабли. Практически нет доказательств, что реальные данные удовлетворяют все "если", даже нет попыток это проверить, но тогда остается открытым вопрос достоверности таких вычислений.
Вы этот вопрос тоже обошли молчанием в своей статье.
В целом, соглашусь с утверждениями насчет "если", я сам достаточно скептично отношусь к их применимости в жизни аккурат так же, как это описывается в теории. Проверять все "если" на практике это отдельный сложный вопрос.
С другой стороны, можно и поспорить с неприменимостью к реальным данным перечисленных методов. Наибанальнейший пример, который я привожу, опять-таки, в самом начале — MSE, MAE и другие функции потерь, которые буквально происходят из метода максимального правдоподобия с предположением о распределении остатков. Данные функции базовые, но очень часто используются, как и производные от них. У каждой из них, действительно, есть свои недостатки в зависимости от реальных данных.
В общем, здесь речь идет не о ММП, а о статистике в целом. Можно вечно философствовать относительно того, что мат.аппарат не поспевает за инженерными науками (а машинное обучение это именно инженерия, а не математика в чистом виде, так как все, что мы делаем — аппроксимируем), но в конечном счете это не тема моей статьи. Было бы славно написать об этом еще статью, но, имхо, это лишь бесполезная рефлексия, а не реальная попытка решить проблему.
Однако, я не могу согласиться с тем, что данная тема должна раскрываться непосредственно в этой статье. Статья и без того получилась слишком длинной и нагруженной для объяснения "простыми словами".
Так что абсолютно очевидно, что цель данной статьи состоит в том, чтобы дать понимание данной темы и заинтересовать читателя в дальнейшем погружении. Именно эта цель и ставится во вступлении, и именно поэтому я дополнил статью иными источниками.
Насчет "тоже", не совсем понимаю, что Вы имеете ввиду. Если есть какая-то конкретика, перечислите по пунктам, что именно могло бы быть раскрыто в статье еще.
Информация Фишера
Не "информация Фишера", а "информация" по Фишеру. То есть в терминологии предложенной Фишером, это самое "I" в формулах можно называть "информацией". "I" - "информация". А можно не называть. Он предложил это в далеком 1922 году. И это было упомянуто в паре книг изданных еще до 1980 года.
Сейчас инфоцигане раскопали эту древнюю "информацию", и продвигают ее как модное выражение. По традиции засунули тему в Википедию, как обычно без подтверждающих источников.
У меня статья не по терминологии, а по конкретному мат. аппарату. Не совсем понимаю Ваших замечаний, так как от предлога "по" смысл не меняется. В рунете в 99% случаев будет встречаться "Информация Фишера", а в своей познавательной статье, я не стану поперек всему сообществу диктовать непривычные формулировки, так как это просто нелогично)
Сейчас инфоцигане раскопали эту древнюю "информацию", и продвигают ее как модное выражение
Не знаю, кто ее продвигает, но я бы был аккуратнее с выражениями, потому что под них подпадает в том числе уважаемый Райгородский, с которым никому из нас не тягаться)) Википедию тоже вроде нигде не упомянал, так как, действительно, в 2к25 в ней что-то на серьезе вычитывать, как минимум странно)
Привет! Спасибо за подробную статью.
Правдоподобие (likelihood function) — это вероятность получить наблюдаемую выборку при конкретном значении параметра.
Точно ли? По идее это вероятность значения параметра при наблюдаемых выборочных измерениях. У вас по формуле так и есть L(Teta|x_1,... x_n). При этом да, это совпадает с P(x_1,... x_n|Teta), но это не одно и тоже.
Информация Фишера — это способ количественно оценить количество информации, которое одна случайная величина содержит о другой.
Но ведь речь о параметре, а это в рамках фрейквенсистского подхода совершенно конкретная величина (fixed). Вообще, так как информация Фишера, - опуская момент про ожидамаемое значение, - это производная log(L), то речь о скорости изменчивости функции в точке, что позволяет нам сказать о форме распределения оценки параметра популяции.
Чем скорость изменчивости меньше, тем более "плоское" (flat) это распределение, а значит данные нам говорят не так уж и много о параметре; чем скорость больше, тем более распределение "заострённое" (sharp), значит данные дают уже больше (информации) о параметре. Собственно, в этом и есть смысл I.
Подытоживая, хотелось бы упомянуть, что тест на отношение правдоподобий еще крайне удобен тем, что в системе мы можем тестировать большое количество гипотез. Обычно в таких ситуациях пользуются поправкой Бонферрони или Холма для того, чтобы устранить эффект множественного сравнения. Однако в случае с тестом отношения правдоподобий корректировать уровень значимости не нужно.
Можно пруфы этого утверждения, пожалуйста?
Возможно, тут есть путаница с тем, что методы LRT применяются для последовательного тестирования (SPRT, mSRPT), которые "устраняют" проблему подглядывания. Но чтобы это решало проблему множественного сравнения - прям вопрос.
Привет) Спасибо большое за развернутый комментарий!
Насчет первого твоего замечания полностью согласен, ты абсолютно прав. Может показаться, что моя текущая формулировка подразумевает
, ибо верная постановка
. Но если рассматривать данный термин более обширно, а не локально по формуле, то выходит несколько иная ситуация.
Функция правдоподобия определяется как функция параметра, при этом данные фиксированы. То есть, мы рассматриваем вероятность наблюдения конкретных данныхдля разных значений параметра
.
По поводу информации Фишера, я тебя не очень понял. Наверное, тебе не очень понравилась сама формулировка определения, потому что дальше в соседних абзацах я расписываю буквально то, что ты описал. Действительно, мое первоначальное определение информации Фишера несколько упрощено, чтобы дать какое-то наивное базовое представление. Я не особо вижу смысл как-то усложнять данное определение, но если ты можешь его уточнить так, чтобы оно осталось простым и при этом стало более фактичным, я был бы крайне признателен. Напиши, если есть идеи
Тут вопрос несколько сложнее и насколько я понимаю, мы тут скорее в терминологии не сошлись. Под тем, что я написал подразумевается то, что мы объединяем несколько гипотез в один тест. В таком случае, нам никакие поправки не нужны. Но тут тоже есть нюанс с условиями регулярности модели. Если они выполняются, то все ок. В целом, получается, что наша гипотеза
является вложенной в
.
Если же проводится серия отдельных тестов, то корректировку уровня значимости применять необходимо, как и всегда.То есть, насколько понимаю, тебя смутило "множественное сравнение". Если так, то как бы ты порекомендовал сформулировать мысль точнее?
По пруфам, если они все еще актуальны, прикладываю оригинальную статью с теоремой Вилкса.
Спасибо большое за проявленный интерес к статье!
По первому и ты сам ответил ниже, но да, у нас есть фиксированные данные ( = "при условии"), а далее мы оцениваем разную тету при них и смотрим, какая правдоподобнее.
Я зацепился только за "...одна случайная величина содержит о другой" случайной величине получается, ну просто по логике. Но параметр это неслучайная величина для частотного подхода, она фиксирована. На мой взгляд если давать простое определение, то это что-то вроде: "Насколько хорошо наши данные что-то говорят о параметре".
Теперь понял, ты говоришь об объединении нулевой и альтернативной гипотезе в рамках единой проверки, ну в таком случае это не то множественное тестирование, где сразу вспоминают о поправках :) формально, множественное, но в основном под ним подразумевают все таки серию, да.
Кто-то уже накинул мне минус, наверное, байесианец, но мой комментарий это не придирка, мне правда понравился твой лонгрид с выводом, просто это прежде всего замечания для других читающих. А то начнут тесты без поправок налево-направо проводить...)
Да блин, сори, это я криворукий) Хотел наоборот поднять твой коммент, но мисскликнул. В поддержке сказали, что нельзя убрать дизлайк... Я тебе в качестве моральной компенсации в профиль кармы закинул)
В остальном, да, правильно друг друга поняли. А определение информации Фишера я заменил на следующее:
Информация Фишера — это мера того, сколько информации наблюдаемые данные содержат о неизвестном параметре модели.
Думаю, что так будет корректнее. По "множественному" тестированию тоже пояснение оставил.
В любом случае, еще раз благодарю за проявленный интерес и замечания))
Сейчас подумал еще над первым вопросом. Возможно тут скорее дело в обозначении функции правдоподобия. Лично меня учили ее обозначать таким образом (наверное, действительно не лучший вариант). Где-то я видел , где-то формулируют промежуточную функцию и обозначают через нее, а где-то пишут наоборот
.
Исходя из постановки, последний вариант звучит логичнее, но он повторяет функцию плотности, что тоже может путать. Я бы, наверное, остановился на варианте , так как в функции правдоподобия ключевая цель состоит в оптимизации параметра.
Возможно есть какие-нибудь дополнения?
Простыми словами о методе максимального правдоподобия и информации Фишера