не могли бы вы сформулировать вот эту мысль другими словами?
Попробую. Применяя t-test, мы ожидаем, что наше t-значение при верности H0 будет распределено согласно t-распределению с некоторыми степенями свободы, d=k. Но при неравенстве дисперсий этого не будет, распределение t-статистики будет иным - c более толстыми хвостами. Но t-test-то проставляет границы значимости согласно тому, что он ожидает (он считает, что t-статистика приземляется на t-распределение c d=k), поэтому мы получаем больше ошибок 1-го рода, чем хотели бы. Тут имеется в виду, скажем, выставляем классическую alpha = 5%, а получим на деле 12-15%.
пардон, вот тут упустил мысль - а как получается, что выборочная дисперсия от генеральной независима?
А здесь как раз момент в другом: в числителе стоит параметры генеральной, конкретные фиксированные значения. Допустим, они нам известены и равен 1 и 2 соответственно. И если брать две выборки и обе размером 100, то числитель будет всегда (1/100 + 2/100). То есть эта сумма от выборки к выборке тех же размеров по 100 меняться не будет. А вот выборочные дисперсии в знаменателе как раз будут!
Выходит, будет множество пар (числитель, знаменатель), где числитель фиксированный, а знаменатель варьируется, отсюда нет никакой связи, ковариация будет нулевая.
ну что ж, если наш тритмент настолько ядреный, что может вызвать существенное(!) изменение дисперсии, то кажется, что стат. тесты тут вообще излишни.
Хорошее замечание! Действительно, когда эффект "на лицо", то стат. тесты будут подтверждать очевидное. Другое дело, что такие мощные эффекты, "инновации", чтоб на глаз, редко бывают, чтобы обходиться без тестов.
Не совсем так. В группы мы набираем людей из одной совокупности, на группе B проводим эксперимент. Который может как-то повлиять на группу B, например, увеличить среднее по метрике или/и ее дисперсию, тем самым, если мы раскатим это воздействие на "всех", то предполагается, что сместим и саму генеральную.
Строго говоря, речь идет о распределении случайной величины. И ее дисперсия не зависит от числа попыток ее численно оценить (не совсем понял, где об этом говорилось в цитате)
Тут речь о тритменте, воздействии. У вас есть два предположения: либо ваше воздействие изменит ее дисперсию, либо нет.
Классический t-test предполагает, что этого не произойдет. Тогда если верна H0, то выборочные дисперсии будут оценками одной и той дисперсии, поэтому их объединяют, и вместо двух дисперсий в формуле у вас "pooled". Но если все-таки тритмент меняет дисперсию, но не меняет среднее, то этот шаг приведет в рамках большей ложноположительности для классического t-test'a.
По первому и ты сам ответил ниже, но да, у нас есть фиксированные данные ( = "при условии"), а далее мы оцениваем разную тету при них и смотрим, какая правдоподобнее.
Я зацепился только за "...одна случайная величина содержит о другой" случайной величине получается, ну просто по логике. Но параметр это неслучайная величина для частотного подхода, она фиксирована. На мой взгляд если давать простое определение, то это что-то вроде: "Насколько хорошо наши данные что-то говорят о параметре".
Теперь понял, ты говоришь об объединении нулевой и альтернативной гипотезе в рамках единой проверки, ну в таком случае это не то множественное тестирование, где сразу вспоминают о поправках :) формально, множественное, но в основном под ним подразумевают все таки серию, да.
Кто-то уже накинул мне минус, наверное, байесианец, но мой комментарий это не придирка, мне правда понравился твой лонгрид с выводом, просто это прежде всего замечания для других читающих. А то начнут тесты без поправок налево-направо проводить...)
Правдоподобие (likelihood function) — это вероятность получить наблюдаемую выборку при конкретном значении параметра.
Точно ли? По идее это вероятность значения параметра при наблюдаемых выборочных измерениях. У вас по формуле так и есть L(Teta|x_1,... x_n). При этом да, это совпадает с P(x_1,... x_n|Teta), но это не одно и тоже.
Информация Фишера — это способ количественно оценить количество информации, которое одна случайная величина содержит о другой.
Но ведь речь о параметре, а это в рамках фрейквенсистского подхода совершенно конкретная величина (fixed). Вообще, так как информация Фишера, - опуская момент про ожидамаемое значение, - это производная log(L), то речь о скорости изменчивости функции в точке, что позволяет нам сказать о форме распределения оценки параметра популяции.
Чем скорость изменчивости меньше, тем более "плоское" (flat) это распределение, а значит данные нам говорят не так уж и много о параметре; чем скорость больше, тем более распределение "заострённое" (sharp), значит данные дают уже больше (информации) о параметре. Собственно, в этом и есть смысл I.
Подытоживая, хотелось бы упомянуть, что тест на отношение правдоподобий еще крайне удобен тем, что в системе мы можем тестировать большое количество гипотез. Обычно в таких ситуациях пользуются поправкой Бонферрони или Холма для того, чтобы устранить эффект множественного сравнения. Однако в случае с тестом отношения правдоподобий корректировать уровень значимости не нужно.
Можно пруфы этого утверждения, пожалуйста?
Возможно, тут есть путаница с тем, что методы LRT применяются для последовательного тестирования (SPRT, mSRPT), которые "устраняют" проблему подглядывания. Но чтобы это решало проблему множественного сравнения - прям вопрос.
Когда говорят о нормальности распределения данных для t-критерия, то подразумевают в контексте малых выборок (это важно!) нормальное распределение случайной величины, что, грубо говоря, означает требование нормальности генеральной. Тогда t-значения, которые по сути своей стандартизированные средние, малых выборок из такой генеральной будут распределены согласно t-распределению. И t-распределение будет сводным для любой нормальной генеральной.
Когда генеральная нормальная, то на малых выборках у нее как следствия будут распределяться а) средние согласно нормальному знаку и б) дисперсия согласно закону Хи-Квадрат (лемма Фишера)
Когда выборки большие, то соблюдаются пункты а) и б), что означает, что t-значения будут распределены также согласно t-распределению. При этом само t-распределение в рамках больших выборок будет в пределе z-распределением.
Надеюсь, смог ответить вместо коллег.
Информация
В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Привет! Спасибо, что прочитали!
Попробую. Применяя t-test, мы ожидаем, что наше t-значение при верности H0 будет распределено согласно t-распределению с некоторыми степенями свободы, d=k. Но при неравенстве дисперсий этого не будет, распределение t-статистики будет иным - c более толстыми хвостами. Но t-test-то проставляет границы значимости согласно тому, что он ожидает (он считает, что t-статистика приземляется на t-распределение c d=k), поэтому мы получаем больше ошибок 1-го рода, чем хотели бы. Тут имеется в виду, скажем, выставляем классическую alpha = 5%, а получим на деле 12-15%.
А здесь как раз момент в другом: в числителе стоит параметры генеральной, конкретные фиксированные значения. Допустим, они нам известены и равен 1 и 2 соответственно. И если брать две выборки и обе размером 100, то числитель будет всегда (1/100 + 2/100). То есть эта сумма от выборки к выборке тех же размеров по 100 меняться не будет. А вот выборочные дисперсии в знаменателе как раз будут!
Выходит, будет множество пар (числитель, знаменатель), где числитель фиксированный, а знаменатель варьируется, отсюда нет никакой связи, ковариация будет нулевая.
Хорошее замечание! Действительно, когда эффект "на лицо", то стат. тесты будут подтверждать очевидное. Другое дело, что такие мощные эффекты, "инновации", чтоб на глаз, редко бывают, чтобы обходиться без тестов.
Еще раз спасибо за отвыз!
Не совсем так. В группы мы набираем людей из одной совокупности, на группе B проводим эксперимент. Который может как-то повлиять на группу B, например, увеличить среднее по метрике или/и ее дисперсию, тем самым, если мы раскатим это воздействие на "всех", то предполагается, что сместим и саму генеральную.
В рамках A/B теста. Мы проверяем на выборках нашу новую фичу, экстраполируя эффект на генеральную (отразится на генеральной)
Привет!
Спасибо за вопрос!
Строго говоря, речь идет о распределении случайной величины. И ее дисперсия не зависит от числа попыток ее численно оценить (не совсем понял, где об этом говорилось в цитате)
Тут речь о тритменте, воздействии. У вас есть два предположения: либо ваше воздействие изменит ее дисперсию, либо нет.
Классический t-test предполагает, что этого не произойдет. Тогда если верна H0, то выборочные дисперсии будут оценками одной и той дисперсии, поэтому их объединяют, и вместо двух дисперсий в формуле у вас "pooled". Но если все-таки тритмент меняет дисперсию, но не меняет среднее, то этот шаг приведет в рамках большей ложноположительности для классического t-test'a.
По первому и ты сам ответил ниже, но да, у нас есть фиксированные данные ( = "при условии"), а далее мы оцениваем разную тету при них и смотрим, какая правдоподобнее.
Я зацепился только за "...одна случайная величина содержит о другой" случайной величине получается, ну просто по логике. Но параметр это неслучайная величина для частотного подхода, она фиксирована. На мой взгляд если давать простое определение, то это что-то вроде: "Насколько хорошо наши данные что-то говорят о параметре".
Теперь понял, ты говоришь об объединении нулевой и альтернативной гипотезе в рамках единой проверки, ну в таком случае это не то множественное тестирование, где сразу вспоминают о поправках :) формально, множественное, но в основном под ним подразумевают все таки серию, да.
Кто-то уже накинул мне минус, наверное, байесианец, но мой комментарий это не придирка, мне правда понравился твой лонгрид с выводом, просто это прежде всего замечания для других читающих. А то начнут тесты без поправок налево-направо проводить...)
Привет! Спасибо за подробную статью.
Точно ли? По идее это вероятность значения параметра при наблюдаемых выборочных измерениях. У вас по формуле так и есть L(Teta|x_1,... x_n). При этом да, это совпадает с P(x_1,... x_n|Teta), но это не одно и тоже.
Но ведь речь о параметре, а это в рамках фрейквенсистского подхода совершенно конкретная величина (fixed). Вообще, так как информация Фишера, - опуская момент про ожидамаемое значение, - это производная log(L), то речь о скорости изменчивости функции в точке, что позволяет нам сказать о форме распределения оценки параметра популяции.
Чем скорость изменчивости меньше, тем более "плоское" (flat) это распределение, а значит данные нам говорят не так уж и много о параметре; чем скорость больше, тем более распределение "заострённое" (sharp), значит данные дают уже больше (информации) о параметре. Собственно, в этом и есть смысл I.
Можно пруфы этого утверждения, пожалуйста?
Возможно, тут есть путаница с тем, что методы LRT применяются для последовательного тестирования (SPRT, mSRPT), которые "устраняют" проблему подглядывания. Но чтобы это решало проблему множественного сравнения - прям вопрос.
Привет!
Когда говорят о нормальности распределения данных для t-критерия, то подразумевают в контексте малых выборок (это важно!) нормальное распределение случайной величины, что, грубо говоря, означает требование нормальности генеральной. Тогда t-значения, которые по сути своей стандартизированные средние, малых выборок из такой генеральной будут распределены согласно t-распределению. И t-распределение будет сводным для любой нормальной генеральной.
Когда генеральная нормальная, то на малых выборках у нее как следствия будут распределяться а) средние согласно нормальному знаку и б) дисперсия согласно закону Хи-Квадрат (лемма Фишера)
Когда выборки большие, то соблюдаются пункты а) и б), что означает, что t-значения будут распределены также согласно t-распределению. При этом само t-распределение в рамках больших выборок будет в пределе z-распределением.
Надеюсь, смог ответить вместо коллег.