Действительно, как я написал выше, термин "предсказательная сила" (predictive power) не имеет строгого математического определения и может интерпретироваться по-разному в зависимости от контекста. Указанные мной ссылки являются примерами, что данное понятие, несмотря на свою нестрогость, активно используется в ресурсах, посвященных статистике и машинному обучению, и по этой причине не должно удивлять читателей.
На одном из собеседований я получил задачу именно с формулировкой "предсказательная сила". Под этим термином подразумевалась вероятность того, что предсказание осьминога окажется верным, что является интуитивно понятным. Если на собеседовании или в другом контексте вас просят оценить "предсказательную силу", но вам не кажется очевидным, что именно под этим термином подразумевается, я рекомендую задавать уточняющие вопросы. Это поможет избежать недоразумений и сосредоточиться на той интерпретации, которая важна для собеседующего.
Что касается вашего вопроса про доверительный интервал, он был приведён для оценки вероятности совершить верное предсказание, то есть как интервал, в котором с заданной уверенностью может находиться эта вероятность. Я согласен, что доверительный интервал и сама вероятность — это разные понятия, но в данном случае интервал служит способом выразить степень неопределённости относительно этой вероятности. Использование доверительного интервала для оценки вероятности является стандартным подходом в статистике.
Предсказательная сила (англ. predictive power) — это термин, который используется в статистике и машинном обучении для обозначения способности алгоритма или метода делать точные предсказания.
Например, когда говорят о предсказательной силе осьминога, имеют в виду вероятность того, что его предсказания окажутся верными. Если осьминог действительно способен предсказывать результаты, вероятность его правильных предсказаний будет выше 50% (то есть выше случайного угадывания). Если же такой способности нет, вероятность успешного предсказания останется на уровне случайного выбора — 50%.
Спасибо за ваш комментарий! Вы абсолютно правы, и ваше решение идеально подходит, если заранее известно, что монетка честная.
Однако монетка может быть деформированной, и вероятность выпадения орла или решки в таком случае может отличаться от 50%. Если про "честность" монетки ничего неизвестно, вероятность выпадения орла можно оценить на основе имеющихся данных. В вашей задаче оценка этой вероятности будет находиться в диапазоне от 76% до 100%, как я показал в статье.
Можно утверждать следующее:
"Имеющаяся серия испытаний (10 из 10 раз выпал орел) позволяет с 95%-й степенью уверенности предполагать, что вероятность выпадения орла отличается от 50%. Скорее всего (с вероятностью 95 %) она находится в диапазоне от 76% до 100%. Соответственно, есть основания ожидать, что при новом одиннадцатом броске монетка с большей вероятностью покажет орла, чем решку."
Прошу прощения за предыдущую неточность. Я исправил значение коэффициента на более точное — 1.96, которое соответствует 95%-доверительному интервалу. Этот коэффициент обозначает количество стандартных отклонений от среднего значения, определяющих диапазон, в котором находится заданная доля данных (в данном случае 95 %). Вы можете прочитать об этом в статье Википедии про эмпирическое правило "68–95–99.7 rule".
Известно, что для нормального распределения: — 95.5% данных лежит в промежутке [среднее ± 2 стандартных отклонения] — 99.7% данных лежит в промежутке [среднее ± 3 стандартных отклонения]
Вы совершенно правы! Это мнемоническое правило называется правилом последовательности Лапласа и хорошо описано в видео 3Blue1Brown (ссылка на таймкод). Также в статье Википедии про Бета-распределение есть целый раздел на эту тему.
Это правило замечательно подходит для оценки априорной вероятности успеха, и я решил показать, как можно вычислить доверительный интервал для такой оценки. В вашем примере среднее, действительно, равно 11/12 = 91 %, но доверительный интервал для нее находится в диапазоне от 76 до 100 %. Зная доверительный интервал, можно обоснованно выбирать между товаром с 90 положительными отзывами из 100 и товаром с 10 положительными отзывами из 10. Если пользоваться только правилом Лапласа, в данном примере можно ошибочно отдать предпочтение товару с меньшим числом отзывов, что будет неверным или, по крайней мере, неверно обоснованным :)
Именно так! Вы все написали верно! В задаче про монетку неизвестно, честная она или нет, и степень честности предлагается оценить на основе одного эксперимента из 10 испытаний.
Вместо монетки могут быть отзывы в интернете. У одного товара 10/10 отзывов положительны. У другого 90/100 положительны.
В этой статье я показываю, что для случая 10/10 распределение положительных отзывов скорее всего (с 95% уверенностью) лежит в интервале (76, 100)%, а в случае 90/100 распределение положительных отзывов скорее всего (с 95% уверенностью) лежит в интервале (84, 96)%
Вы все правильно написали. В схеме Бернулли испытания независимы. Вероятность, что в 11 раз выпадет орел при условии, что в первые 10 раз выпала решка равна вероятности, что на данной монете выпадет орел в принципе (в любой раз).
При этом априорное распределение вероятностей монетки (с какой вероятностью каждый раз выпадет решка) оценивается и моделируется как распределение p при условии того, что мы 10 раз подряд получили решку.
принимает значения в диапазоне . Отрицательные значения соответствуют "независимым" разбиениям на кластеры, значения, близкие к нулю, — случайным разбиениям, и положительные значения говорят о том, что два разбиения схожи (совпадают при ).
Добрый день. Спасибо за комментарий! Добавил итоговую формулу в статью!
По второму вопросу — конечно, результаты стат. тестов зависят от промежутка. Например временные интервалы в промежутке от 1 до 7 часов (без первого и восьмого часов) гораздо лучше фитятся экспоненциальным или степенным распределениями, чем если брать все наблюдения вместе (как я делал в статье).
Добрый день. Спасибо огромное за потрясающий комментарий. Я так проникся, что даже написал на Хабр статью про q-q plots. Я еще недостаточно прокачался, чтобы проводить частотный анализ, но спасибо за наводку. В следующем исследовании буду держать руку на револьвере пальцы на клавиатуре. Если у вас есть на примете крутые статьи/гайды о том, как понимать и применять вот эти frequency-domain (частотные интервалы, насколько я понял), а так же проводить dsp processing на Python или R, то будет здорово, если поделитесь :)
Очень рад, что вам понравилось! Первую иллюстрацию я рисовал в Miro, а остальные строил в Wolfram Mathematica. Суммарный код к каждому графику получился настолько большим, что я не стал включать его в статью.
Я правильно понимаю, что вы хотите график плотности для обоих частей данных сразу?
В этом случае полученные в статье распределения войдут в общую картину с удельными весами, равными относительным размерам их выборок. (Примерно 3/4 для экспоненциального/степенного и 1/4 для нормального).
Про результаты стат. тестов. Я правильно понимаю, что вы хотите проверить, что будет если взять случайную выборку (например, половинного размера) из каждой группы и фитануть распределения для неё?
Попробовал сейчас повыбирать случайно выборки и для них попроводить тесты (несколько раз для нескольких выборок). Как оказалось, результаты могут отличаться друг от друга довольно сильно. Не знаю, как это можно интерпретировать, ведь, если много раз выбирать случайную выборку, то можно получить какие угодно результаты :) Может быть, вы знаете какую-нибудь метрику на этот счет?
Действительно, как я написал выше, термин "предсказательная сила" (predictive power) не имеет строгого математического определения и может интерпретироваться по-разному в зависимости от контекста. Указанные мной ссылки являются примерами, что данное понятие, несмотря на свою нестрогость, активно используется в ресурсах, посвященных статистике и машинному обучению, и по этой причине не должно удивлять читателей.
На одном из собеседований я получил задачу именно с формулировкой "предсказательная сила". Под этим термином подразумевалась вероятность того, что предсказание осьминога окажется верным, что является интуитивно понятным. Если на собеседовании или в другом контексте вас просят оценить "предсказательную силу", но вам не кажется очевидным, что именно под этим термином подразумевается, я рекомендую задавать уточняющие вопросы. Это поможет избежать недоразумений и сосредоточиться на той интерпретации, которая важна для собеседующего.
Что касается вашего вопроса про доверительный интервал, он был приведён для оценки вероятности совершить верное предсказание, то есть как интервал, в котором с заданной уверенностью может находиться эта вероятность. Я согласен, что доверительный интервал и сама вероятность — это разные понятия, но в данном случае интервал служит способом выразить степень неопределённости относительно этой вероятности. Использование доверительного интервала для оценки вероятности является стандартным подходом в статистике.
Предсказательная сила (англ. predictive power) — это термин, который используется в статистике и машинном обучении для обозначения способности алгоритма или метода делать точные предсказания.
Например, когда говорят о предсказательной силе осьминога, имеют в виду вероятность того, что его предсказания окажутся верными. Если осьминог действительно способен предсказывать результаты, вероятность его правильных предсказаний будет выше 50% (то есть выше случайного угадывания). Если же такой способности нет, вероятность успешного предсказания останется на уровне случайного выбора — 50%.
Хотя термин не имеет строгого математического определения, он активно используется в литературе, посвященной статистике и машинному обучению, например, в статье от Open Data Science про метрики машинного обучения, а также в статье о ROC-кривой в Википедии.
Спасибо за ваш комментарий! Вы абсолютно правы, и ваше решение идеально подходит, если заранее известно, что монетка честная.
Однако монетка может быть деформированной, и вероятность выпадения орла или решки в таком случае может отличаться от 50%. Если про "честность" монетки ничего неизвестно, вероятность выпадения орла можно оценить на основе имеющихся данных. В вашей задаче оценка этой вероятности будет находиться в диапазоне от 76% до 100%, как я показал в статье.
Можно утверждать следующее:
"Имеющаяся серия испытаний (10 из 10 раз выпал орел) позволяет с 95%-й степенью уверенности предполагать, что вероятность выпадения орла отличается от 50%. Скорее всего (с вероятностью 95 %) она находится в диапазоне от 76% до 100%. Соответственно, есть основания ожидать, что при новом одиннадцатом броске монетка с большей вероятностью покажет орла, чем решку."
Прошу прощения за предыдущую неточность. Я исправил значение коэффициента на более точное — 1.96, которое соответствует 95%-доверительному интервалу. Этот коэффициент обозначает количество стандартных отклонений от среднего значения, определяющих диапазон, в котором находится заданная доля данных (в данном случае 95 %). Вы можете прочитать об этом в статье Википедии про эмпирическое правило "68–95–99.7 rule".
Известно, что для нормального распределения:
— 95.5% данных лежит в промежутке [среднее ± 2 стандартных отклонения]
— 99.7% данных лежит в промежутке [среднее ± 3 стандартных отклонения]
Если мы ограничиваем 95% значений распределения, то это количество значений находятся в промежутке [среднее ± 1.96 стандартных отклонений] (см. отрывок в статье Википедии про Нормальное распределение).
Вы совершенно правы! Это мнемоническое правило называется правилом последовательности Лапласа и хорошо описано в видео 3Blue1Brown (ссылка на таймкод). Также в статье Википедии про Бета-распределение есть целый раздел на эту тему.
Данное мнемоническое правило точно оценивает среднее значение Бета-распределения, и я упомянул про него в этой статье в блоке про точную оценку среднего и дисперсии.
Это правило замечательно подходит для оценки априорной вероятности успеха, и я решил показать, как можно вычислить доверительный интервал для такой оценки. В вашем примере среднее, действительно, равно 11/12 = 91 %, но доверительный интервал для нее находится в диапазоне от 76 до 100 %. Зная доверительный интервал, можно обоснованно выбирать между товаром с 90 положительными отзывами из 100 и товаром с 10 положительными отзывами из 10. Если пользоваться только правилом Лапласа, в данном примере можно ошибочно отдать предпочтение товару с меньшим числом отзывов, что будет неверным или, по крайней мере, неверно обоснованным :)
Именно так! Вы все написали верно! В задаче про монетку неизвестно, честная она или нет, и степень честности предлагается оценить на основе одного эксперимента из 10 испытаний.
Вместо монетки могут быть отзывы в интернете. У одного товара 10/10 отзывов положительны. У другого 90/100 положительны.
В этой статье я показываю, что для случая 10/10 распределение положительных отзывов скорее всего (с 95% уверенностью) лежит в интервале (76, 100)%, а в случае 90/100 распределение положительных отзывов скорее всего (с 95% уверенностью) лежит в интервале (84, 96)%
Здесь был ещё один комментарий про то, что в схеме Бернулли испытания независимы. Я его случайно удалил, когда заходил с телефона. Прошу прощения.
Да, все верно. Задачи для аналитиков.
Вы все правильно написали. В схеме Бернулли испытания независимы. Вероятность, что в 11 раз выпадет орел при условии, что в первые 10 раз выпала решка равна вероятности, что на данной монете выпадет орел в принципе (в любой раз).
При этом априорное распределение вероятностей монетки (с какой вероятностью каждый раз выпадет решка) оценивается и моделируется как распределение p при условии того, что мы 10 раз подряд получили решку.
Спасибо за комментарий и ценный совет. Я исправил формуллировку с "научным результатом" на более точную, чтобы вам было комфортнее читать материал.
Что значит "независимое" разбиение на кластеры?
Спасибо за кратчайшее ознакомпление!
Добрый день. Спасибо за комментарий! Добавил итоговую формулу в статью!
По второму вопросу — конечно, результаты стат. тестов зависят от промежутка. Например временные интервалы в промежутке от 1 до 7 часов (без первого и восьмого часов) гораздо лучше фитятся экспоненциальным или степенным распределениями, чем если брать все наблюдения вместе (как я делал в статье).
Спасибо за наводку на чудесную статью!
Добрый день. Спасибо огромное за потрясающий комментарий. Я так проникся, что даже написал на Хабр статью про q-q plots. Я еще недостаточно прокачался, чтобы проводить частотный анализ, но спасибо за наводку. В следующем исследовании буду держать
руку на револьверепальцы на клавиатуре. Если у вас есть на примете крутые статьи/гайды о том, как понимать и применять вот эти frequency-domain (частотные интервалы, насколько я понял), а так же проводить dsp processing на Python или R, то будет здорово, если поделитесь :)Очень рад, что вам понравилось! Первую иллюстрацию я рисовал в Miro, а остальные строил в Wolfram Mathematica. Суммарный код к каждому графику получился настолько большим, что я не стал включать его в статью.
Добрый вечер.
Я правильно понимаю, что вы хотите график плотности для обоих частей данных сразу?
В этом случае полученные в статье распределения войдут в общую картину с удельными весами, равными относительным размерам их выборок. (Примерно 3/4 для экспоненциального/степенного и 1/4 для нормального).
Про результаты стат. тестов. Я правильно понимаю, что вы хотите проверить, что будет если взять случайную выборку (например, половинного размера) из каждой группы и фитануть распределения для неё?
Попробовал сейчас повыбирать случайно выборки и для них попроводить тесты (несколько раз для нескольких выборок). Как оказалось, результаты могут отличаться друг от друга довольно сильно. Не знаю, как это можно интерпретировать, ведь, если много раз выбирать случайную выборку, то можно получить какие угодно результаты :) Может быть, вы знаете какую-нибудь метрику на этот счет?
Полностью с вами согласен. Я, действительно, не указал порог значимости. Добавил в текст пояснение на этот счет! Спасибо!