Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Если один фильм получил 80 положительных и 20 отрицательных голосов, а другой — 9 положительных и 1 отрицательный, то какой из фильмов лучше?
Система – это совокупность элементов или отношений, закономерно связанных друг с другом в единое целое, которое обладает свойствами, отсутствующими у элементов или отношений их образующих.
Но точно не только с помощью математики.
Один из вариантов сравнения — это посчитать минимальное доверительное качество фильма, число, показывающее минимальную оценку, которую может получить фильм после бесконечного количества отзывов.
Мат. ожидание у вас получилось (1+p)/(1+p + 1+n) т.е. вы просто по 1це прибавили к обоим оценкам, тем самым сгладив оценки с 0.5.
Из второй формулы можно зная среднюю оценку фильмов (она не обязательно равна 0.5) можно посчитать первые слагаемые параметров бета функции. Выбрав вместо двойки другую константу сглаживания. Вот в итоге мы сводим задачу к одной константе.
Это во-первых не физично (минимум доверительного интервала это мат. абстракция).
Во-вторых он сильно зависит от точности. 95% и 90% даст огромную разницу.
В третьих почему-бы не использовать бинарное распределение вместо бета-функций и считать их доверительные интервалы.
И мы опять приходим к простому среднему, которое не учитывает количества голосов.
Суть была именно в том, чтобы использовать не какую-то среднюю температуру по больнице, а нечто, что учитывало бы также и степень нашей уверенности в ответе
А какая разница, сразу задавать alpha и beta или выводить их из количества голосов и средней оценки?
Современные поисковые движки используют больше 100 подстраиваемых коэффициентов, чтобы улучшить результаты ранжирования результатов, а вы наоборот хотите уменьшить их количество и сделать систему жёсткой и не поддающейся регуляции.
Не большая абстракция, чем вероятность сама по себе. Но ведь использование вероятности вас не смущает?
В этом случае, следуя центральной предельной теореме, мы получим то же самое нормальное распределение, а оно всё-таки менее гибкое, чем бета.
Единственное что в бинарном рейтинге нам говорит об этом это число голосов. Если взять любую функцию возрастающую с N и использовать как коэффициент при среднем взвешивании, то мы получим учет достоверности.
Константа осталась одна. Она приобрела смысл (чем больше тем сильнее сглаживание). И стала безопасной — при любом ее значении большем нуля значение будет между 0.5 и p/N.
Смысла ранжировать по «нижнему пределу доверительного интервала бета-распределения с коэффициентом значимости 0.95» нет никакого.
Вы сейчас скажите, что он выражает пессимистичный прогноз вероятности того, что фильм понравиться пользователю.
А почему сортировать по пессимистичному прогнозу? Почему не по обычному прогнозу, который можно получить взвесив среднюю оценку по статье со средней по сайту?
ЦПТ действует только на бесконечности.
Для биномиального распределения есть отдельные функции.
Бета и нормальное разные распределения, то что стандартное нормальное распределения частный случай бета [...]
P.S. Биномиальное распределение характеризуется одним параметром P
откуда у вас второй параметр взялся для бета непонятно.
Давайте определимся, вы сейчас критикуете мой метод или рекламируете свой?
Т.е. вы сознательно ограничиваете возможные оценки интервалом [0.5..p/N]. Ну и зачем?
{0.5<=p/N, [0.5,p/N]
{0.5>p/N, [p/N,0.5]
При бета-распределении (да и любом другом распределении, о котором говорилось раньше) есть какая-то опасность?
Понятия «обычный прогноз» нет. Есть разные подходы. Почему я считаю статистический более обоснованным, я уже описал выше.
Для дейстивтельно бесконечных чисел ЦПТ не имеет смысла, т.е. положение мат. ожидания для них однозначно известно.
мат. ожидания для них однозначно известно
ЦПТ даёт теоретическое обоснование для оценки положения мат. ожидания биномиального распределения.
И я не вижу ни одной причины, почему бета-распределение должно описывать эти оценки хуже, чем биномиальное.
Бе́та-распределе́ние в теории вероятностей и статистике — двухпараметрическое семейство абсолютно непрерывных распределений. Используется для описания случайных величин, значения которых ограничены конечным интервалом.Биномиа́льное распределе́ние в теории вероятностей — распределение количества «успехов» в последовательности из n независимых случайных экспериментов, таких, что вероятность «успеха» в каждом из них постоянна и равна p.В этом случае, следуя центральной предельной теореме, мы получим то же самое нормальное распределение, а оно всё-таки менее гибкое, чем бета.
И я не вижу ни одной причины, почему бета-распределение должно описывать эти оценки хуже, чем биномиальное.
Если вы говорите про то, что есть нормальная аппроксимация биномиального распределения. Да она есть, но использовать ее можно только при большом числе голосов (больше 30). И ее использует не для «оценки положения мат. ожидания», а для построения доверительных интервалов.
1. Предположим, что эксперименты независимы
2.Предположим, что с течением времени вероятность того, что случайный пользователь поставит плюс не меняется со временем.
3. Предположим, что число голосований у нас достаточно большое (чтобы можно было ЦПТ применять).
4. Предположим, что нормальное распределение можно описать бета распределением.
ЦПТ даёт теоретическое обоснование для оценки положения мат. ожидания биномиального распределения
Дальше у вас тоже весело.
Какая разница, сколько условий?
Третий пункт, как я уже говорил, основан на вашей интуиции и не имеет ничего общего с реальностью.
Ну а четвёртый повеселил: несмотря на то, что я несколько раз явно указал на то, что бета-распределение не зависимо от нормального, вы всё равно настаиваете на аппроксимации одного другим.
В этом случае, следуя центральной предельной теореме, мы получим то же самое нормальное распределение, а оно всё-таки менее гибкое, чем бета.
Для биномиального распределения нет понятия PDF (только PMF), а значит и прямого выражения доверительного интервала, поэтому его аппроксимируют нормальным.
В третьих почему-бы не использовать бинарное распределение вместо бета-функций и считать их доверительные интервалы.
ЦПТ говорит лишь о том, что при N стремящемся бесконечности мат. ожидание будет стремиться к некоторому числу.
Не всегда есть еще 3-4 способа аппроксимации намного точнее.
В английской вики написано про то, что 30 минимум, чтобы можно было использовать нормальную аппроксимацию.
На что я ответил, что при использовании бинарного распределения для подсчёта доверительного интервала всё равно придётся аппроксимировать его нормальным.
Например какие? Особенно меня интересует часть «намного точнее».
дальнейшие выпады в сторону ЦПТ с вашей стороны считаю тупо троллингом.
Цитата? Конкретно про то, что можно или нельзя
Even for quite large values of n, the actual distribution of the mean is significantly nonnormal
For very extreme probabilities, though, a sample size of 30 or more may still be inadequate.
The normal approximation interval is the simplest formula… This formula, however, is based on an approximation that does not always work well. Several competing formulas are available that perform better...
Вы не ответили на мой вопрос «Объясните как вы к бете перешли?»
Например, Вильсон.
For very extreme probabilities, though, a sample size of 30 or more may still be inadequate.
The central limit theorem applies well to a binomial distribution, even with a sample size less than 30, as long as the proportion is not too close to 0 or 1. For very extreme probabilities, though, a sample size of 30 or more may still be inadequate.
Even for quite large values of n, the actual distribution of the mean is significantly nonnormal

Yet Another Rating System