Обновить
51
0

Пользователь

Отправить сообщение
То что Гугл синонимы не подсвечивает не значит, что у него их нет.
Про нулевую псевдооснову, скорее всего вы правы. Но нулевая псевдооснова только в нескольких десятках слов.
Google + Yahoo просто не разрешат слиться антимонопольные комитеты США и Евросоюза
Возможно, проблема с выборкой из-за того, что конверсия маленькая. Важнее не число испытаний а число успехов (если их меньше или неудач в противном случае).

Если вы не хотите сообщить размеры выборки, то проверить есть ли систематическая ошибка можно самостоятельно. По сути у вас биномиальное распределение каждый пользователь открывает письмо и переходит по ссылке или нет. Если эксперимент правильно поставлен.

Если нет систематической ошибки, то у ваших выборок А/А тестирования должны пересекаться доверительный интервалы. Если доверительные интервалы даже для 95% не пересекаются значит почти наверняка есть систематическая ошибка. Либо софт глючит либо вы неправильно проводите эксперимент.

Посчитать дов. интервалы можно здесь:
www.measuringusability.com/wald.htm
Есть два научных подхода эмпирический и аналитический.
более того здесь мы обсуждаем вашу статью
Мы разве играем в игру ассоциации?
Согласен перекос есть. Но в диаграме нет маштаба, ничего сказать нельзя, может выборка маленькая.
эмпирически
нормальное распредление -> бета-распределение

Как вы перешли от нормального к бете. Назовите несколько допущений, которые не бредовые и которые позволяют к бете перейти.
Вы не ответили на мой вопрос «Объясните как вы к бете перешли?»
Отвечу за вас. Вам просто картинка вам понравилась. Нет никаких оснований применять Бету к задаче. Вы не привели ни одного.

На что я ответил, что при использовании бинарного распределения для подсчёта доверительного интервала всё равно придётся аппроксимировать его нормальным.

Например какие? Особенно меня интересует часть «намного точнее».


Например, Вильсон.

дальнейшие выпады в сторону ЦПТ с вашей стороны считаю тупо троллингом.

В сторону ЦПТ? Я ничего не говорил. Я говорил о вашей ее интерпретации, что ее можно применять для любого n. ЦПТ НЕЛЬЗЯ ПРИМЕНЯТЬ ДЛЯ МАЛЫХ N.

Цитата? Конкретно про то, что можно или нельзя

Even for quite large values of n, the actual distribution of the mean is significantly nonnormal

For very extreme probabilities, though, a sample size of 30 or more may still be inadequate.

The normal approximation interval is the simplest formula… This formula, however, is based on an approximation that does not always work well. Several competing formulas are available that perform better...


Под «законом» я имел в виду точную формулу, а не параметрическую. Или хотя бы с одним заведомо известным параметром (например, дисперсией) для определения второго (матожидания) на основе выборки.

У нас есть два параметра мат ожидание и дисперсия. Для каждого фильма они разные. Мат ожидание (средняя оценка) у всех разная, дисперсия тоже поскольку некоторый фильм может вызывать противоречивые отзывы у разных групп пользователей. Например, «Сумерки».
какими

Как они считаются я расписал.
ЦПТ даёт теоретическое обоснование для оценки положения мат. ожидания биномиального распределения

ЦПТ говорит лишь о том, что при N стремящемся бесконечности мат. ожидание будет стремиться к некоторому числу.

Дальше у вас тоже весело.

Весело у вас. Я ваши же утверждения разложил на допущения модели. Если даже вам весело, значит вы ошиблись.

Какая разница, сколько условий?

Это не условия, а допущения модели. Или аксиомы. Вопрос в том адекватные они или нет. Если 3тье можно считать более или менее адекватным, то 4ое никак не адекватно.

Третий пункт, как я уже говорил, основан на вашей интуиции и не имеет ничего общего с реальностью.

Значит, по вашему ЦПТ действует для любого N? Даже для 1 или 2? В английской вики написано про то, что 30 минимум, чтобы можно было использовать нормальную аппроксимацию.

Ну а четвёртый повеселил: несмотря на то, что я несколько раз явно указал на то, что бета-распределение не зависимо от нормального, вы всё равно настаиваете на аппроксимации одного другим.

Вы говорили? А я дурак вам все не верю? Я привел вашу же цитату:
В этом случае, следуя центральной предельной теореме, мы получим то же самое нормальное распределение, а оно всё-таки менее гибкое, чем бета.

Я уже трижды тыкаю вам на то, что этот переход от нормального к бете бредовый. Не найдя что ответить вы начинаете говорить, что я его предложил. Вам бы с такой гибкостью в политику идти )
Если даже вам смешно от того как вы перешли от нормального к бете. Значит переход бредовый.

Для биномиального распределения нет понятия PDF (только PMF), а значит и прямого выражения доверительного интервала, поэтому его аппроксимируют нормальным.

Не всегда есть еще 3-4 способа аппроксимации намного точнее.

Объясните как вы к бете перешли?
Давайте определимся, вы сейчас критикуете мой метод или рекламируете свой?

Вы сказали, что нельзя, я привел пример, что можно.

Т.е. вы сознательно ограничиваете возможные оценки интервалом [0.5..p/N]. Ну и зачем?

Про интервал я не говорил, поскольку не известно что больше 0.5 или p/N. Если хотите, чтобы я выразил в кванторах, то:
{0.5<=p/N, [0.5,p/N]
{0.5>p/N, [p/N,0.5]


При бета-распределении (да и любом другом распределении, о котором говорилось раньше) есть какая-то опасность?

Вы не согласны, что прогноз рейтинга (результирующий, сглаженный, итоговый рейтинг) статьи должен быть между средним рейтингом всех статей (допустим 0.5) и средним рейтингом этой статьи.

Понятия «обычный прогноз» нет. Есть разные подходы. Почему я считаю статистический более обоснованным, я уже описал выше.

Обычный прогноз это который не пессимистичный и не оптимистичный, а между ними. У нас не номенклатурный спор.

Для дейстивтельно бесконечных чисел ЦПТ не имеет смысла, т.е. положение мат. ожидания для них однозначно известно.

Вы не правы. ЦПТ начинается так: «Есть бесконечная последовательность независимых одинаково распределённых случайных величин».

мат. ожидания для них однозначно известно

Да? Поделитесь…

ЦПТ даёт теоретическое обоснование для оценки положения мат. ожидания биномиального распределения.

Набор слов. Вы сами поняли, что написали? Если вы говорите про то, что есть нормальная аппроксимация биномиального распределения. Да она есть, но использовать ее можно только при большом числе голосов (больше 30). И ее использует не для «оценки положения мат. ожидания», а для построения доверительных интервалов.

И я не вижу ни одной причины, почему бета-распределение должно описывать эти оценки хуже, чем биномиальное.

Полнейший бред.

Прочитайте первые абзацы из вики и поймете.

Бе́та-распределе́ние в теории вероятностей и статистике — двухпараметрическое семейство абсолютно непрерывных распределений. Используется для описания случайных величин, значения которых ограничены конечным интервалом.

Биномиа́льное распределе́ние в теории вероятностей — распределение количества «успехов» в последовательности из n независимых случайных экспериментов, таких, что вероятность «успеха» в каждом из них постоянна и равна p.

Т.е. для того, чтобы использовать биномиальное распределение нужно сделать два предположения:
1. Предположим, что эксперименты независимы
2. Предположим, что с течением времени вероятность того, что случайный пользователь поставит плюс не меняется со временем.

Аксиоматика применения бета функции. Вариант 1.

В этом случае, следуя центральной предельной теореме, мы получим то же самое нормальное распределение, а оно всё-таки менее гибкое, чем бета.

1. Предположим, что эксперименты независимы
2.Предположим, что с течением времени вероятность того, что случайный пользователь поставит плюс не меняется со временем.
3. Предположим, что число голосований у нас достаточно большое (чтобы можно было ЦПТ применять).
4. Предположим, что нормальное распределение можно описать бета распределением.

На 3 шаге мы часть голосований отсеиваем. С числом голосов менее 30. И теряем точность. От 4ого волосы дыбом встают.

Аксиоматика применения бета функции. Вариант 2.
И я не вижу ни одной причины, почему бета-распределение должно описывать эти оценки хуже, чем биномиальное.

1. Презумпция невиновности можно экстраполировать и на распределения.
2. Очевидных доказательств того, то бета функция плохо описывает сабж нету.

ну машину обмануть всегда можно. Технически избавиться тоже сложно. У дружеской SEO студии есть 10.000 тыс. апишников (для парсинга выдачи гугл). Если авторизация через вконтакте, то я за пару часов могу взять пару тысяч ботов вконтакте.

Единственный 100% вариант только сложная капча при голосовании. Либо при регистрации и голосовать могут только авторизованные пользователи. Однако, это не всегда уместно. Во вторых, возможен флеш моб.
Правда не уверен, что её можно прямо переносить на психологию и социологию, вернее не столько практику, сколько такие простые гипотезы о распределении, не учитывающие, например «стадность» оценок.
Мы не знаем причин почему часть испытаний показывает неадекватный результат, но это нам не мешает их отбросить.
одной-единственной формулой

это не формула, а семейство кривых. Возможных формул в семействе кривых бесконечное множество.

без учета внешних факторов

В модели учесть все факторы нельзя (поскольку их бесконечное число). Главное чтобы модель подтверждалась практикой. На сайтах у которых открыт рейтинг(imdb и гугл сторе) распределение близко к бета.

усреднение результатов

Рейтинг это средняя оценка. Тоже усреднение.

В тер. вере есть несколько «средних».

Например, ВВП на душу населения это мат. ожидание, но оно не характеризует как живет средний человек. Может быть все деньги украли олигархи и 99% населения в нищете.
Поэтому вводиться «медиана». Допустим у нас 1000 человек мы отсортируем их по доходу и доход человека под номером 500 будет медианой.
После среза по бета функции среднее немного сдвинется к медиане.
Доказать

Доказать на практике ничего нельзя. Например, во всей физике строго математически ничего не доказано. Либо используется модель и из не что-то получается (механика) или по эмпирическим данным строиться какая-то красивая формула.

Можно найти такую модель, использование которой противоречит здравому смыслу и не сильно расчеты по ней расходятся с практикой. Если вы заглянете на IMDB, то увидите, что распределение голосов хорошо описывается бета функцией.
Если знать закон распределения,

если знать само распределение а не его вид, то рейтинг не нужен можно просто мат. ожидание посчитать
play.google.com/store/apps/details?id=com.google.android.gm&feature=more_from_developer — здесь единицы срежутся. В остальных случаях почти ничего не срежеться.
определить где накрутка математически нельзя.

Информация

В рейтинге
Не участвует
Откуда
Одесса, Одесская обл., Украина
Дата рождения
Зарегистрирован
Активность