kxx20 сен 2016 в 22:15

ANOVA, или кто комментирует?

8 мин

26K

Data Mining * R * Алгоритмы * Математика * Машинное обучение *

+22

Комментарии 28

dimview 20 сен 2016 в 23:37

> при большом количестве данных (у нас есть тысячи измерений) нарушение предположения о нормальности данных оказывает гораздо меньшее влияние на результат, чем в случае с малой выборкой.

Нарушение предположения о нормальности влияет на результат вне зависимости от размера выборки. Просто на большой выборке мы можем увидеть микроскопические отклонения от нормальности, а на маленькой они неотличимы от шума.

synedra 21 сен 2016 в 02:36

Для среднего пользователя (не отхабренного и не обладателя мегатонн кармы типа Milfgard) и карма, и количество оставленных комментариев более-менее монотонно растут со временем. Поправки на возраст аккаунта вы, кажется, не делали. Изменит ли она результат?

Milfgard 21 сен 2016 в 02:55

Нужна поправка на активность в постах. Очевидно, к своим постам надо отвечать чаще.

APXEOLOG 21 сен 2016 в 04:34

Мне кажется, что аудитория хабра достаточно адекватна, чтобы не вестись на геймификацию. Если честно, не знаю зачем вообще тут эта карма. А комментариев нет, потому что сказать нечего. Большинство статей идут в новостном формате, как (а главное зачем) комментировать набор фактов?

SirEdvin 21 сен 2016 в 06:03

Тут еще проблема в том, что чем меньше карма — тем больше ограничений.

Randl 21 сен 2016 в 07:19

Да ладно вам, куча людей трясется за карму)

anprs 22 сен 2016 в 07:16

Карма нужна для того чтобы отсеять неадекватов и осложнить жизнь троллям

AgentSmith 21 сен 2016 в 05:29

Некоторые редко комментируют из-за того, что карма такая ;) а не из-за того, что боятся её потерять.
P.S. пересматривайте свой алгоритм

napa3um 21 сен 2016 в 07:00

На мой взгляд, причина и следствие в исследовании поменялись местами. Кто много комментирует (больше, чем в среднем остальные), у тех карма либо идёт в минус (комментарии вызывают негатив у аудитории), либо идёт в плюс (комментарии вызывают позитив).

hungry_ewok 21 сен 2016 в 07:54

/флегматично/

Неправильно. Комментарии, судя по плюсам, могут вызывать позитив, что совершенно не будет мешать сливать карму.

napa3um 21 сен 2016 в 07:56

Может и так происходить, может и эдак. Но мы говорим, всё-таки, о гипотезах, проверяемых в статье.

НЛО прилетело и опубликовало эту надпись здесь

napa3um 21 сен 2016 в 08:38

Согласен. Вообще, статистически выводить поведение хаотических систем (к которым в общем случае относятся и люди) без заранее заданных аналитических моделей обобщённого поведения этих систем — всегда очень грубое упрощение, работающее только в случае сильного преобладания локального примитивного мотива (абсолютной рационализации входного значения кармы) над «социальной» составляющей (т.е., когда неявно задаётся «однонейронная» аналитическая модель «мотив(карма) => действие»). Если бы такая модель работала, это очень нелестно бы характеризовало контингент комментаторов Хабры.

НЛО прилетело и опубликовало эту надпись здесь

xuexi 21 сен 2016 в 08:57

Фактор Илона Маска в динамике показателей кармы на ИТ-ресурсе.

Oxoron 21 сен 2016 в 05:46

Еще из неучтенного — юзеры заведенные специально для комментариев.
R&C, карма меньше 5.

kxx 21 сен 2016 в 10:42

Да, такие пользователи вносят «bias» в выводы, но, емнип, аккаунты R&C ввели не так уж давно.

Randl 21 сен 2016 в 07:20

В принципе, то, что больше комментируют те у кого карма побольше не значит, что люди не комментируют, боясь потерять карму.

OtshelnikFm 21 сен 2016 в 07:28

Ситуация на хабре и гиктаймсе говорит о том, что у ТМ не все хорошо. Иначе они не открывали бы коментарии всем юзерам. Когда станет совсем плохо и карму уберут. А все для того — чтобы увеличить поведенческие факторы. А комментарии их увеличивают.

По статье — сам лично не смотрю на отрицательную карму и комментирую если мне интересно и хочется оставить комментарий. Да — выбраться из минусовой кармы больше, кроме как написать статью, нельзя. Но со мной этот шантаж не пройдет. Я считаю это именно шантажом — т.к. других вариантов не дают. — Всё, опять же, для того, чтоб на ТМ появлялось больше статей. И не важно что они околобредовые. ТМ нужны новые «маффины»

jzha 21 сен 2016 в 08:15

Спасибо за подробную публикацию по статистике!

Позвольте, добавлю несколько слов
1) Свободный член в линейной модели убирать не стоит. Функция aov — обёртка для построения такой модели lm(comments_log ~ karma_cut),
в которой Вы как раз получаете F-statistic: 556.2 on 6 and 14668 DF, а не 1.719e+04 on 7.
2) Возможно, стоит упомянуть о линейных контрастах в моделях — более общая и гибкая альтернатива парным сравнениям (в частности, HSD тесту Тьюки). Этот метод реализован в функции glht пакета `multcomp`.

kxx 21 сен 2016 в 10:36

Насчет F-statistic согласен, но тогда не так наглядно будет видна связь между лог-комментариями и групповыми средними, т.е. уравнение будет чуть сложнее comments_log_ij = intercept + group_mean_i + e_ij.

jzha 21 сен 2016 в 12:09

Уравнение будет чуть другим: comments_log_ij = intercept + delta_i + e_ij. Связь видна, на мой взгляд, даже более наглядно — с ростом номера интервала в karma_cut, величина delta почти всегда растет и значимо отличается от 0.
Тогда как в summary модели m.lm < — lm(comments_log ~ karma_cut — 1) мы видим, что средние для всех групп значимо отличаются от 0. Для вашей задачи, как мне кажется, это не так существенно.

Но главное — взять и выполнить команду anova(m.lm), просто позабыв о таком задании модели. И тогда, без свободного члена в модели, можно получить ложное отклонение нулевой гипотезы.

xuexi 21 сен 2016 в 08:24

Вспомнилось исследование про Википедию, упомянутое тут https://geektimes.ru/post/277336/
Вы не пробовали анализировать статистику с социальных позиций?

kxx 21 сен 2016 в 10:16

Уточните, пожалуйста, что вы подразумеваете под анализом «с социальных позиций».

xuexi 21 сен 2016 в 11:24

Такой анализ, который бы учитывал контекст комментариев и статей, тему поста (политика, экономика, россия, не россия, илон маск, роскомнадзор) и динамику кармы в этих постах. И тому подобное.

napa3um 21 сен 2016 в 11:32

Поиграть шрифтами.

LoadRunner 21 сен 2016 в 12:03

Было бы интересно сравнить данные по Хабру и Гиктаймсу для одних и тех же пользователей — карма же на каждой своя.
Тогда бы вскрылся такой фактор, как «тема интересная, чего бы не обсудить».
Ведь люди обычно комментируют те статьи, которые находятся в хабах, на которые они подписаны и читают.
И тут карма уже не играет роли, только если она не отрицательная, что мешает комментированию тогда, когда хочется, а не когда таймаут вышел.

toxicdream 26 сен 2016 в 05:07

Много кармы -> пиши комментарий сколько хочешь.
Мало или минус -> пиши сколько можешь.
Кармы 0..50 -> сиди и не высовывайся :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий