Как стать автором
Обновить

Комментарии 28

> при большом количестве данных (у нас есть тысячи измерений) нарушение предположения о нормальности данных оказывает гораздо меньшее влияние на результат, чем в случае с малой выборкой.

Нарушение предположения о нормальности влияет на результат вне зависимости от размера выборки. Просто на большой выборке мы можем увидеть микроскопические отклонения от нормальности, а на маленькой они неотличимы от шума.
Для среднего пользователя (не отхабренного и не обладателя мегатонн кармы типа Milfgard) и карма, и количество оставленных комментариев более-менее монотонно растут со временем. Поправки на возраст аккаунта вы, кажется, не делали. Изменит ли она результат?
Нужна поправка на активность в постах. Очевидно, к своим постам надо отвечать чаще.
Мне кажется, что аудитория хабра достаточно адекватна, чтобы не вестись на геймификацию. Если честно, не знаю зачем вообще тут эта карма. А комментариев нет, потому что сказать нечего. Большинство статей идут в новостном формате, как (а главное зачем) комментировать набор фактов?
Тут еще проблема в том, что чем меньше карма — тем больше ограничений.

Да ладно вам, куча людей трясется за карму)

Карма нужна для того чтобы отсеять неадекватов и осложнить жизнь троллям
Некоторые редко комментируют из-за того, что карма такая ;) а не из-за того, что боятся её потерять.
P.S. пересматривайте свой алгоритм

На мой взгляд, причина и следствие в исследовании поменялись местами. Кто много комментирует (больше, чем в среднем остальные), у тех карма либо идёт в минус (комментарии вызывают негатив у аудитории), либо идёт в плюс (комментарии вызывают позитив).
/флегматично/

Неправильно. Комментарии, судя по плюсам, могут вызывать позитив, что совершенно не будет мешать сливать карму.
Может и так происходить, может и эдак. Но мы говорим, всё-таки, о гипотезах, проверяемых в статье.
НЛО прилетело и опубликовало эту надпись здесь
Согласен. Вообще, статистически выводить поведение хаотических систем (к которым в общем случае относятся и люди) без заранее заданных аналитических моделей обобщённого поведения этих систем — всегда очень грубое упрощение, работающее только в случае сильного преобладания локального примитивного мотива (абсолютной рационализации входного значения кармы) над «социальной» составляющей (т.е., когда неявно задаётся «однонейронная» аналитическая модель «мотив(карма) => действие»). Если бы такая модель работала, это очень нелестно бы характеризовало контингент комментаторов Хабры.
НЛО прилетело и опубликовало эту надпись здесь

Фактор Илона Маска в динамике показателей кармы на ИТ-ресурсе.

Да, такие пользователи вносят «bias» в выводы, но, емнип, аккаунты R&C ввели не так уж давно.

В принципе, то, что больше комментируют те у кого карма побольше не значит, что люди не комментируют, боясь потерять карму.

Ситуация на хабре и гиктаймсе говорит о том, что у ТМ не все хорошо. Иначе они не открывали бы коментарии всем юзерам. Когда станет совсем плохо и карму уберут. А все для того — чтобы увеличить поведенческие факторы. А комментарии их увеличивают.

По статье — сам лично не смотрю на отрицательную карму и комментирую если мне интересно и хочется оставить комментарий. Да — выбраться из минусовой кармы больше, кроме как написать статью, нельзя. Но со мной этот шантаж не пройдет. Я считаю это именно шантажом — т.к. других вариантов не дают. — Всё, опять же, для того, чтоб на ТМ появлялось больше статей. И не важно что они околобредовые. ТМ нужны новые «маффины»
Спасибо за подробную публикацию по статистике!

Позвольте, добавлю несколько слов
1) Свободный член в линейной модели убирать не стоит. Функция aov — обёртка для построения такой модели lm(comments_log ~ karma_cut),
в которой Вы как раз получаете F-statistic: 556.2 on 6 and 14668 DF, а не 1.719e+04 on 7.
2) Возможно, стоит упомянуть о линейных контрастах в моделях — более общая и гибкая альтернатива парным сравнениям (в частности, HSD тесту Тьюки). Этот метод реализован в функции glht пакета `multcomp`.
Насчет F-statistic согласен, но тогда не так наглядно будет видна связь между лог-комментариями и групповыми средними, т.е. уравнение будет чуть сложнее comments_log_ij = intercept + group_mean_i + e_ij.
Уравнение будет чуть другим: comments_log_ij = intercept + delta_i + e_ij. Связь видна, на мой взгляд, даже более наглядно — с ростом номера интервала в karma_cut, величина delta почти всегда растет и значимо отличается от 0.
Тогда как в summary модели m.lm < — lm(comments_log ~ karma_cut — 1) мы видим, что средние для всех групп значимо отличаются от 0. Для вашей задачи, как мне кажется, это не так существенно.

Но главное — взять и выполнить команду anova(m.lm), просто позабыв о таком задании модели. И тогда, без свободного члена в модели, можно получить ложное отклонение нулевой гипотезы.

Вспомнилось исследование про Википедию, упомянутое тут https://geektimes.ru/post/277336/
Вы не пробовали анализировать статистику с социальных позиций?

Уточните, пожалуйста, что вы подразумеваете под анализом «с социальных позиций».

Такой анализ, который бы учитывал контекст комментариев и статей, тему поста (политика, экономика, россия, не россия, илон маск, роскомнадзор) и динамику кармы в этих постах. И тому подобное.

Поиграть шрифтами.
Было бы интересно сравнить данные по Хабру и Гиктаймсу для одних и тех же пользователей — карма же на каждой своя.
Тогда бы вскрылся такой фактор, как «тема интересная, чего бы не обсудить».
Ведь люди обычно комментируют те статьи, которые находятся в хабах, на которые они подписаны и читают.
И тут карма уже не играет роли, только если она не отрицательная, что мешает комментированию тогда, когда хочется, а не когда таймаут вышел.
Много кармы -> пиши комментарий сколько хочешь.
Мало или минус -> пиши сколько можешь.
Кармы 0..50 -> сиди и не высовывайся :)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории