Pull to refresh

Анализируй это или статистика авторов и комментаторов Хабра

Reading time8 min
Views3.4K

Рабочая гипотеза для проверки

На хабре обитает или, скорее, работает, группа граждан,

  • НЕ пишущих статьи или написавших 1 (одну) проходную статью «как я побывал в обществе чистых тарелок», и

  • При этом так же НЕ активно пишущих комментарии.

  • Но при этом появляясь почти исключительно с идейно верным речекряком — санкции только на пользу, 1с сейчас быстро заменим SAP, (sed ‑i «nebula|настоящий русский продукт») — и этот продукт вторичный однозначно будет иметь успех на западном рынке.

  • Отдельно надо выделить группу комментаторов, которым нравится советский учебник истории, и не нравится Мозохин (Олег Борисович), Мухин (Михаил Юрьевич) и Вознесенский (Николай Алексеевич). Я все понимаю, читать про неунывающего и мужественного Сталина и изобретательного и находчивого Кагановича намного интересней, чем дневники Малышева и Бирюкова.

Количественная оценка

Возьмем последние 20 постов, набравших больше +100, и с примерно 100 и больее комментариями.

При этом: выбрать без регистрации фильтр — нельзя, за что такое угнетение.

При этом: фильтра «наиболее обсуждаемое» — нельзя, только ручной отбор.
Статистика отбора:

Проведем простой анализ. Необходимо

  1. Собрать всех комментаторов из комментариев.

  2. Выбрать из них — уникальных.

  3. Провести анализ комментаторов, в разрезе юзер \ публикации \ комментарии \ Зарегистрирован \ приглашен — и эта разница будет особо интересна.

В том числе можно будет посчитать разницу между «приглашен» и числом комментариев, и заодно — год регистрации. Какие цифры это даст, и попитонить на досуге.

Пожалуй, попитонить — единственная полезная задача в списке.

Конечно, после сбора статистики надо проводить анализ текста комментариев. Можно вручную, вне контекста просмотреть комментарии, можно попробовать потренировать нейросетку, но это ничуть не менее долго, и все равно нужен массив образцов. Это время, и, самое главное — нужно как‑то из контекста оценивать — стоит ли тег сарказм, s/, закрыт ли он после сарказма, и что внутри остальных комментариев. Может, автор комментария обычный гречневый (ранее: глубинарий), или поридж (ранее: МД). Или у автора в силу каких‑то причин присутствуют необратимые изменения МНУ, отчего он и строчит на хабр нетленки про всеобщую теорию всего — такого тоже полно. На этой неделе уже появилс пост не просто про Эйнштейн‑неправ, но и про ходящую по краю «влияния Ориона на чакры» как‑бы‑почти‑медицину.

Но — к делу.

За время с момента сбора статистики что‑то пошло не так у следующих учетных записей:

К математике: (месяц считался как разница в днях между 21.02.2024 и регистраций /30 плюс 1, то есть 1.1 месяца шло за 2):

  • Среднее число постов в месяц — 0.21

  • Среднее число комментариев в месяц — 7.87

  • Среднеквадратичное отклонение для постов — 3.02

  • Среднеквадратичное отклонение для комментариев — 20.74

  • Это означает, что кто‑то пишет ОЧЕНЬ много постов — и это копирайтеры, пишушие про все подряд, плюс новости.

Возьмем только тех, кто пишет больше 1 поста в два дня или 15 постов в 30 дней. Ничего удивительного в списке —

  • https://habr.com/ru/users/marks/ — 7399 статей

  • https://habr.com/ru/users/ancotir/ — 2510 статей

  • https://habr.com/ru/users/daniilshat/ — 2305 статей (и новостей)

  • https://habr.com/ru/users/denis-19/ — 8228 статей (и новостей)

Кстати, больше 10 статей в месяц даже у меня, ну я и спамер.

Что, если больше 5 статей в месяц? Добавится:

Что, если больше 3? Добавится:

  • https://habr.com/ru/users/habr_career/ — понятно

  • https://habr.com/ru/users/BabayMazay/ — Блог компании RUVDS.com

  • https://habr.com/ru/users/DRoman0v/ — Блог компании Selectel

Да вы издеваетесь, одни корпоративные блоги. Что насчет >2?

Что насчет > 1?

  • https://habr.com/ru/users/jasiejames/ — Блог компании FirstVDS

  • https://habr.com/ru/users/rukhi7/ — о, первый не корпоративный блог. 27 статей с 10 октября 2022. Что‑то про С#.

  • https://habr.com/ru/users/tormozedison/ — 113 статей с 2015 года, но последняя статья 11 июня 2019. 5 лет не пишет, и все равно в топе по производительности.

  • https://habr.com/ru/users/CyberexTech/ — Блог компании Timeweb Cloud.

  • https://habr.com/ru/users/MaksimEng/ — 9 статей с 2 августа 2023.

  • https://habr.com/ru/users/N‑Cube/ — Блог компании AdminVPS, не пишет с июля 2023. Компания AdminVPS временно не ведёт блог на Хабре.

  • https://habr.com/ru/users/OldFashionedEngineer/ — Блог компании Timeweb Cloud

  • https://habr.com/ru/users/Suvitruf/ — 205 статей, не корпоративный блог — честные новости геймдева.

  • https://habr.com/ru/users/Tzimie/ — 90 статей, не корпоративный блог, пишет интересно про SQL и всякую космогонию.

Тем не менее, получается что всех, у кого больше 1 (одной) статьи в месяц — можно и нужно убирать из статически значимой выборки. Это всего 20 (двадцать) участников. Останется 1576, и распределение станет следующим:

  • Среднее число статей в месяц 0.03

  • Среднее число комментариев в месяц 7.44

  • Среднеквадратичное отклонение для статей 0.099

  • Среднеквадратичное отклонение для комментариев 18.79

От так вот. Средний участник дискуссий пишет 0.03 статьи в месяц.

Что с комментариями? Как‑то не великоват ли разброс? Хотя я и сам флудер — был номер один, пока не слили карму, стал номер 2.

Оказывается, всего 12 (двенадцать) человек из оставшейся выборки (1576 УЗ) оставляет больше 75 комментариев в месяц.

Уберем и их из статистики. Получим распределение: (округление round(x,4))

  • Среднее число статей в месяц 0.0306

  • Среднее число комментариев в месяц 6.307

  • Среднеквадратичное отклонение для статей 0.0979

  • Среднеквадратичное отклонение для комментариев 11.0683

Хорошо как упало отклонение с 18.79, а ведь убрал всего 32 человек из статистики, из 1596. 2% справа, получается.

Может, оценить молчунов с менее чем 0.1 комментария в месяц? Сколько таких? Таких в оставшейся выборке выше — 136 человек, 8.7%

Встречается  удивительное:

  • https://habr.com/ru/users/fion/ — регистрация 6 ноября 2012, 1 (один) комментарий от 14.02.2024

  • https://habr.com/ru/users/g992/ — регистрация 7 мая 2019, 2 (два) комментария — 02.02 и 11.02.2024

  • https://habr.com/ru/users/nsinitsyn/ — регистрация 2 марта 2013, 1 (один) комментарий от 30.01.2024

Таких учетных записей, на самом деле, больше — судя по соотношению даты регистрации к первому комментарию или первой статье, многих заморозили в 2012–2016 и разморозили в конце декабря 2022.

Пока писал статью, разморозился еще один комментатор:

@viruslab — Зарегистрирован 15 октября 2011, 1 (один) комментарий 21.02.2024.

Или где‑то баг обработки даты регистрации.

Сколько же молчунов с менее чем 0.2 комментариев в месяц, из, напоминаю, активных комментаторов последних 20 горячих постов? Их 221 из 1564, 14%.

Посмотрим на правила: https://habr.com/ru/docs/help/karma/

Голосовать за карму в плюс можно с рейтингом 2 и более. Из молчунов таковых 41 учетная запись.

Рассмотрим подробнее, например:

https://habr.com/ru/users/Lodinn/ — 19 комментариев, регистрация 5 декабря 2012, первый комментарий 15.01.2024.

Смотреть по остальным таким учетным записям дату первого комментария уже лень. Случайная проверка дает разброс из серии «писал раз в год для корпоративного блога» и «пишет что‑то раз в год», дальше автоматизировать расчет стало сложнее, потому что надо жать кнопочки Next в статистике, значит подтягивать selenium, что‑то нажимать. Избыточно.

Ради чего все это писалось и считалось

Во‑первых, мне было интересно посмотреть, что в статистике. И немного попитонить в свободное время, не все же в алгоритмах сидеть. Хотя, алгоритмы полезные, даже что‑то применилось.

Оказалось, что статистику можно было тащить из og:description и не огорчаться при виде русской К в учете комментариев и статей.

Во‑вторых, у меня было несколько гипотез, в том числе:

Существует статистически значимая группа учетных записей, комментирующих что‑то или раз в год, или зарегистрировавшаяся давно, но начавшая комментировать недавно.

Проверка: подтверждено, 248 комментаторов из 1564 пишут менее 0.25 комментариев в месяц. 15.85%. Выборочные примеры разморозки — выше.

Существует масса «только комментаторов».

Проверка: подтверждено. Только у 554 участников последней выборки (из 1564 ) было больше 0 (ноля) статей. У 1011, соответственно, статей нет.

Существует статистически значимая группа учетных записей, комментирующих что‑то раз в год, но способная качать карму.

Сколько учетных записей имеют хотя бы 1 статьи и рейтинг 4+, чтобы можно было играть в кармослив? 465 учетных записей.

При этом 316 участников выборки имели 0 (ноль) статей и карму > 1, то есть могли качать карму в положительную сторону.

Например, 0 постов, карма >1 и менее 0.25 комментариев в месяц из данной выборки у 29 учетных записей. Если поднять порог до 0.3 комментариев в месяц, то таких учетных записей будет 38.

Как‑то так. Похоже, что корпоративные блоггеры, и не только, с увлечением играют в кармослив, в том числе и за неверие в остеопатию.

Прошлые статьи из цикла:

  1. Скучные цифры статистики и невнятная попытка их показать

  2. MHGA или как вообще подбирается новостная сводка?

  3. MHGA — что же могло пойти не так и куда бежать

Послесловие. Я вообще хотел и написал статью про оземпик, как продолжение этой, но, внезапно, статья про оземпик и статистика по нему набирают минусы, а остеопатия — плюсы. ШТОШ.

Tags:
Hubs:
Total votes 41: ↑23 and ↓18+14
Comments68

Articles