Рабочая гипотеза для проверки
На хабре обитает или, скорее, работает, группа граждан,
НЕ пишущих статьи или написавших 1 (одну) проходную статью «как я побывал в обществе чистых тарелок», и
При этом так же НЕ активно пишущих комментарии.
Но при этом появляясь почти исключительно с идейно верным речекряком — санкции только на пользу, 1с сейчас быстро заменим SAP, (sed ‑i «nebula|настоящий русский продукт») — и этот продукт вторичный однозначно будет иметь успех на западном рынке.
Отдельно надо выделить группу комментаторов, которым нравится советский учебник истории, и не нравится Мозохин (Олег Борисович), Мухин (Михаил Юрьевич) и Вознесенский (Николай Алексеевич). Я все понимаю, читать про неунывающего и мужественного Сталина и изобретательного и находчивого Кагановича намного интересней, чем дневники Малышева и Бирюкова.
Количественная оценка
Возьмем последние 20 постов, набравших больше +100, и с примерно 100 и больее комментариями.
При этом: выбрать без регистрации фильтр — нельзя, за что такое угнетение.
При этом: фильтра «наиболее обсуждаемое» — нельзя, только ручной отбор.
Статистика отбора:
чистый плюс | комментарии | ссылка |
122 | 92 | |
100 | 158 | |
107 | 100 | |
114 | 152 | |
247 | 133 | |
161 | 164 | |
133 | 365 | |
176 | 133 | |
187 | 160 | |
227 | 1097 | |
273 | 779 | |
146 | 163 | |
105 | 157 | |
357 | 741 | |
124 | 262 | |
259 | 190 | |
532 | 832 | |
183 | 135 | |
119 | 654 | |
141 | 272 | |
202 | 491 |
Проведем простой анализ. Необходимо
Собрать всех комментаторов из комментариев.
Выбрать из них — уникальных.
Провести анализ комментаторов, в разрезе юзер \ публикации \ комментарии \ Зарегистрирован \ приглашен — и эта разница будет особо интересна.
В том числе можно будет посчитать разницу между «приглашен» и числом комментариев, и заодно — год регистрации. Какие цифры это даст, и попитонить на досуге.
Пожалуй, попитонить — единственная полезная задача в списке.
Конечно, после сбора статистики надо проводить анализ текста комментариев. Можно вручную, вне контекста просмотреть комментарии, можно попробовать потренировать нейросетку, но это ничуть не менее долго, и все равно нужен массив образцов. Это время, и, самое главное — нужно как‑то из контекста оценивать — стоит ли тег сарказм, s/, закрыт ли он после сарказма, и что внутри остальных комментариев. Может, автор комментария обычный гречневый (ранее: глубинарий), или поридж (ранее: МД). Или у автора в силу каких‑то причин присутствуют необратимые изменения МНУ, отчего он и строчит на хабр нетленки про всеобщую теорию всего — такого тоже полно. На этой неделе уже появилс пост не просто про Эйнштейн‑неправ, но и про ходящую по краю «влияния Ориона на чакры» как‑бы‑почти‑медицину.
Но — к делу.
За время с момента сбора статистики что‑то пошло не так у следующих учетных записей:
https://habr.com/ru/users/AtmosferaVA/ — слив кармы в RO. Много минусов у пары комментариев.
https://habr.com/ru/users/shasoftX/ — слив кармы в RO.Много минусов у пары комментариев.
https://habr.com/ru/users/ItsNickname/ — карма 0, но RO. Бан то есть.
https://habr.com/ru/users/Polarisru/ — RO,но нет минусованных комментариев, удалены?
https://habr.com/ru/users/SerJook/ — RO,но нет минусованных комментариев, удалены?
https://habr.com/ru/users/VasiliyMakogon/ — RO, токсик конечно, в оставшихся комментариях типа такого резал правду иногда как есть. За что бан — не понятно.
К математике: (месяц считался как разница в днях между 21.02.2024 и регистраций /30 плюс 1, то есть 1.1 месяца шло за 2):
Среднее число постов в месяц — 0.21
Среднее число комментариев в месяц — 7.87
Среднеквадратичное отклонение для постов — 3.02
Среднеквадратичное отклонение для комментариев — 20.74
Это означает, что кто‑то пишет ОЧЕНЬ много постов — и это копирайтеры, пишушие про все подряд, плюс новости.
Возьмем только тех, кто пишет больше 1 поста в два дня или 15 постов в 30 дней. Ничего удивительного в списке —
https://habr.com/ru/users/marks/ — 7399 статей
https://habr.com/ru/users/ancotir/ — 2510 статей
https://habr.com/ru/users/daniilshat/ — 2305 статей (и новостей)
https://habr.com/ru/users/denis-19/ — 8228 статей (и новостей)
Кстати, больше 10 статей в месяц даже у меня, ну я и спамер.
Что, если больше 5 статей в месяц? Добавится:
https://habr.com/ru/users/Bright_Translate/ — 400 статей, переводы, Блог компании RUVDS
https://habr.com/ru/users/DrArgentum/ — 25 статей с 18 ноября 2023 — Блог компании Timeweb Cloud
Что, если больше 3? Добавится:
https://habr.com/ru/users/habr_career/ — понятно
https://habr.com/ru/users/BabayMazay/ — Блог компании RUVDS.com
https://habr.com/ru/users/DRoman0v/ — Блог компании Selectel
Да вы издеваетесь, одни корпоративные блоги. Что насчет >2?
https://habr.com/ru/users/MaFrance351/ — 47 статей. Блог компании Timeweb Cloud
Что насчет > 1?
https://habr.com/ru/users/jasiejames/ — Блог компании FirstVDS
https://habr.com/ru/users/rukhi7/ — о, первый не корпоративный блог. 27 статей с 10 октября 2022. Что‑то про С#.
https://habr.com/ru/users/tormozedison/ — 113 статей с 2015 года, но последняя статья 11 июня 2019. 5 лет не пишет, и все равно в топе по производительности.
https://habr.com/ru/users/CyberexTech/ — Блог компании Timeweb Cloud.
https://habr.com/ru/users/MaksimEng/ — 9 статей с 2 августа 2023.
https://habr.com/ru/users/N‑Cube/ — Блог компании AdminVPS, не пишет с июля 2023. Компания AdminVPS временно не ведёт блог на Хабре.
https://habr.com/ru/users/OldFashionedEngineer/ — Блог компании Timeweb Cloud
https://habr.com/ru/users/Suvitruf/ — 205 статей, не корпоративный блог — честные новости геймдева.
https://habr.com/ru/users/Tzimie/ — 90 статей, не корпоративный блог, пишет интересно про SQL и всякую космогонию.
Тем не менее, получается что всех, у кого больше 1 (одной) статьи в месяц — можно и нужно убирать из статически значимой выборки. Это всего 20 (двадцать) участников. Останется 1576, и распределение станет следующим:
Среднее число статей в месяц 0.03
Среднее число комментариев в месяц 7.44
Среднеквадратичное отклонение для статей 0.099
Среднеквадратичное отклонение для комментариев 18.79
От так вот. Средний участник дискуссий пишет 0.03 статьи в месяц.
Что с комментариями? Как‑то не великоват ли разброс? Хотя я и сам флудер — был номер один, пока не слили карму, стал номер 2.
Оказывается, всего 12 (двенадцать) человек из оставшейся выборки (1576 УЗ) оставляет больше 75 комментариев в месяц.
Уберем и их из статистики. Получим распределение: (округление round(x,4))
Среднее число статей в месяц 0.0306
Среднее число комментариев в месяц 6.307
Среднеквадратичное отклонение для статей 0.0979
Среднеквадратичное отклонение для комментариев 11.0683
Хорошо как упало отклонение с 18.79, а ведь убрал всего 32 человек из статистики, из 1596. 2% справа, получается.
Может, оценить молчунов с менее чем 0.1 комментария в месяц? Сколько таких? Таких в оставшейся выборке выше — 136 человек, 8.7%
Встречается удивительное:
https://habr.com/ru/users/fion/ — регистрация 6 ноября 2012, 1 (один) комментарий от 14.02.2024
https://habr.com/ru/users/g992/ — регистрация 7 мая 2019, 2 (два) комментария — 02.02 и 11.02.2024
https://habr.com/ru/users/nsinitsyn/ — регистрация 2 марта 2013, 1 (один) комментарий от 30.01.2024
Таких учетных записей, на самом деле, больше — судя по соотношению даты регистрации к первому комментарию или первой статье, многих заморозили в 2012–2016 и разморозили в конце декабря 2022.
Пока писал статью, разморозился еще один комментатор:
@viruslab — Зарегистрирован 15 октября 2011, 1 (один) комментарий 21.02.2024.
Или где‑то баг обработки даты регистрации.
Сколько же молчунов с менее чем 0.2 комментариев в месяц, из, напоминаю, активных комментаторов последних 20 горячих постов? Их 221 из 1564, 14%.
Посмотрим на правила: https://habr.com/ru/docs/help/karma/
Голосовать за карму в плюс можно с рейтингом 2 и более. Из молчунов таковых 41 учетная запись.
Рассмотрим подробнее, например:
https://habr.com/ru/users/Lodinn/ — 19 комментариев, регистрация 5 декабря 2012, первый комментарий 15.01.2024.
Смотреть по остальным таким учетным записям дату первого комментария уже лень. Случайная проверка дает разброс из серии «писал раз в год для корпоративного блога» и «пишет что‑то раз в год», дальше автоматизировать расчет стало сложнее, потому что надо жать кнопочки Next в статистике, значит подтягивать selenium, что‑то нажимать. Избыточно.
Ради чего все это писалось и считалось
Во‑первых, мне было интересно посмотреть, что в статистике. И немного попитонить в свободное время, не все же в алгоритмах сидеть. Хотя, алгоритмы полезные, даже что‑то применилось.
Оказалось, что статистику можно было тащить из og:description и не огорчаться при виде русской К в учете комментариев и статей.
Во‑вторых, у меня было несколько гипотез, в том числе:
Существует статистически значимая группа учетных записей, комментирующих что‑то или раз в год, или зарегистрировавшаяся давно, но начавшая комментировать недавно.
Проверка: подтверждено, 248 комментаторов из 1564 пишут менее 0.25 комментариев в месяц. 15.85%. Выборочные примеры разморозки — выше.
Существует масса «только комментаторов».
Проверка: подтверждено. Только у 554 участников последней выборки (из 1564 ) было больше 0 (ноля) статей. У 1011, соответственно, статей нет.
Существует статистически значимая группа учетных записей, комментирующих что‑то раз в год, но способная качать карму.
Сколько учетных записей имеют хотя бы 1 статьи и рейтинг 4+, чтобы можно было играть в кармослив? 465 учетных записей.
При этом 316 участников выборки имели 0 (ноль) статей и карму > 1, то есть могли качать карму в положительную сторону.
Например, 0 постов, карма >1 и менее 0.25 комментариев в месяц из данной выборки у 29 учетных записей. Если поднять порог до 0.3 комментариев в месяц, то таких учетных записей будет 38.
Как‑то так. Похоже, что корпоративные блоггеры, и не только, с увлечением играют в кармослив, в том числе и за неверие в остеопатию.
Прошлые статьи из цикла:
Послесловие. Я вообще хотел и написал статью про оземпик, как продолжение этой, но, внезапно, статья про оземпик и статистика по нему набирают минусы, а остеопатия — плюсы. ШТОШ.