Хабрарейтинг 2020: Авторы vs Корпоративные Блоги

    Привет, Хабр.

    Наверное, практически все постоянные читатели и авторы сайта знают, что статьи здесь на сайте могут публиковаться как индивидуальными авторами, так и корпоративными аккаунтами. Невольно возникает «детский» вопрос — какие лучше? Какие статьи получают больше оценок и комментариев? К чему ближе корпоративные блоги — к надоедливой рекламе, которую можно лишь пролистать, или к полезной информации? Попробуем разобраться.

    Для тех кому интересно, продолжение под катом.

    Для начала, традиционный disclaimer: все приведенные данные неофициальные, и я не исключаю что нигде не ошибся. Вся информация была собрана парсером с помощью Python и обрабатывалась с помощью Pandas и Matplotlib.

    Кто выиграет, авторы или корпоративные блоги? Поехали.

    Количество публикаций


    Для начала ответим на самый простой вопрос — каких материалов публикуется больше?



    За 2020 год на момент написания текста в корпоративных блогах было опубликовано 9066 статей, индивидуальными авторами чуть больше — 9151. Но в принципе, эти числа можно считать более-менее одинаковыми, погрешность порядка 1%.

    Пока счет 1:1.

    Рейтинг


    Посмотрим, как обстоят дела с рейтингом. На графике по горизонтали расположен рейтинг, по вертикали — количество статей с данным рейтингом.



    Результат довольно любопытный, и для меня неожиданный. Как можно видеть, статьи в корпоративных блогах в среднем получают более высокие оценки. Особенно это видно по «заминусованным» статьям, имеющим негативный рейтинг, у индивидуальных авторов таких больше. Думаю, причина в том, что для блогов приглашают авторов с уже высокими рейтингами, пишущих более-менее качественные тексты. Плюс у компаний все же больше технических ресурсов создавать интересный материал (например, индивидуальные авторы не будут делать обзоры «железа» т.к. им его никто не оплачивает).

    Но есть и другая сторона: если рассматривать правую часть графика, то можно видеть, что среди статей с самым высоким рейтингом (100 и выше) индивидуальных авторов все же больше:



    В общем, корпоративные блоги в среднем выдают стабильно-качественный материал, но уникальных материалов у индивидуальных авторов таки больше. Но в среднем, я думаю, и здесь ничья. Общий счет 2:2.

    Комментарии


    Здесь результат, в принципе, ожидаем, статьи индивидуальных авторов комментируют больше. По горизонтали количество статей, по вертикали количество комментариев:



    Ожидаем результат имхо потому, что у индивидуальных авторов больше возможностей писать про что-то необычное, типа катушек Тесла, лазеров или электронных микроскопов, такими темами «корпорации» заниматься не будут. Но разница, честно говоря, незначительная. Больше удивил другой факт — примерно 1100 статей от индивидуальных авторов и 1700 статей корпоративных блогов имеют 0 комментариев, т.е. оказались либо совсем незамеченными, либо комментировать там, увы, нечего. С противоположной стороны распределения самая комментируемая статья автора mrtux набрала 2401 комментарий, а самая комментируемая статья из блога vdsina_m набрала 2028 комментариев.

    Так или иначе, по комментируемости индивидуальные авторы впереди, счет 3:2.

    Количество просмотров


    Аналогичную гистограмму можно сделать по количеству просмотров:



    Здесь какой-либо значимой разницы я не вижу вообще, можно предположить, что для читателей несущественно, кому принадлежит статья, отдельному автору или блогу. Опять ничья, окончательный счет 4:3.

    Общий итог: по большому счету, победила дружба :) Разница в целом весьма незначительная, обе стороны показали примерно равные результаты. Но формально индивидуальные авторы все же чуть впереди, что меня как автора радует — есть еще немало людей, делающих что-то интересное в плане хобби.

    Бонус


    Как бонус, пара интересных закономерностей, о которых спрашивали в комментариях и которые мне показались любопытными.

    Время публикации

    Все вполне очевидно, с корпоративных аккаунтов больше материалов публикуется в рабочее время с 10 до 18, индивидуальные авторы более активны вечером и ночью:



    С днями недели ситуация аналогичная:



    Неудивительно, что в выходные публикаций от индивидуальных авторов больше.

    Заключение


    Если честно, результаты для меня оказались несколько удивительными. Я был уверен, что материалы корпоративных блогов окажутся статистически где-то на уровне назойливой рекламы во время фильма, и их оценки будут заметно ниже. Теперь могу честно признать, что ошибался — в обоих случаях публикуется много качественных материалов, однозначно достойных прочтения.

    Всем желаю творческих успехов.
    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 51

      +7
      А вдруг корпоративные копирасты просто скрывают совсем уж вызывающе неудачные статьи, чтоб не получить по шапке?
        +1
        Как видно из второго графика, статьи с отрицательным рейтингом есть и в корпоративных блогах, и даже рейтинг в -20 наверно не предел :)
          +1

          Это те кто не вкурсе, что рейтинг минус 5 обратно никогда не выходит)

          +7

          Деление корпоративные/индивидуальные как мне кажется проведено формально. Так как фактически часть не корпоративных авторов фактически те же корпоративные. Если посмотреть ленту то впечатление что статей независимых индивидуальных авторов не более 10%.

            0
            В названии любой статьи корпоративного блога есть «Блог компании ХХХ», так что ошибиться тут сложно. Другой вопрос что некоторые авторы могут писать и для себя и для компании, такие тонкости я разумеется не анализировал.
              +1
              Могу вам точную статистику сказать: за период год ровно 50/50. И, как правило, UGC именно от пользователей (частных, не корпоративных) от 49 до 60%. Это, кстати, и на графиках DmitrySpb79 видно.
              фактически часть не корпоративных авторов фактически те же корпоративные
              Так рассуждать, мы почти все работаем в компаниях :-) Все немного корпоративные. Но полно же ситуаций, когда пользователи пишут от себя, не в блоге компании или блога их компании на Хабре и нет вовсе. Таких половина, прямо точно — активно пишущих и не увязанных с интересами компаний.
              +1
              Могу вам сказать, что скрывают очень редко, и обычно это не из-за минусов, а из-за не того формата публикации или совсем уж неудачного захода (например, выложили видео без расшифровки и каких-либо пояснений). Настолько редко, что этим значением можно пренебречь, считаные статьи в год.
                0
                Вот буквально только что IVI похерил статью. Тоже, наверное, неудачно зашли.
              +2
              Спасибо, было интересно! Но для меня самым интересным оказался Бонус. Не плохо бы еще получить распределение по времени самых рейтинговых, комментируемых и т.д. статей.
                0
                Можно получить из такого распределения какой-нибудь интересный вывод. Например, что лучше всего публиковать статью в полночь на Ивана Купалу.

                Если серьезно, то этот фактор наверняка ведь есть. Например, если 80% недельной аудитории, дающей статье полезный эффект, заходит в течение трех подряд идущих дней, то материал сильно проиграет от размещения непосредственно после этого интервала.
                +6

                Нужно посмотреть статистику по переводам. Корпоративные "авторы" по-моему публикуют переводы личных блогов с других ресурсов.

                  +3
                  Дмитрий, а, если не затруднит, сделайте первые два графика за вычетом переводов.
                    +1
                    Переводы пока не учитываются при парсинге.
                      +1
                      Если добавите такой функционал, то было бы интересно увидеть, например, квартальный отчет 21-го года.
                    +18
                    в среднем получают более высокие оценки

                    Есть очень много корп. блогов где очевидная накрутка плюсами идет. Ну, как накрутка. Компании где 20-30 человек есть на Хабре, зачастую резко плюсуют статью выводя на главную. Это очень хорошо видно, у таких компаний есть некоторый «минимальный» балл ниже которого не опускается.
                    Понятно, что это серая зона, по правилам так делать не запрещено, как я понимаю.

                    Но реально интересно было бы посмотреть на то насколько эта штука влияет. И посмотреть на топ-блоги по использованию:)
                    Но реально опасно такое делать так как бывают крутые авторы пишущие в корп-блоги. Можно зазря обвинить
                      +1
                      Если не ошибаюсь, плюсы могут ставить только зарегистрированные авторы статей? Даже если внутри компании разослать ссылку, сторонние юзеры плюсов не поставят (имхо). Да и для корпоративных блогов эти плюсы вещь виртуальная, в отличие от обычных статей, на монетизацию они не влияют, какой резон их накручивать… Наоборот оценка статьи это хорошая метрика для руководства имхо, чтобы понять как статья воспринимается.
                        +9
                        Администратор блога компании может выдавать приглашения на сайт, по которым выдается сразу полноправный аккаунт, без необходимости проходить со статьей через песочницу, как для простых смертных. Ничто не мешает раздать приглашения сотрудникам или даже самому себе, чтобы поднимать в рейтинге статьи своего блога.

                        Я не могу утверждать, что так кто-то делает, но технически вроде бы ничто этому не мешает.
                          0
                          Ну тогда да, все может быть :)
                            +3

                            Голосовать за статьи могут те, кто выпустил свою статью.

                              0
                              SMM компании может зарегистрировать десять аккаунтов, выпускать статьи поочерёдно под каждым из них, и таким образом получить десять аккаунтов с правом голосовать за статьи.
                                +1

                                Конечно может, но это довольно дорогое вложение — статьи должны не уйти в минус, карма аккаунтов — тоже. То есть по итогу в минимуме должно получиться 10 может и проходных, но не совсем стыдных материалов, которые надо подготовить, заверстать и так далее.

                                  +2
                                  Достаточно четырёх неплохих материалов — после этого виртуалы смогут сами друг друга плюсовать до необходимого уровня. То, что «сотрудники» одной компании массово друг друга плюсуют, даже не вызовет подозрений.
                              0
                              Делают конечно. На бизнес аккаунт отсыпается около 20 инвайтов, в зависимости от тарифа. Так что сделать группу лайкателей не так и сложно
                              +8
                              Ну, тут я писать не буду, но могу в личку скинуть несколько компаний где +20 получается через 2-3 часа после выхода статьи и потом не растет. При этом у таких компаний как-раз 20-30 сотрудников полноправных на хабре, с достаточными балами для плюсования.
                              Там вроде надо не то +5 не то +10 к карме для того чтобы ставить оценки. Это всего одна статья, что делается не сложно.

                              В моем представлении статья после публикации кидается в общий чат, и её все увидевшие плюсуют не читая.
                                +4
                                Тогда да, охотно верю, почему нет. Случаев когда в общий чат кидается ссылка типа «мы выложили пост в Linkedin/Facebook, проголосуйте кто хочет» видел не раз. Даже более того, думаю, все так делают, да и формально вроде ничего не нарушено :)

                                Проверить-то на самом деле просто, в соседней статье давали ссылку на API, надо лишь сделать простейший скрипт, раз в несколько минут сохранять данные из json по какой-либо статье из раскрученного блога в течении нескольких часов, работы на 10 минут, но лично мне лениво, результат наверно и так очевиден.
                                  +11
                                  Даже более того, думаю, все так делают, да и формально вроде ничего не нарушено :)

                                  Ну вот да. Я с этим согласен.

                                  При этом проблемы такого подхода в целом очевидны — в день где-то 5-10 статей которые там никогда бы не были, и скучны 99% пользователей — выходят в топ. Понижая вероятность выхода туда неплохих статей, которые были бы интересны уже 5-10% читателей, но не имеют такого буста.
                                    +1
                                    Если кому охота поэкспериментировать, вот решение в 15 строчек кода на Python по сбору статистики в CSV, данные обновляются раз в минуту:

                                    import datetime, time
                                    import requests  # pip install requests
                                    
                                    article_id = 533958  # Article ID
                                    print(f"https://habr.com/ru/post/{article_id}/,votes,score,comments,favourites")
                                    while True:
                                        try:
                                            r = requests.get("https://m.habr.com/kek/v2/articles/%d/" % article_id)
                                            stats = r.json()['statistics']
                                            print(f"{datetime.datetime.now().strftime('%d:%m:%YT%H:%M:%S')},{stats['votesCount']},{stats['score']},{stats['commentsCount']},{stats['favoritesCount']}")
                                        except Exception as _:
                                            pass
                                        time.sleep(60)

                                    Дальше можно по csv строить графики в Excel или где угодно.
                                  +2
                                  Совершенно верно. Подрабатываю в одной из таких компаний. Почти каждый день в слак кидается ссылка на хабр с просьбой поддержать «коллегу»
                                    0
                                    Можно ставить "-", а потом всей компанией играть в «мафию», выискивая минуснувшего — все развлечение.
                                      0
                                      тут регулярно появляются надписи «удалено нло» это, наверное, тех которых вычислили.
                                      0
                                      А сколько стоят услуги вашего слака?) В принципе, это вроде бы как нормально. Но не нормально, когда это забивает топ и гасит материалы сильнее но без наработанной аудитории для личного счета. У меня, по крайней мере, такой аудитории нет. Что есть, та точно не на хабре. Плюс это еще обессмысливает ППА.
                                      Хотя, казалось бы, нужно 20 человек. Всего 20 человек чтобы попасть в топ дня, преодолев первый фильтр.
                                        0
                                        Когда я работал программистом iOS, то «налить трафика» при релизе была совершено нормальная практика, и были довольно крупные сервисы, позволяющие покупать инсталлы в любом нужном количестве, и по большому счету имхо все топы АппСтора были (и наверно есть) куплены. Как сейчас не знаю, но вряд ли что-то изменилось. Вряд ли такое есть для Хабра, конечно, цена вопроса слишком мала :) ППА так вообще не менялась с 2016г, да и статей в день на Хабре сейчас думаю стало больше, в этом плане мотивация от ППА сейчас имхо почти около нуля. 3000р интересно разве что студенту, которые и то фиг получишь, из распределения рейтингов (2й график в статье) видно что +30 заработать крайне сложно, пик даже до +20 не доходит, когда на сайте 80 статей в день.
                                          0
                                          У нижеотписавшегося Meklon из 55 статей до +30 недобрали всего три, так что выхлоп от ППА зависит только от способностей автора.
                                            +1
                                            Статей с рейтингом >50 всего около 6%. Авторов, способных писать стабильно почти все статьи на таком уровне, я думаю единицы. И вы всерьез думаете, что их работа стоит 5000р? Посмотрите последнюю статью уважаемого Meklon и прикиньте сколько там стоят одни расходники и материалы. Вот такое писать специально для Хабра — это благотворительность в чистом виде, тут не то что прибыль, даже затрат не покроет (понятно что это изначально наверно и не делалось для Хабра, публикация скорее побочный эффект).
                                            ППА хорош в качестве хобби и развлечения, но это не заработок от слова «совсем» (имхо).
                                              0
                                              Статьи на хабр стоят гораздо больше 5000
                                          0
                                          А что, простите, в этом нормального? Да, это позволяет сммщикам показывать на планерках красивые графики, но дискредитирует саму рейтинговую систему и мешает фильтровать крупицы хороших материалов. Уравновешивает все это только тот факт что обычных читателей все же больше, и откровенное «порево» просто зальют минусами несмотря на десяток «налайкателей».
                                            +1
                                            А что, простите, в этом нормального?

                                            То, что при всех недостатках существующей системы, более эффективной никем не придумано.
                                    +3

                                    Мои корпоративные посты обычно очень прилично набирают. Часто 80+, в зависимости от тематики. Но почти всегда NDA на авторство.

                                      +1
                                      У меня нет сомнений что в «корп» блогах — очень много хороших и качественных постов. И хороших и качественных авторов. Но, к сожалению, треша там тоже хватает.
                                      0
                                      Согласен. Комментов 0. Просмотров тыща. +20 рейтинг. Дюже странное отклонение от типичного поведения среди статей на главной. Шепнем Boomburum про наше негодуэ. Они знают, конечно, о таком, но это все равно в их же интересах.
                                      +2

                                      Интересная статья.
                                      А как будут выглядеть графики, если добавить ось z — время (месяц, квартал, год)?
                                      Как будет меняться рейтинг со временем?

                                        +2
                                        Не знаю, кем и как воспринимаются корпоративные блоги на хабре, лично я настолько их терпеть не могу, что потратил 15 минут времени и сделал аддон для браузеров, удаляющий корпоративные записи с хабра.
                                        Если кому-то надо:
                                        github.com/EugeneAA/RemoveHabrCompanies
                                        addons.mozilla.org/ru/firefox/addon/removehabrcompanies
                                          0
                                          Не все корп.блоги одинаково ужасны. Кроме VDS_RU и прочих постящих всё подряд есть еще посты того же Milfgard'а например и иных достаточно интересных авторов, у которых принадлежность к корп.блогу задает лишь общую направленность темы и не более того.
                                            +1
                                            О да, до сих пор помню обзор «устройств из даркнета», вроде от того же VDS, в котором были Raspberry Pi и Arduino :)))

                                            Из приличных блогов запомнился КРОК, по крайней мере люди пишут о своей реальной работе, хотя и там конечно все выверено корпоративными правилами, и никаких ноу-хау не расскажут. В этом плане статьи отдельных авторов мне по-любому нравятся больше.

                                            Доделать рейтинг блогов что ли :)))
                                              0
                                              Хорошо бы видеть по компаниям: рейтинг комменты просмотры. При действиях по накрутке отклонения между ними точно должны быть.

                                              .
                                              Теперь могу честно признать, что ошибался — в обоих случаях публикуется много качественных материалов, однозначно достойных прочтения.


                                              пока не проверена гипотеза с накрутками, убежденность в назойливости рекламы не побеждена!)
                                                0
                                                Да, и вот Meklon признается, что является тайным корпоративным писателем) Можно нам натренировать какую нибудь сеть, чтобы по его постам найти некие паттерны меклона?)) Деанонимизировать, так сказать) Ну я в шутку. Просто идея тоже очень интересная. Научные работы по этому есть думаю. Интересны критерии неосознанной укладки слов в предложения, которые являются уникальными для человека.
                                                  0
                                                  Да, у меня были идеи об этом, определенные словосочетания должны быть уникальны для человека в плане их частотного распределения. Я думаю что частота употребления разных слов-паразитов должна отличаться от человека к человеку достаточно стабильно. Но я не спец по обработке естественных языков, может какие-то готовые библиотеки есть (хотя не уверен что они заточены под русский).

                                                  Другой вопрос, что цель публикации рейтингов все же показать хорошие статьи и блоги, а не что-то в стиле «скандалы интриги расследования» ;)
                                                    +1

                                                    Многие меня узнают) но не только не надо под постом об этом писать.

                                                  0
                                                  Не все, несомненно, но парой процентов качественного контента я готов пожертвовать.
                                                    0
                                                    Я думаю, что качественные блоги таки есть, в ваш плагин нужно добавить возможность выборочной фильтрации. Ну и юзеры смогут обмениваться настройками фильтров потом ;)
                                                0
                                                /удалено ибо мысль повторяется/

                                                Only users with full accounts can post comments. Log in, please.