Хабра-анализ: важна ли длина публикации?


    Вы ведь знаете, что Хабр — это вам не одна популярная социальная площадка с ограничением на длину публикации в 280 символов? И хотя периодически появляются посты длиной в один абзац, они достаточно редко встречают одобрение от вас, Хабра-жители.


    Сегодня мы узнаем, правда ли, что длинные публикации более популярны, а короткие — наоборот. Или снова наоборот? В общем, есть ли на Хабре дискриминация по длине статьи.


    Итак, 5 самых популярных хабов из раздела "Разработка". Все профильные, у всех по более чем 100 000 подписчиков. Что же они могут нам рассказать? Приступим!


    Этот вопрос поднимается достаточно регулярно и недавно снова был задан здесь amartology.


    Методы


    Для нашего расследования возьмём хабы Программирование (266 000 подписчиков), Информационная безопасность (518 000), Open source (108 000), Разработка веб-сайтов (529 000) и Java (124 000). Эти 5 имеют наивысший рейтинг в разделе.


    Рассмотрение затронет весь 2019 год. Для каждого хаба выбираются все публикации в этих временных рамках. Анализируется весь текст, содержащийся внутри тега < div id="post-content-body" >, а также такие показатели публикации, как голоса (общее число, плюсы, минусы, окончательный рейтинг), просмотры, добавление в закладки и количество комментариев. Очевидно, что дата и время публикации, её ID, автор и заголовок тоже учитываются.


    Длина текста считается в байтах (strlen), символах (iconv_strlen) и графемах (grapheme_strlen).


    Общие сведения


    Всего найдено 4 805 публикаций от 1 845 авторов. Они написали 114 014 297 байт (108.73 МБ) текста, собрав 58 129 730 просмотров, 351 582 добавлений в закладки и 145 194 комментариев. Вот так (Рис. 1) все эти публикации выглядят на временной шкале.



    Рис. 1. Все посты, опубликованные в пяти хабах в 2019 году


    Программирование


    Данный хаб в 2019 собрал 1 908 постов и 826 авторов. Общий рейтинг публикаций достиг +49 975 (↑57 588, ↓7 613 и 65 201 голосов), а количество просмотров достигло 21 934 576. Кроме того, статьи добавили в избранное 161 535 раз, а также прокомментировали 59 561 раз.


    Общий размер публикаций составляет 49 222 543 байта (~46.94 МБ), 33 514 654 символов или 33 282 885 графем.


    Если просто посчитать среднее

    На публикацию приходится +26.2 рейтинга (↑30.2, ↓4 и 34.2 голоса), 11 496.1 просмотров, 84.7 закладок, 31.2 комментария. Размер текста 25 798 байт, 17 565 символов или 17 444 графемы.


    Информационная безопасность


    Этот хаб в 2019 набрал 1 430 постов от 534 авторов. Общий рейтинг публикаций достиг +39 381 (↑43 874, ↓4 493 и 48 367 голосов), а количество просмотров достигло 19 673 862. Кроме того, статьи добавили в избранное 80 893 раза, а также оставили 48 859 комментариев.


    Общий размер публикаций составляет 31 025 982 байта (~29.59 МБ), 19 944 451 символов или 19 781 203 графем.


    Если просто посчитать среднее

    На публикацию приходится +27.5 рейтинга (↑30.7, ↓3.1 и 33.8 голоса), 13 757.9 просмотров, 56.6 закладок, 34.2 комментария. Размер текста 21 697 байт, 13 947 символов или 13 833 графемы.


    Open source


    Данный хаб в 2019 насчитывает 576 публикаций и 305 авторов, а также общий рейтинг +17 735 (↑19 699, ↓1 964 и 21 663 голосов), 6 750 210 просмотров, 35 980 добавлений в закладки и 20 116 комментариев.


    Общий размер публикаций составляет 14 142 730 байт (~13.49 МБ), 9 598 387 символов или 9 529 648 графем.


    Если просто посчитать среднее

    На публикацию приходится +30.8 рейтинга (↑34.2, ↓3.4 и 37.6 голоса), 11 719.1 просмотров, 62.5 закладок, 34.9 комментария. Размер текста 24 553 байта, 16 664 символа или 16 545 графем.


    Разработка веб-сайтов


    Этот хаб в 2019 набрал 1 007 постов от 415 авторов. Общий рейтинг публикаций достиг +28 300 (↑31 594, ↓3 294 и 34 888 голосов), а количество просмотров достигло 12 567 099. Кроме того, статьи добавили в избранное 92 440 раза, а также оставили 26 625 комментариев.


    Общий размер публикаций составляет 23 370 415 байта (~22.29 МБ), 15 698 405 символов или 15 578 144 графем.


    Если просто посчитать среднее

    На публикацию приходится +28.1 рейтинга (↑31.4, ↓3.3 и 34.6 голоса), 12 479.1 просмотра, 91.8 закладок, 26.4 комментария. Размер текста 23 208 байт, 15 589 символов или 15 470 графем.


    Java


    Данный хаб в 2019 собрал 530 постов и 279 авторов. Общий рейтинг публикаций достиг +9 820 (↑11 391, ↓1 571 и 12 962 голосов), а количество просмотров достигло 43 677 863. Кроме того, статьи добавили в избранное 31 943 раз, а также прокомментировали 8 990 раз.


    Общий размер публикаций составляет 13 574 788 байта (~12.95 МБ), 9 617 462 символов или 9 554 683 графем.


    Если просто посчитать среднее

    На публикацию приходится +18.5 рейтинга (↑21.5, ↓3 и 24.5 голоса), 82 411.1 просмотров, 60.3 закладок, 17 комментариев. Размер текста 25 613 байт, 18 146 символов или 18 028 графем.


    Есть ли зависимость от длины?


    Короткий ответ на этот вопрос — нет. Зависимости общего рейтинга (Рис. 2), количества плюсов (Рис. 3) и минусов (Рис. 4) от размера публикации нет. Напишете вы 1 000 или 100 000 байт текста, шанс получить +10 примерно одинаков, точно так же, как и для +50 или +100.



    Рис. 2. Зависимость рейтинга публикации от длины текста





    Рис. 3. Зависимость количества плюсов публикации от длины текста





    Рис. 4. Зависимость количества минусов от длины текста


    Как видно, из статистики выбиваются несколько точек очень коротких публикаций. К ним относятся публикации о событиях вокруг Nginx и другие важные в какой-то определённый момент заметки. В таком случае оценивается совсем не текст поста.


    Примерно также выглядит и зависимость количества просмотров от длины текста (Рис. 05).



    Рис. 5. Зависимость количества просмотров от длины текста


    Может это идея? Проверим, как же зависит рейтинг от количества просмотров.


    Зависимость от количества просмотров


    Разве это не очевидно? Больше просмотров — больше оценок (Рис. 6). При этом, рейтинг не обязательно будет выше, поскольку можно получить и больше минусов (Рис. 7) Кроме того, больше просмотров — больше добавлений в закладки (Рис. 8) и комментариев (Рис. 9).



    Рис. 6. Зависимость количества оценок от количества просмотров





    Рис. 7. Зависимость рейтинга публикации от количества просмотров





    Рис. 8. Зависимость количества добавлений в закладки от количества просмотров





    Рис. 9. Зависимость количества комментариев от количества просмотров


    Самые популярные в 2019


    В топ-5 публикаций входят:



    Вместо заключения


    Что же делать? Писать длинные публикации или короткие заметки? О популярном или об интересном?


    Очевидного ответа на этот вопрос нет. Конечно, если вы гонитесь исключительно за одобрением (количеством плюсов), то больший шанс преуспеть — собрать побольше просмотров, а для этого нужен исключительно громкий заголовок или популярная тема.


    Но давайте не забывать, что Хабр существует не ради заголовков, а ради качественных публикаций.


    На сегодня всё. Спасибо за внимание!


    P.S. Если вы нашли опечатки или ошибки в тексте, пожалуйста, сообщите мне. Это можно сделать выделив часть текста и нажав "Ctrl / ⌘ + Enter", если у вас есть Ctrl / ⌘, либо через личные сообщения. Если же оба варианта недоступны, напишите об ошибках в комментариях. Спасибо!


    P.P.S. Возможно, вам будут интересны также другие мои исследования Хабра или вы хотите предложить свою тему для следующей публикации, а может даже новый цикл публикаций.


    Где найти список и как внести предложение

    Всю информацию можно найти в специальном репозитории Хабра-детектива. Там же можно узнать, какие предложения уже были озвучены, а что уже находится в работе.


    Кроме того, вы можете упомянуть меня (написав VaskivskyiYe) в комментариях к публикации, которая кажется вам интересной для исследования или анализа. Спасибо Lolohaev за эту идею.

    Support the author
    Share post

    Similar posts

    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 21

      +7

      Так-так-так, а где детектив про прямые линии на семь, девять и десять часов на первом рисунке? Или я его уже пропустил?

      +4
      Кажется, вы стали одним из немногих авторов, кого я сперва читаю, потом плюсую и только потом модерирую :-) Классное исследование! На самом деле, корреляции рейтинга и длины поста и правда не ощущается, но есть некоторая связь времени выхода и показателей публикации (но также корелляция слабая). Мы давно проводили опрос и выяснили, что:

      1. читатели первым делом смотрят на заголовок и текст до ката, затем на КДПВ, соотвественно, я бы не советовала делать эти три элемента мегакрутыми, а статью так себе (бывали такие хитрецы) — злость читателей от разочарования вызовет активное минусование;


      2. длина текста не имеет особого значения. На Хабре трудно увидеть фразу «многабукаф ниасилил», лонгриды любят, читают и, что характерно дочитывают, — если они интересные;
      3. точно так же по-настоящему хорошая статья наберёт отличные показатели даже в 00:01 1 января или утром в субботу :-)

      Так что главное — писать хорошо об интересном, чтд.

        +5
        Бывают очень полезные технические статьи, которые в принципе не наберут много плюсов. Просто потому, что статья техническая и там нужно думать, ну или она решает важную, но узкую проблему. Например, мне в свое время очень помогли статьи Boozlachu про Buildroot. Или была отменная серия статей SparF про MIPSfpga. Рейтинги у статей не самые высокие, но написано отлично и все по делу.
        А бывает статья ля-ля-траляля, на около технические темы, и такая статья-болтология набирает много, потому что потому. Как пример могу привести свою собственную статью: habr.com/ru/post/310026

        И вот когда думаешь «а не написать ли мне?», то первый вопрос самому себе: писать техническую статью или статью болтологию? У второй шансов больше.
          +2

          Учитывайте также, что часть читателей читают Хабр с мобильного, т.е. используют мобильную версию сайта. А в мобильной версии сайта нет ни КДПВ ни текста до ката, а лишь заголовок и автор.

            +2
            Да, доля мобильных довольна велика и заголовок выходит на первый план (а вот что кто-то оценивает автора, сильно сомневаюсь — если это не кто-то из легенд). К слову, пока Медиатор был доступным сервисом, я наблюдала за некоторыми лонгридами — на мобильных дочитываний больше, чем на десктопе. Думаю, это связано с тем, что человек читает с мобильного «когда ничего больше не доступно», и в охотку дочитывает. Но версии разные могут быть :-)
            +1

            Тут вопрос и варианты ответа не совсем корректные, у них слишком широкий смысл, который позволяет делать из результатов любые выводы.


            На что вы обращаете внимание перед тем, как начать читать публикацию?

            Что это означает:
            — по содержанию этих элементов принять решение, стоит читать ли публикацию?
            — проверить содержание этих элементов уже после того, как решил прочитать по другим причинам, но еще не начал?
            — вообще в принципе обращаете ли внимание или всегда игнорируете, независимо от желания прочитать публикацию?


            На ее рейтинг (плюсики)

            Почему только плюсики? Тут много вариантов:


            — Большой положительный рейтинг может заинтересовать прочитать статью, потому что "наверно интересная статья или полезный материал". Но это не к любой статье относится. Если по тексту до ката понятно, что тема неинтересна, то неважно, какой у нее рейтинг.
            — Большой отрицательный рейтинг тоже может заинтересовать прочитать статью, потому что "посмотрим, чего там автор такого написал". При этом это увеличивает число просмотров, но специально делать такие статьи не надо.
            — Примерно поровну плюсов и минусов, много комментов — "о, холивар, надо почитать".
            — Малое количество плюсов — "ну наверно ничего интересного". Но если недавно опубликована, то наверно еще не успела набрать достаточно голосов, чтобы делать какие-то выводы.


            При этом лично для меня рейтинг совершенно не главное. То есть если он небольшой, то это не значит, что я сделаю вывод, что статья неинтересная, и не буду ее читать.
            В сочетании с вопросом непонятно, что тут ставить — да или нет.


            На количество комментариев

            Тут аналогично, в разных ситуациях могут быть разные решения:


            — Много комментов — "видимо интересная тема, надо почитать" или наоборот "лень читать". Или опять же "о, холивар".
            — Мало комментов, маленький рейтинг — "неинтересно, не буду читать". Но если недавно опубликована, то не считается.
            — Мало комментов, большой рейтинг — "наверно хорошая статья, нечего добавить".


            На количество просмотров

            Ну с учетом формулировки вопроса нельзя сказать, что я совсем не обращаю внимание, иногда обращаю, но и на интерес к статье оно мало влияет. Тоже непонятно, что тут ставить. Наверное нет.


            На количество добавлений в закладки

            Судя по комментариям, люди используют их по-разному — кто-то как список "отложить почитать на потом", кто-то после прочтения как полезную информацию.


            На заголовок

            Ну естественно, заголовок же показывает, о чем статья. Непонятно, какие выводы из этого можно сделать — "пишите хорошие заголовки", "хорошие заголовки писать необязательно"? Независимо от того, какой он будет, на него все равно обратят внимание.


            На картинку для привлечения внимания

            Аналогично, если она есть, на нее обратят внимание, но это не значит, что если ее нет, то статья не заинтересует.


            Для меня основное это тематика статьи, которая определяется по заголовку и тексту до ката вместе и списку хабов, потому что по первым двум не всегда понятно. А уже к этому применяются варианты, которые я написал выше.

            +4

            Кажется, что хабру давно пора делать api для получения такой информации или хотя бы выкладывать статьи с метаинформацией в некоторые сборники раз в месяц, чтобы каждый раз люди не писали свой парсер для сайта.
            Хотя тут возможна и частная инициатива.

              +2
              Что же делать? Писать длинные публикации или короткие заметки? О популярном или об интересном?
              Очевидного ответа на этот вопрос нет.

              имхо, перевод пункта «Общие сведения» в табличный вид может много пояснить

              image

              Если обратить внимание, на пункты open source, разработка веб-сайтов и java, то можно увидеть, что пункт «программирование» является собирательным и любая выборка в нем падает на нижние строчки рейтинга. Так можно заметить настоящего лидера — информационную безопасность, где приветствуется много текста, в то время как публикации о конкретном ЯП чаще приветствуются в коротком виде.
                +1
                Можно сравнить 2019 с 2017, 2015 и 2010?

                Ну а так, вам надо в штат аналитиком идти, правильный анализ окупает затраты.
                  0

                  Уже в планах по годам. Ещё хочу разобрать, есть ли разница между хабами потока Разработка и какого-то другого, вроде Geektimes. Профильные/непрофильные/оффтопик хабы тоже

                  +1

                  Интересно выглядит кластертзация нижних частей графика, не анализировали с чем это связано?

                    +1
                    Дискретизацией целыми числами в логорифмическом масштабе?
                      +1

                      Это из-за логарифмического масштаба. Позволило уместить очень большие значения близко к средним. Но тогда всегда проблемы с малыми значениями. Нижние горизонтали — 1, 2, 3, 4 и т.д.
                      P.S. В линейных масштабах это всё выглядит ужасно

                      +3
                      Теперь понятно про что писать! В топ-5 целых 2 статьи про Мегафон.
                        +1
                        Рис. 3. Зависимость количества плюсов публикации от длины текста
                        С цифрами не поспоришь, но выглядит странно — ожидается, что лонгрид с размышлениями и выдвижением спорных идей раньше утомит читателя, и оценка будет поставлена с учетом приемлемости отдельных деталей без дочитывания. Похоже, превалируют лонгриды с историями реализации, интервью или обзорами, которые читаются как литературное произведение и получают суммарную оценку за интересность. Возможно, разница проявится за пределами хабов «разработки».
                        Рис. 5. Зависимость количества просмотров от длины текста
                        Тоже странно — насыщенная подробностями статья откладывается в закладки, в покет, в избранное «потом вдумчиво почитаю», где иногда пылится годами, в отличие от коротких заметок, которые не сложно просмотреть прямо сейчас. Теоретически, короткое должно читаться чаще. Возможно, играет роль то, что для оценки объема приходится заходить в статью или скачивать её, увеличивая счетчик просмотров до реального прочтения. И, увы, не видно способа разделить открывших и прочитавших, даже наличие комментария не гарантирует того, что статья была прочитана.
                        С другой стороны, лонгрид с обилием мыслей порождает больше комментариев, и каждый возврат на страницу может увеличивать счетчик просмотров. Да, количество комментариев на порядки уступает количеству просмотров, но просмотр свежих комментариев отнюдь не всегда сопровождается добавлением комментария. Возможно, именно просмотр комментариев выравнивает распределение, увеличивая число просмотров для лонгридов.
                          0

                          Смотрю на графики зависимости рейтингов, плюсов и минусов от длины поста, и возникает вопрос, нет ли здесь нормального распределения с максимумом для “оптимальной” длины поста?

                            0

                            Дорогой автор, тэги не только для того, чтобы их читать, а еще и для того, чтобы искать по ним связанные статьи, кликнув на соответствующий тэг. Поиск по тэгам на Хабре работает хуже, чем мог бы, потому что туда суют что попало. Не делайте так, пожалуйста. Заранее спасибо.

                              0

                              Подскажите, пожалуйста, какие именно теги вы считаете некорректными в данной публикации?


                              Публикация достаточно подробно описывает процесс анализа, который каждый может повторить для проверки или опровержения (DIY). Ещё 3 тега используются на данный момент только мной для связи публикаций этой серии между собой (2 на русском и 1 на английском с замахом на будущее). У тега "никто не читает теги" нет никакой смысловой нагрузки и он на Хабре используется достаточно активно на любую тему, а потому найти что-либо по нему не представляется возможным по определению

                                +2
                                «DIY» IMHO больше относиться к чему-то, что можно сделать своими руками, например, автоматизированный туалет для кошки, клавиатура из бука, ноутбук из кластера Z80. Иначе его можно добавить практически к любой статье на Хабре.
                                Этой публикации больше подошло бы «data science», «анализ данных», «статистика».
                                Если тэг не несёт смысловой нагрузки — не добавляйте его.
                                  0

                                  Спасибо, я учту это в следующих публикациях

                            Only users with full accounts can post comments. Log in, please.