Часть первая, а вторую часть всё равно никто не читает

    О чем собственно речь


    Как-то раз одним поздним декабрьским вечером завершился сбор материала для хабра-статьи, посвященной SAT. Материала оказалось слишком много и передо мной встал выбор: разделить статью на две части или собрать весь материал вместе в одной статье. Выбор был сделан в пользу разделения на части (первая и вторая). К моему удивлению, вторая часть получила значительно меньше внимания, чем первая — фактически её прочитали в два раза меньше человек.

    Время шло, и я стал замечать, что это происходило не только с моими статьями, но и со многими другими статьями в нескольких частях. Тогда у меня возник вопрос, а верно ли в общем, что вторая часть получает меньше внимания (просмотров, плюсов, и записей избранного)?

    (сделано на основе хабра-статьи Как лгать с помощью статистики)

    Структура статьи
    1. О чем собственно речь
    2. Данные
    3. Сравниваем части
    4. Серии статей
    5. Заключение
    6. Дальнейшее чтение



    В итоге мне пришла следующая идея: собрать пары статей — первая-вторая часть и посмотреть, есть ли существенная разница в основных параметрах между статьями. А так же оценить, как эти параметры меняются для статей в нескольких (более двух) частях.

    Данные


    Как и в предыдущей статье, все данные, код и скрипты для визуализации доступны для скачивания в github. Вы можете повторить все эксперименты, а так же собрать и проверить все исходные данные — используя код и примеры из предыдущей статьи. Прежде всего это нужно, чтобы обеспечить прозрачность и повторяемость экспериментов, а так же дать некоторую начальную точку для тех, кто захочет провести собственные исследования хабра-данных.

    Собрать данные о статьях в нескольких частях — задача далеко не самая простая, но мы можем собрать достаточное количество статей используя пару простых идей. Рассмотрим датасет all.csv с хабра-статьями из прошлой статьи


    Большой опыт чтения хабра подсказал мне, что информацию о том, что имеет несколько частей, стоит искать в заголовке (title в табличке). Если мы пройдемся по всем заголовкам на предмет наличия ключевого слова часть, то мы можем собрать неплохой набор кандидатов. Простой скрипт filter.py для предварительной фильтрации статей выдал внушительный, но не огромный список статей кандидатов сгруппированный по авторам. Проведя разбор кандидатов, были сформированы два датасета series1.csv и series2.csv, содержащий первые и вторые части соответственно:

    Каждый из датасетов содержит по 180 записей.

    Сравниваем части


    Рассмотрим разницу между первыми и вторыми частями по следующим показателям: просмотры, рейтинг и записи в избранное. На каждом из графиков ниже синяя точка означает первую часть статьи, а красная точка означает вторую часть. Две части одной статьи отображаются на одинаковой x-координате. Если разница в измерении просмотров, рейтинга или избранного положительная между первой и второй части положительная, то сегмент между ними синий, а если отрицательная, то красный. Визуально, чем больше синих линий мы видим, тем чаще первая часть оказывается лучше, согласно измеренным параметрам. Статьи на графиках отсортированы по увеличению параметра первой статьи.

    На первом графике мы видим явное преобладание первых частей над вторыми по просмотрам, только в 10% случаев вторая часть оказывается лучше первой. Но большинство этих случаев демонстрирует несущественную разницу в просмотрах, среди всех записей только в двух случаях мы видим существенное преобладание второй части над первой. Медиана количества просмотров порядка 20к для первых частей и 10к для вторых.


    В целом мы видим схожую картину по записям в избранное, только в 14% случаев вторая часть набирает больше записей в избранное, существенное преобладание есть только в одном случае. Медиана записей в избранное 137 для первых частей и 82 для вторых.


    В случае с рейтингом вторые части доминируют над первыми чаще в 22% процентов случаев. Существенное преобладание, как и в случае с просмотрами возникает только в двух случаях. Медиана рейтинга для первых частей 25 и 17 для вторых.

    (графики получены с помощью скрипта difference.R)

    Если кому-то интересно, то существенное преобладание второй частью над первой происходит вот в этих статьях:
    Как я писал Pacman'a, и что из этого получилось. Часть 1
    Как я писал Pacman'a, и что из этого получилось. Часть 2
    и самая большая разница в показателях в статье:
    Часть 1. Unboxing VisuMax — фемто-лазера для коррекции зрения
    Часть 2. Сколько мегабит/с можно пропустить через зрительный нерв и какое разрешение у сетчатки? Немного теории


    Серии статей


    Еще интереснее рассмотреть длинные цепочки статей. Из общего числа кандидатов, были отобраны цепочки статей из 5 и более частей — их можно найти в датасете series_long.csv.
    Данные имеют следующий формат:


    Собранные данные представляют очень ограниченную по размерам выборку, поэтому сложно сделать однозначные выводы, но мы можем по крайней мере оценить общий характер изменений. Приведем в качестве примера и мотивации три самые длинные цепочки из статей за собранный период.

    Прежде всего мы видим, что первая часть набрала существенно больше просмотров, чем остальные части. Для второй и третьей части падение имеет фактор порядка двух, потом падение замедляется и просмотры стабилизируются.


    Мы видим в целом схожую картину по записям в избранное, высокое значение первой точки, резкое падение и стабилизацию хвоста.


    Ситуация с рейтингом отличается от двух графиков рассмотренных выше, но в целом общий вид картины сохраняется, за исключением низкого начального результата у синей серии.

    (получено с помощью скрипта long_plot.R)

    Является результат столь неожиданным? На самом деле нет. Это примерно то, что и ожидалось в самом начале — как писали в предыдущей статье это классическое распределение Ципфа (интересным и менее сухим языком написано тут). Оно встречается довольно часто и неудивительно увидеть его при подсчете количества просмотров различных серий, например записей лекций:

    (данные взяты из youtube-канала курса Stanford Programming Methodology)
    Мы видим схожую картину, когда при высоком значении параметра в первой точке, происходит резкое падение и «стабилизация» хвоста. Нельзя не отметить сходство зависимостей просмотров между статьями на хабре и просмотров материалов на других ресурсах в нескольких частях.

    Заключение


    Это эмпирическое наблюдение наталкивает нас на ряд интересных вопросов: возможно ли, что падение «интереса» к следующим частям кроется в самой структуре разбиения на части? Например, для просмотра статьи n требуется посмотреть n-1 статью, что существенно увеличивает время прочтения и снижает аудиторию. Играет ли роль какая-то специфика статей на хабре или это происходит со всеми схожими статьями на других ресурсах?

    Безусловно нельзя следовать исключительно подобным эмпирическим наблюдениям для принятия решения нужно ли разделять статью на несколько частей или нет, но данное наблюдение позволяет задать некоторый стандарт ожидания (в основных параметрах) для следующих частей, основываясь на текущих показателях.

    Дальнейшее чтение


    Если тема анализа данных показалась интересной, то полезный материал для изучения
    DM Labs
    Company
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 31

      +38
      Вполне закономерно, на мой взгляд. Первую статью открывает гораздо больше людей хотя бы чтобы узнать о чем там пойдет речь. Часть просмотревших добавляет в избранное (чтобы вернуться позже), плюсует и т.п., другая часть понимает, что эта тема не так уж интересна и закрывает (возможно, минусует) статью. Увидев впоследствии вторую статью на эту же тему, народ уже можно поделить на 3 части:
      — кто видел первую, заинтересовался — полезут читать и вторую (при этом в избранное, может, и не добавят, потому что в конце первой статьи чаще всего появляется ссылка на последующие части);
      — кто не видел первую — возможно даже не заглядывая во вторую часть, полезут читать первую и там уже примут решение интересно им это или нет;
      — кто видел первую и не проявил интереса к теме — скорее всего проигнорируют все последующие части.
        +7
        +1
        Жаль не могу плюсануть — Хабр сломался :)
          +18
          Так?
          image

          Аналогично, плюсую!
            +7
            ну нафиг рабочую базу то в рабочее время модифицировать? да еще походу выложили код до того, как модификация завершилась…
              +1
              Меня вчера полдня (ночью по Москве) хабр встречал сообщением о профилактиеских работах и предложением поспать. Так что, видимо, с ночи затянулось.
                +1
                Зато теперь знаем, что Хабр — на мускуле )
              +1
              Уже работает.
              +1
              Вполне четко и ясно. Даже добавить нечего :)
                +9
                Еще вариант — я не видел первую и не полезу читать статью с заголовком «часть вторая».
                  0
                  Данная категория, конечно, имеется, но на соотношение просмотров, плюсов, добавлений в избранное никак не влияет.
                –3
                Статья является необычным и остроумным исследованием, чтобы привлечь внимание и подстегнуть интерес людей к науке.
                Где-то я это видел. Есть шанс выдвинуться за 2014 год — серьезно!
                  +10
                  А почему бы не добавить в Хабр возможность объединять статьи в серии, как делают, например, SitePoint?
                    +2
                    А ещё есть такие сериалы.
                      +4
                      фишка то в чем: когда идет «простыня», ее некоторое количество народа закрывает после прочтения нескольких абзацев.
                      разумеется, сделавшие это не будут читать вторую часть, если материал был разделен на части.

                      жаль, нельзя узнать, сколько народу не дочитало статью до конца…
                        0
                        Кажется мне, что закрывают таки не из-за того, что «простыня», а из-за того, что не интересно. Интересные «простыни» читаются до конца. Проблема тут в другом — часто заголовок заманчивый, а внутри — или не то, что ожидалось, или то, что ожидалось, но преподнесено «невкусно», или вообще ничего.
                          0
                          под «простыней» я имел ввиду один большой пост…
                          +1
                          Именно. Вот тот однородный хвост в «многосерийных» статьях как раз и показывает, сколько человек дочитывает длинную статью до конца.
                          +5
                          А еще за статью из несколько частей Хабр больше платит
                            +2
                            Если ради денег серия задумывалась автором, то получается ее смело можно забрасывать если первая статья получила рейтинг меньше 100.
                              0
                              30 долларов за статью в профильный блог? Кому-то это вообще надо?
                              +5
                              После публикации первой части удобно добавить ее в избранное, чтобы вернуться в нее позже и посмотреть, не добавил ли автор ссылку на следующие статьи (то есть не появились ли они). Так как статьи серии обычно перелинковываются, то добавление в избранное (как в закладки) одной статьи аналогично добавлению всей серии. А первую добавлять наиболее логично, если она не получилась совсем уж «грустной».

                              Увеличение рейтинга первой статьи из серии как бы говорит автору, что «да, мы хотим продолжение». Дальше люди ставят рейтинг уже не ожидаемой серии, а именно статье.

                              Прочтение первой части влияет на увеличение вероятности прочтения второй только если первая часть заинтересовала, и прочитана в тот момент, когда вторая уже также опубликована, либо читатель добавил статью в избранное и периодически мониторит ее на появление ссылок на новые части. В свою очередь, при чтении второй части читатель зачастую либо уже видел первую, либо с немалой вероятностью перейдет к ней (если тема ему хоть сколько-то интересна).

                              Если рассматривать длинные серии статей, то там опять же основной является первая. После второй уже обнаруживается более-менее постоянная аудитория серии, которая и формирует значения исследуемых характеристик статей.

                              Можно считать, что исследуемые характеристики первой статьи являются суммой характеристик самой статьи и серии статей, которую она начинает.
                                0
                                К future works
                                Возможно, раница в том, что много народу просматривает Хабр нерегуляирно, а наткнувшись на продолжение статьи многие либо пугаются и не читают, либо идут по ссылке на первую часть, таким образом довляя просмотры к первой части.
                                Данное предположение объясняет в среднем нулевую разницу в рейтинге первых и вторых частей статей при заметном превышении числа просмотров.
                                Проверить это предположение можно сравнив статистику просмотра длинных статей (которые можно разбить на две) (а) с первыми частями (б) со вторыми частями.
                                  0
                                  жалко, что вы в качестве примера не взяли СДСМ
                                    +2
                                    Как влияет на читаемость многотомной статьи интервал между частями? Например, можно написать огромную статью, порезать на главы и запостить их одновременно. Или с интервалом в сутки. Или писать и постить по мере готовности, например раз в неделю
                                      +1
                                      Читаю хабр с трех машин, залогинен на двух, на плохую память не жалуюсь.
                                      Как результат, например: помню содержимое всего цикла статей от Meklon, но здесь «подсвечена» только одна из ссылок
                                        0
                                        Кто тут меня вспоминал?)) У меня, кстати, размазана посещаемость. Но и цикл длинный очень. Плюс время между публикациями большое достаточно.
                                          +1
                                          Вас упомянули, как единственного у кого вторая часть вышла существенно лучше, чем первая :-) за выбранный срез времени (c 27го сентября 2012) и попавшего в выборку по сериям статей.
                                            0
                                            Вообще сам удивлен был. Но тут есть нюанс. У меня цикл разнородный. Вторая и третья статьи — по сути фоторепортажи с комментариями. Вторая и четвертая — обучающие статьи, чья ценность во многом определяется комментариями. Возможно не совсем корректно сравнивать. Хотя общая нить у цикла есть это не длинная статья, которую искусственно разбили на главы.
                                              +1
                                              Пользуясь случаем, я только опубликовал четвертую часть — Часть 4.1 Возвращаем зрение. От очков до эксимерного лазера
                                          +5
                                          Когда будет вторая часть этой статьи?
                                            0
                                            Зато если статья из нескольких частей, автору могут указать на ошибки, предложить идеи, задать вопросы, таким образом, больше интерактивности, что больше соответствует современному формату.

                                            Only users with full accounts can post comments. Log in, please.