На наш взгляд, создание «идеального поста» — это не только процесс выбора темы и написание текста. Немалая доля успеха заложена в оформлении и тех обстоятельствах, при которых статья опубликована. Длина заголовка, количество текста до ката и привлекающая картинка — все эти факторы имеют свой вес. Хотели бы Вы получить на 30% больше просмотров, просто поменяв оформления поста и время размещения?
Мы в Cloud4Y хотели бы. Поэтому мы провели глубокий анализ публикаций на Хабрахабре за последние полгода и сегодня хотим поделиться новыми полезными находками.
Как распределены публикации по количеству просмотров на Хабрахабре?
Нормальное распределение чаще всего рассматривается как подходящая модель для описания процесса, на который действует большое число независимых случайных причин. В этом случае плотность распределения случайной величины имеет симметричную, колоколообразную форму. Однако, в некоторых случаях наблюдения показывают, что случайная величина имеет заметно скошенное распределение, например, в случае распределения публикаций по количеству просмотров, так как их количество не может быть отрицательным. Мы пришли к выводу, что логнормальное распределение является наиболее подходящим для описания распределения постов на Хабре.
В чем же состоит различие в процессах, приводящих к нормальному или логнормальному распределениям? Как мы сказали ранее, оба распределения имеют место, когда на описываемый объект воздействует множество случайных и независимых факторов. Если воздействия каждого из факторов складываются, имеется аддитивный характер их взаимодействия, то имеет место нормальное распределение.
Если воздействия каждого из факторов не складываются, а перемножаются, имеется мультипликативный характер взаимодействия, что часто соответствует Логнормальному распределению. Факторы также независимы как и в случае нормального распределения, но эффект от их воздействия накапливается в объекте в зависимости от предыдущего их количества.
Рассмотрим процесс набора просмотров у публикации. Понимание процесса позволит построить адекватную статистическую модель. Популярность поста складывается из множества факторов, о которых мы поговорим позже. Публикуемая статья попадает в раздел «ВСЁ ПОДРЯД». С часа публикации у поста есть сутки, чтобы продвинуться на первые позиции в разделе «ЛУЧШИЕ — За сутки», неделя, чтобы набирать просмотры в разделе «ЛУЧШИЕ — За неделю», и так далее.
Однако, в этих, как и в любом другом разделе «ЛУЧШИЕ», статьи сортируются по убыванию рейтинга. Голосовать за статьи можно только в первые 72 часа с момента публикации. Поэтому самый важный показатель, влияющий на позиции статьи в ТОПах, будет известен уже спустя трое суток и более не изменится. В результате этой сортировки получается мультипликативное взаимодействие, когда каждый последующий голос воздействует на публикацию пропорционально её текущему состоянию. Один голос будет приводить к разным последствиям (просмотрам) в случае самого первого голоса или добавочного к уже существующему рейтингу. Если бы не было накопительного эффекта от уже набранного рейтинга и количества просмотров, статьи были бы распределены нормально. В нашем случае более адекватной моделью является модель мультипликативного взаимодействия и логнормальное распределение. Оно учитывает не только случайное воздействие факторов, но и накопленное состояние поста.
Зная модель распределения, мы можем приводить в анализе не только средние значения, но и границы доверительного интервала, делая акцент на вариабельности показателей. Это дает возможность читателю не концентрировать внимание только на среднем и рассмотреть также вероятностную природу получения различных показателей популярности постов.
Фактор #0 — длина заголовка
Короткий и завлекающий заголовок — одна из основных причин, по которой пользователь начнет читать анонс статьи.
Возможно, есть всего секунда, чтобы получить дополнительный кредит внимания пользователя, который пробегает глазами заголовки статей. Короткий заголовок укладывается в этот норматив.
Возможно, читателю будет слишком мало 15 символов «идеального» короткого заголовка и он начнет читать анонс. И вот пользователь, завлеченный интересным текстом до ката уже открыл полный текст статьи.
Так или иначе, при увеличении длины заголовка среднее число просмотров статьи падает.
Фактор #1 — длина текста до ката и наличие картинки
Не нужно объяснять, что анонсы статей на Хабре находятся в общем списке. Пользователи отделяют текст анонса от основного тела статьи с помощью тега
<cut />
Мы посчитали длину текста до ката в 6500 постах. Разделили публикации на группы по количеству символов текста и наличию картинки, либо видео с YouTube до ката. Вот, что получилось:
Оказалось, что при прочих равных, не вставляя картинку или видео до ката, теряется около 17,5% просмотров. Этот показатель падает при росте длины текста анонса. Наибольшую популярность получают статьи с длиной текста от 1350 до 1500 до ката. Слишком короткий текст до ката, особенно без вставки картинки или видео, снижает популярность статьи, по причине незаметности для читателей, листающих ленту публикаций.
В конце графика среднего числа просмотров статей без картинки до ката и длиной текста более 1500 символов мы видим снижение популярности таких статей. По всей видимости, причиной этому является то, что пользователь успевает оценить статью и в части случаев принять решение не продолжать чтение.
Также стоит отметить, что из выборки были удалены все статьи со списками до ката (тег ul). Если в анонсе есть списки, длину ката нужно рассчитывать по количеству строк, а не по количеству символов.
Фактор #2 — длина текста публикации
Наибольший рейтинг собирают длинные статьи
На графике видно как средний рейтинг статей ползёт вверх, продвигаясь вдоль растущей шкалы длины текста публикации. Для анализа мы собирали текст статей в ячейки Excel, в результате чего у нас появилось ограничение в 32767 символов для статьи. Среднее количество символов в статьях на Хабре — 10500, а статей больше 32767 символов всего 232 из 6525 (3,6%). По снижению рейтинга в конце графика мы можем лишь предположить, что максимальный рейтинг набирают статьи от 30к до 32к знаков.
Оказывает ли частота появление картинок в тексте влияние на её популярность?
Нет, мы не обнаружили такой зависимости. Мы разделили публикации на группы по количеству символов. В каждой из этих групп мы рассмотрели среднее число просмотров у публикаций с разным количеством символов на 1 картинку. Явного убывающего тренда при снижении частоты появления картинок в тексте нет. Возможно, результаты стоит пересчитать для выявления зависимости популярности статьи от частоты появления в тексте вставок кода.
Частота картинок в тексте не определяет популярность статьи.
Фактор #3 — конкуренция
В нашей предыдущей статье «Анализ публикаций на Хабрахабре за последние полгода. Статистика, полезные находки и рейтинги» мы обнаружили, что наибольшее среднее число просмотров набирают посты, опубликованные в субботу и воскресенье. Причина этого в том, что в эти дни публикуется наименьшее число статей за всю неделю. Результатом относительно низкой конкуренции является то, что каждая статья набирает большее число просмотров.
53,9% постов за анализируемый период написано в личных блогах, 46,1% размещены в блогах компаний. Большая часть компаний делает свои публикации в рабочие дни. Выбор у читателя в будние дни больше и на каждую статью приходится меньше внимания.
Рецепт «идеальной» публикации =
- Короткий заголовок от 11 до 15 символов
- Анонс до ката длинной от 1350 до 1500 символов
- Картинка до ката
- Текст статьи от 30к до 32к символов
- Публикация в ночь с пятницы на субботу
Все эти рекомендации помогут вашей статье стать популярнее по сравнению с этой же статьей, но опубликованной в другое время и иначе оформленной.
В конечном счете у любой статьи будет 72 часа, в течение которых пройдет голосование, которое определит будущее вашего поста. При приготовлении поста «по рецепту» некоторые обстоятельства будут идти вам на пользу, а не против вас. Хабрахабр даёт возможность именно пользователям определять судьбу каждой публикации. Поэтому интересные статьи набирали и будут набирать наибольшее число просмотров.
P.S.
Задавайте вопросы в комментариях, по возможности постараемся рассчитать и опубликовать интересующую вас статистику по этой теме. По ссылке в нашей группе vk, можно скачать файл Excel c данным о публикациях, которые мы собрали для этого анализа.