Первые три дня жизни поста на Хабре

    Каждый автор переживает за жизнь своей публикации, после опубликования смотрит статистику, ждет и беспокоится за комментарии, желает, чтобы публикация набрала хотя бы среднее число просмотров. У Хабра эти инструменты кумулятивные и поэтому достаточно сложно представить, как публикация автора начинает свою жизнь на фоне других публикаций.

    Как известно, основная масса публикаций набирает просмотры в первые три дня. Чтобы представить, как живет публикация, я отследил статистику и представил механизм мониторинга и сравнения. Данный механизм будет применен к этой публикации и все смогут посмотреть, как это работает.

    Первым этапом была собрана статистика о динамике публикаций за три первых дня жизни поста. Для этого анализировал потоки читателей, по публикациям за 28 сентября в период их жизни с 28 сентября по 1 октября 2019 г. путем фиксирования количества просмотров через различные промежутки времени в этот период. Первая диаграмма представлена на рисунке ниже, она получена в результате согласования динамики просмотров по времени.

    Как можно посчитать из диаграммы, среднее число просмотров публикации через 72 часа при степенной функции аппроксимации составит ориентировочно 8380 просмотров.


    Рис. 1. Распределение просмотров по времени, для всех публикаций.

    Так как явно видны «звезды», то представим эти данные без них для стандартной публикации. Отсечение проведем по тем публикациям, которые набрали больше средней величины просмотров за 3 дня – 10225 шт., рисунок 2.


    Рис. 2. Распределение просмотров по времени, для средних публикаций, без «звезд».

    Как можно посчитать из диаграммы, среднее число просмотров публикации средней востребованности через 72 часа степенной функцией аппроксимации прогнозируется, ориентировочно 5670 просмотров.

    Цифры занятные, но есть инструмент с большей практической ценностью. Это средняя доля на каждом временном промежутке. Определим их, и представим на рисунке 3.


    Рис. 3. Фактическое распределение по времени доли просмотров от общего количества просмотров за трое суток и теоретические линии аппроксимации, тонкая полином Excel и жирная собственное решение.

    Проводить отдельный анализ по кластерам «звезды» и обычные публикации особого смысла не вижу, так как в данном решении все считалось в стандартизированной системе координат, по долям.

    Таким образом, можно построить таблицу значений с долями от времени и, соответственно прогнозировать общий объем просмотров за трое суток.

    Построим указанную таблицу и спрогнозируем поток по этой публикации



    Так как опубликую пост около 0 часов 3 октября, то каждый может сравнить поток с прогнозируемой величиной. Если он меньше, значит мне не повезло, если больше, значит читателям интересно.

    Постараюсь представлять по мере наблюдения реальный поток на графике ниже.


    Рис. 4. Фактический поток читателей этой публикации в сопоставлении с теоретическим прогнозом.

    В заключение могу сказать, что каждый автор может брать для себя ориентиром расчетную таблицу, которая представлена выше. А поделив реальный поток своей публикации в определенный момент на значение в колонке доля для этого момента, может спрогнозировать количество читателей на конец 3-их суток. И в течении этого периода у авторов имеется возможность тем или иным образом повлиять на читаемость его материала, допустим, активнее и подробнее отвечать в комментариях. Также можно сопоставлять свою публикацию с другими, понимать, как внешние публикации влияют на приоритеты читателей. Единственный совет, прошу понимать, что эти цифры получены на анализе потока читателей публикаций всего одного дня, 28 сентября 2019 г.
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 37

      +9
      Количество просмотров — как-то последнее, на что смотришь. Душу больше греют комментарии. Ну и плюсики в оценке. :)
        +3

        А мне — просмотры. Мои очерки никто не комментирует, так что приходиться смотреть на просмотры. Плюсики тоже не греют, зайду на пикабу — а там 12к у кого-нибудь, а тут так, в общем, почти случайный, нестабильный рейтинг публикации.

          0
          Просмотры — они односторонние. Ничего не говорят о том, сколько народу именно прочитало. Если, конечно, они тут не работают как «дочитывание» в яндекс.зене.

          А вот комментарии и плюсики (да и минусики) — обратная связь.
          • НЛО прилетело и опубликовало эту надпись здесь
              0
              Не очень понял про «рекомендованный опрос для подобного» — можете подробнее рассказать?

              В остальном согласен — потыкать в голосовании проще, чем написать комментарий. Комментариев всегда меньше, чем респондентов, поэтому я всегда стараюсь поставить опрос там, где нужно собрать мнения (недавний пример — с минусованием).
              • НЛО прилетело и опубликовало эту надпись здесь
                  +1
                  Такой опросник можно автоматически прикручивать ко всем статьям в песочнице — вот авторы и получат фидбек о том, почему никто статью опубликовывать не хочет ценой инвайта :)
                  • НЛО прилетело и опубликовало эту надпись здесь
                0

                Я и так делаю опросы, и люди даже тыкают. Но комментарии нужны чтоб статья больше просмотров собрала, а не для фидбека). А критические мне не очень интересны, учитывая насколько широка аудитория хабра я и так вижу эти критические отзывы:
                1) Слишком просто, тут серьезные люди сидят
                2) яннп
                И поэтому я уже не прошу критику, ну ее). Пишу для себя и для той пары подписчиков.

              +2
              Мне больше греет добавление в избранное. Значит не зря написал пост, если его потом планируют перечитывать.
                0

                Во, и это тоже

                  0
                  По связям качественных признаков со статистикой, надежных данных пока не получилось найти. В одном аналогичном материале на Хабре было заявлено, что имеется существенная связь с закладками. Но я когда статистику прогонял, то увидел больше признаков связи потока читателей с плюсиками/минусами.
                  Пока так обстоят с результатами
                  +1

                  Вот интересно Хабр отслеживает как часто переходят по закладкам. Boomburum.есть такая статистика?

                    0
                    Насколько я знаю, не трекаем, но хорошая идея, пригодится для одной планируемой фичи.
                +1
                в период их жизни с 28 сентября по 1 октября 2019 г.

                т.е. за выходные…
                Многие читают хабр по будням (на работе), сделайте то-же самое для вторник-четверг, очень интересно будет посмотреть на разницу в графиках.
                  0
                  Без сомнения интересно будет увидеть влияние следующих факторов:
                  1) день недели;
                  2) время суток;
                  3) интенсивность потока предыдущих публикаций;
                  4) группировка по хабам;
                  5) тема публикации;
                  и многое другое.
                  С этого мотива и начал, чтобы понять, когда лучше публиковать материал. Но там, пока, данные невнятные. А в данном аспекте модель сформировалась четко и я ее и опубликовал.
                  0
                  Ранее были посты о том, когда статьи читают на Хабре, в целом просмотры и ответы. На выходных — полное затишье. То есть, для такой выборки нужно учитывать не только время, но и день недели.
                    0
                    Мой опыт такой: лучше всего стартовать статью во вторник/среду.
                    Если в первый день статья не набирает много голосов, то второй и третий день будут почти без результата. Это происходит потому, что пока статья находится в «лучшие за сутки» ее смотрят. Потом она перемещается в «лучшие за неделю» или вообще выбывает из «рекомендованных», тогда все…
                    Еще я бы на вашем месте рассмотрел другие площадки для публикации, например, журнал Хакер. Там вы даже что-то сможете заработать на статьях. На хабре это гораздо труднее.
                      0
                      Где-то со вторником-средой согласен.
                      То, что первый день дает основной поток, тут математика однозначно подтверждает из таблицы следует, что 70%.
                      А другие площадки, пока не понимаю, чем они различаются друг от друга. На мой взгляд, разница между ними не несет существенных изменений, для меня. Но возможно какие-то аспекты проходят мимо моего внимания.
                        0
                        Есть площадки, которые платят авторам деньги за статьи. Просто нужно договариваться с редакцией, обговаривать темы статей, тщательней прорабатывать материал.
                        У хабра так же есть ППА — программа поощрения авторов, но по ней очень сложно что-то получить, слишком высокие требования.
                          +2
                          Понял. Спасибо. Пока мне легче заработать в своей отрасли. То есть затраты времени на статью существенные и на своем поле я за эти усилия получу гораздо больше. Пока пусть это будет хобби.
                      0

                      В Германии, например, сегодня выходной. И многие взяли отгул/отпуск и на завтра и укатили из городов.


                      То есть — многим может быть лень сидеть в интернете.


                      Что может таки немного повлиять на количество просмотров… :)


                      А статья интересная, спасибо!

                        0
                        Качественные, внешние факторы влияют на динамику просмотров. Сами по себе данные потока, не внятно отвечают на вопросы почему так происходит, только больше-меньше и относительные показатели. Поэтому и удивил третий рисунок, эта модель для анализа показывает, пока предварительно, что она работает как струна. На рисунке это показал. Для каждой публикации свой график, а вместе конфигурируется как оркестр. Такой аспект мне еще не попадался.
                          0
                          >> данные потока, не внятно отвечают на вопросы почему так происходит

                          Общая схема такая — читают ежедневно, но в основном постоянные читатели. После первого дня основная масса постоянных удаляется, ибо прочитали. Второй день дочитывают те, кто был в отгуле в первый день. Третий и далее — случайные читатели, посещающие сайт нерегулярно.

                          Но есть явное влияние комментариев. Если тема набрала много комментариев или высокий рейтинг — её замечают (в том числе сайт поднимает её в списке, возможно это главный фактор). Поэтому получается «струна», то есть основная масса прочитала, а потом смотрит на комментарии, если комментарии интересные — снова комментируют, чем реализуют положительную обратную связь, струна из прогиба выходит на новый подъём.
                            0
                            На мой взгляд, то что вы описали это эффект резонанса. А он возникает и применим на струне (струны могут быть разные от гитарной до моста). Поэтому и удивился, когда увидел модель струны на потоке. Как один из примеров, который попадался, это анимационная модель возникновения пробок на автомагистралях (кажется немецкие ученые такую модель выставили в сеть). Тогда, если поток можно представить в модели струны, то могут появится инструменты создающие пробку, так и увеличивающие поток.
                            В вашем примере — это как ответить на комментарий, так чтобы он усиливал резонансную амплитуду.
                            А если это можно смоделировать, то можно и запрограммировать. А реализацию можно поручить роботам. Допустим отдельный робот, который вставляет комментарии, с виду вроде бы не существенные, но на самом деле усиливающие резонанс. Отследить такого робота сегодня практически невозможно. Он сделал пять комментов по четыре слова на 500, как его увидишь?
                            +2
                            Кажется, тайна разгадана :) Осталось понять — мозговой слизень или нет )



                            Спасибо за статью, интересная!
                              +1
                              Ну надеюсь не злокачественный :)
                          +1
                          Единственный совет, прошу понимать, что эти цифры получены на анализе потока читателей публикаций всего одного дня, 28 сентября 2019 г.

                          Какой смысл собирать "статистику" за 1 день? Уж, если задаваться целью какие-то выводы делать, то хотя бы за 3 месяца надо смотреть.

                            –1
                            то хотя бы за 3 месяца надо смотреть

                            Три месяца это ориентировочно 3500-4000 публикаций. Это очень избыточный анализ получится. Основные статпоказатели, где-то за пределами 200 степеней свободы перестают видеть разницу.
                            Какой смысл собирать «статистику» за 1 день

                            Не за один день, а на непрерывном временном интервале размером 24 часа, в течении которых было опубликовано 21 публикация, 20 в дату 28 сентября и одна за несколько минут до 24:00 27 сентября, но по сути она свою востребованность реализовала в период с 28.09 по 01.10 2019 и поэтому ее включение допустимо. В результате исследования было проведено 33 фиксации состояния показателя «Количество просмотров публикации» для обследуемых объектов. По полученным данным было исследовано поведение пользователей.

                            Ну а в общем: «Сколь угодно смещенная оценка точнее отсутствия оценки вообще»
                            На этом принципе построено доказательство множества теорем, которые звучат следующим образом:
                            «Для произвольного ε > 0 существует натуральное число N0, что |Sn| ≤ ε для всех n > N0»
                            Сколько задач, в численных методах, начинают решаться с выбора первого приближения?
                            И зачем тогда, в анализе функций, люди начинают исследование их с определения точек: экстремума, перегиба, особых, разрывов?
                              +1

                              Вы прикалываетесь или всерьёз? Вы осознаёте, что посчитали "среднюю величину просмотров за 3 дня" на основе 21 публикации? Рассчитали доли с точностью до 0.01% на основе того же кол-ва… Аппроксимировали точки от разных статей одной функцией, хотя даже из беглого взгляда на графики очевидно, что рост просмотров в ночное время и в дневное выражаются совсем разными функциями. И интерес представляет как раз эти 2 функции + коэффициент популярности статьи, заложенный в них.

                                0
                                Посмотрим с другой стороны.
                                Вот сейчас 22-40. Смотрим список публикаций
                                1. Время публикации 22--15 — 76 просмотров
                                2. Время публикации 20--36 — 219 просмотров
                                3. Время публикации 19--10 — 754 просмотров
                                4. Время публикации 19--07 — 930 просмотров
                                5. Время публикации 19--06 — 430 просмотров
                                6. Время публикации 19--03 — 1,1к просмотров
                                7. Время публикации 19--03 — 217 просмотров
                                8. Время публикации 18--47 — 147 просмотров
                                9. Время публикации 18--41 — 2,2к просмотров
                                10. Время публикации 18--14 — 264 просмотров
                                11. Время публикации 18--09 — 1,4к просмотров
                                12. Время публикации 18--02 — 434 просмотров
                                Оптимальная стратегия автора будет в том, чтобы опубликовать свою статью сразу после статьи, которая станет «звездой» и перед статьями, которые будут менее популярны, чем его. В этом случае его материал будет в списке раньше «звезды», то есть читатели не будут «спотыкаться» о звездную публикацию. И перед его материалом будут менее интересные публикации, которые опубликованы после него и, соответственно больше читателей будут доходить до его публикации.
                                Вопрос. По тому списку что представил раньше или лучше для того момента, если будете писать ответ, вы сможете определить оптимальную стратегию автора для времени публикации своего материала?

                                Ниже на графике доверительные интервалы для среднего с 95% вероятностью, только один интервал из 72 часов не охватил линию апроксимации.
                                Не спорю сейчас могу сказать, после обработки тех данных более плотно, что для того чтобы получить очень надежные данные нужна неделя наблюдений и наблюдения проводить через полчаса. Тогда будут получены ответы на ваши вопросы и многие другие.
                                Кстати, пока выдвигается гипотеза о 4-х часовом интервале, то есть вполне возможно потребуется не две функции, а 6 на сутки.

                                  +1

                                  По факту, если вы хотите найти оптимальную стратегию публикации, то у вас исходные предпосылки неверны. Просмотры — это не причина, а следствие, и делать по ним какие-то выводы насчёт времени для публикации просто бессмысленно.
                                  У публикации есть несколько этапов набора популярности:
                                  1) самый сложный — набрать рейтинг +5 и попасть на третью страницу топа за сутки, на этом этапе прилетает большинство минусов в рейтинг статьи. Например, моя предыдущая статья получила 6 голосов против и 64 — за. Из 6 "против" 5 прилетело именно на первом этапе.
                                  2) выйти на 2-ю страницу топа за сутки
                                  3) выйти на 1-ю страницу топа за сутки
                                  4) попасть в блоки "читают сейчас" / "что обсуждают", т.е. в Top-5 по кол-ву просмотров / комментариев за сутки.


                                  Другими словами, такой показатель как кол-во просмотров помогает лишь тем статьям, которые вы назвали звёздными, попасть в блок "читают сейчас". А пока публикация не стала "звездой", имеет значение только рейтинг и, как следствие, позиция в топе за сутки.

                                    0
                                    Просмотры — это не причина, а следствие, и делать по ним какие-то выводы насчёт времени для публикации просто бессмысленно

                                    Ну я другое имею ввиду. Количество просмотров, которые получили предыдущие публикации перед, тем моментом, когда автор решит опубликовать свою. И тут показатели просмотров предыдущих публикаций, по Вашей же аргументации:
                                    Просмотры — это не причина, а следствие

                                    являются ситуативной оценкой, того положения, которое займет публикация автора в текущий момент.
                                    Логика аналогична следующей ситуации.
                                    В час пик в супермаркете покупатель наполнил корзину необходимыми товарами и подходит к кассам. Обычно в этот период времени у всех касс стоит приличная очередь и человек оценивает количество, тип покупателей, чтобы выбрать ту очередь в кассу которая минимизирует его затраты времени необходимого на оплату покупки. В этой игре последних покупателей выигрывает только один.
                                    Предполагаю, что так поступает большинство, так как игнорировать внешние обстоятельства удается не многим.
                                    Качество публикации и ее оценка читателями это уже элемент внутренних процессов на Хабре. Да оно (качество) разгоняет, либо тормозит количество прочтений, но все эти процессы протекают во время активной жизни публикации. Это время жизни взято из заявлений системных участников, в объеме 3-х дней.
                                      0
                                      являются ситуативной оценкой, того положения, которое займет публикация автора в текущий момент.

                                      А вот и нет. Во-первых, функция просмотров зависит от рейтинга нелинейно, а во-вторых она многопараметрическая, и зависит ещё:


                                      • от кол-ва хабов, в которых опубликована статья
                                      • от популярности этих хабов, как среди подписчиков, так и среди авторов статей
                                      • от тематики статьи; если тематика узкая, то даже с высоким рейтингом можно получить относительно мало просмотров
                                      • от общего кол-ва посетителей на сайте (в выходные, праздники, сезон отпусков оно значительно снижается)

                                      Это время жизни взято из заявлений системных участников, в объеме 3-х дней.

                                      На самом деле, ключевую роль играют первые 24 часа, дальше идёт обычный хвост по Пуассону.


                                      P.S. И самое ключевое: кол-во просмотров не является определяющим фактором для значимых величин, таких как рейтинг статьи и кол-во комментариев.

                                        0
                                        Да я не предлагаю отменять рейтинг, комментарии.
                                        Все что предлагается, это дополнительный инструмент. И по моим предположениям инструмент, который в потенциале может дать понимание как ведут себя люди работая с первой страницей поисковика.
                                        По сути все те факторы, которые вы защищаете и есть особенность Хабра и, по моему разумению, достаточно хорошая. Так как все происходит с соблюдением естественных законов. В случайном режиме публикация. Обоснованные, в допустимых пределах, оценки реальных людей.
                                        Ведь посмотрите, оценка в поисковиках происходит в самых закостенелых схемах бюрократии.
                                        Чем занимаются сеошники в реале.
                                        Автор опубликовал материал. Дальше нужно доказать поисковику и выбирайте и дополняйте сами композицию:
                                        а) Что ты не дурак;
                                        б) Что это на русском;
                                        в) Принеси справку на справку о том, что та справка не противоречит другой справке;
                                        г) потом дай денег на продвижение.
                                        И в итоге он, поисковик, как матерый бюрократ, все равно эту публикацию задвинет на ту полку, которая ему удобней.
                                          0

                                          Причём тут поисковая выдача то? Вы смешали в одну кучу множество разрозненных показателей и пытаетесь вывести какие-то рекомендации из этого. Ближайшие аналогии, которые приходят в голову, это вовсе не очереди в супермаркете. Это скорее походит на то, что вы хотите новому пациенту выписать лечение, основываясь на средней температуре по больнице. Или рассчитать движение планет, исходя из селеноцентрической модели вселенной. И удивляетесь, почему траектория движения Меркурия вокруг Луны такая сложная, что приходится выдвигать гипотезы о 4-х часовом интервале. Понимаете аналогию?

                              +3

                              Да тут ни статистикой, ни обработкой не пахнет. На три графика три зависимости, причем все без малейших попыток аргументации.


                              Про нормировку можно даже не вспоминать, про попытку посмотреть на Фурье — и подавно.

                            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                            Самое читаемое