Comments 5
Привет, вы нашли корреляции и благодаря им можете построить модель для предсказания просмотров статьи, например.
Но в статье не выявлены причины такого количества просмотров. Очевидно, что тэги, длина статьи и длина заголовка при мусорном контенте совершенно не работают. Анализ стоило проводить в разрезе популярный/не популярный автор - кажется, что вы бы обнаружили, что правила, работающие для популярных авторов, совершенно не работают для других.
Дело не в том, что у не популярных будет просмотров меньше в любом случае (так как у них нет своей аудитории), а в том, что выявленные корреляции не работают в принципе, если статья не получила охваты.
Привет. В первую очередь спасибо за конструктивный фидбек.
Нынче поведение "чайка" очень популярно (обосрал и улетел).
Это первый раз когда я что-то подобное делаю.
И уже пост фактум понял что нужно было еще отделить новости, совсем старые статьи и всякий мусор. (код обновился с тех пор)
Поделить на популярных/не популярных авторов отличная идея. Возможно эти изменения когда-то дойдут до хабра:)
Кстати в GitHub есть еще кое-что, что не попало в статью. При помощи word2vec и K-means сгруппировал заголовки по схожести. И можно посмотреть заголовки с какой структурой и формулировкой преобретают больше всего просмотров. Либо CTR.
Статьи авторов, которые уже имеют значительное количество просмотров, склонны иметь высокое количество показов. Это может говорить о том, что у этих авторов уже сложилась своя аудитория, которая активно следит за новыми публикациями.
А может быть и наоборот - те, кто научился писать "на злобу дня", нащупал, что интересно аудитории, получает больше просмотров - и это его мотивирует писать больше. Корреляции - они как дышло, куда повернул, туда и вышло...
Количество тегов vs показы... А как насчёт распределения статей по количеству сопровождающих их тегов? Готов поспорить, что картинка получится примерно такая же - а значит, теги на показы не влияют.
Данные как минимум не очищены - например, видна чёткая граница по длине заголовка (в символах, верно?) на уровне 150 с небольшим, а потом бац - и один заголовок на 175+ символов (выброс, такие штуки обычно исключают из рассмотрения, т.к. они выбиваются из колеи и ломают найденные зависимости).
Дни с момента публикации vs показы... Не совсем корректный график... Можно ожидать, что количество показов любого материала увеличивается со временем (причём в момент сразу после публикации число показов нулевое), соответственно, мы должны увидеть не ровный лес с первого дня, а разные темпы роста, ещё по этому графику вопрос - а что происходит после примерно 460 дней с показами - почему там все точки "прижаты к полу"? По-видимому, здесь отображено число показов в сутки. Тогда ещё показательнее провал показов спустя 460 дней после публикации, и было бы интересно посмотреть - кто эти счастливчики, на какие темы они писали, что их всё ещё показывают?
Длина заголовка vs показы и vs просмотры - здесь, чтобы понимать, что происходит, необходимо добавлять третье измерение, чтобы видеть плотность точек в разных зонах.
Общее количество статей автора и общее количество просмотров автора - непонятно, почему точки выстроились вдоль вертикальных прямых (предположу, в результате округления очень больших чисел до не очень больших чисел, с потерей всего что только возмоно).
Кстати, для того, чтобы можно было говорить о корреляции, неплохо бы посчитать как сам коэффициент корреляции, так и дать оценку его значимости (в ряде случаев коэффициент может быть большим, но при этом - незначимым). Как обстоят дела с коэффициентами в этом исследовании?
Интересная статья! Я буквально на прошлой неделе сделал "исследование" по смежному проекту - DTF. Было весело :)
Как мы проанализировали 250,000 статей на VC, и поняли что делает посты успешными (возможно)