Как стать автором
Обновить
337
0
Сергей Парамонов @varagian

Data Scientist, PhD in AI

Отправить сообщение
Не, я попытался сильно упростить алгоритм и в итоге получилась лажа. Сейчас внёс небольшие изменения в код; можете посмотреть осмысленность текущей выдачи?
Попробовал пофиксить. Как сейчас результаты?
Попробуйте сейчас еще раз.
Скорее всего я слишком упростил алгоритм, пытаясь сделать его доступным для самой широкой аудитории.

У меня есть догадка, где основная проблема с этой версией алгоритма. Попробую вечером пофиксить эту проблему, и можно будет посмотреть результат.
Ответили:
Здравствуйте.

Просмотры должны считать всех пользователей (полноценные аккаунты, RO, гости).

Всю доступную на данный момент статистику можно найти на habrahabr.ru/info/advertising/ (медиакит).

— C наилучшими пожеланиями,
Служба поддержи «Хабрахабра»


там же нашел:
Ежедневно Хабрахабр посещают
около 1 000 000 человек.

у меня получилась грубая оценка в 0.85млн просмотров в сутки по новым статьям, вроде вполне правдоподобно.
Переправил вопрос админам, в течении пары дней всё узнаем.
У пульса считается посещаемость в минуту (!) только среди «Новых» статей. Смысл пульса в том, чтобы предсказать насколько активно (в среднем) будут читать статью, если её сейчас опубликовать.

P.S. 24 часа * 60 минут * 600 (просмотров в среднем) ~ 0.85млн просмотров нового. Вполне возможно, что сейчас лето и количество пользователей существенно ниже (все в отпуске), либо доля просмотров приходящая на «Новое» составляет только небольшую часть от общего числа просмотров.
Пики ближе к концу рабочего дня в 16-17 часов, и в 18-19 уже начинается спад, думаю, что все просто «дочитывают» Хабр перед уходом и может быть читают по дороге домой в транспорте.
Да, вносил изменения в код. Как всегда всё работало хорошо во время тестирования, но ночью после продолжительной работы вылезали совершенно неожиданные баги, которые всё уронили напрочь. Сейчас я вроде бы переписал эту часть и должно всё стабильней работать.

Что же там произошло в ту ночь
Каким-то невероятным макаром, я передал Heroku свои настройки локали, то ли случайно, то была глубокая ночь, но почему-то эти настройки не вступили в силу в течении нескольких часов. И ночью matplotlib вызвал стандартную функцию отрисовки plot(x,y, '-o') и ничего не предвещало беды, однако, x — массив дат, для отображения которых вызывается strftime зависимый от локали. В итоге matplotlib получил кучу кириллицы, где он её не ожидал и всё упало.

Во вторую ночь, всё работало хорошо, прошло предварительное тестирование и ничего не предвещало беды. Но ночью plotly начал выдавать ошибку авторизации, видимо связанную с слишком большим количество запросов в минуту, поэтому пришлось уменьшить количество статей в пуле.
Количество просмотров берется прямо из параметра поста «просмотры», насколько мне известно — это просмотры среди всех пользователей.
Вроде бы ничего не отвалилось и работает:
www.habr-analytics.com/venn?hubs=net&hubs=3d-printers&hubs=aws
Возможно, стоит пересчитать в реальном времени, это не сложно.

А само утверждение как-то проверялось или это интуиция? Если проверялось, то нельзя ли посмотреть/выложить данные? Думаю, не мне одному будет интересен такой датасет.
В идеале это бы нужно сделать по схеме приложений в соц. сетях (это мой wishful thinking), и теоретически на Хабре есть приложения. Их конечно пока нельзя создавать — но когда-нибудь всё будет :-)
Когда-то уже писал про инструкции на Хабре, хотя и немного в другом ключе
Портрет хабра-tutorial
habrahabr.ru/company/dmlabs/blog/218607/

Для корреляции между добавлением в избранное и сроком жизни нужно действительно проводить longitudinal study и собирать качественный датасет.
Согласен, сам как-то пробегался по ним перед операцией жены.
Добро пожаловать в категорию долго-играющих статей, такие статьи есть, но их по предварительным данным и моим субъективным ощущениям (за шесть с небольшим лет) немного.

У меня такая статья только одна и она собственно и сподвигла меня сделать систему анализа статей. До сих пор встречаю ссылки на неё в сети и радуюсь.
Наблюдаю за статьями через монитор уже пару недель и создается впечатление, что реально читают только «лучшее за сутки» и более-менее читают «новое», для большинства статей характерна вот такая ступенька после 24х часов (статья Открытый Терминальный Клиент ОТК-110 — просто новости)

и дальше почти горизонтальная линия (кроме отдельных долго-играющих статей)
Надо будет над этим подумать, но всё же лучше дождаться официального API. Если сейчас Хабр изменит вёрстку, то всё полетит, приложение встанет и данные за период переписывания и отладки приложения пропадут.
Гляну, только формы сейчас реализованы через python библиотеку WTForms, поэтому это может быть нетривиально без переписывания части интерфейса.

Информация

В рейтинге
Не участвует
Откуда
Antwerpen, Бельгия
Дата рождения
Зарегистрирован
Активность