@apoltavcev8 окт 2024 в 08:45

Что такое дочтения статей и зачем Хабр их считает

Простой

6 мин

3.4K

Блог компании ХабрКонтент и копирайтинг * Управление медиа * Habr

+66

Комментарии 59

НЛО прилетело и опубликовало эту надпись здесь

@apoltavcev 8 окт 2024 в 12:49

Пока рекомендательной системы в лентах нет, так что крутить незачем. Но да, когда будем её разрабатывать — включим режим секретности.

Список параметров может и покажу, но подробно описывать алгоритм (и в каком месте там нейронки) точно не буду.

@netch80 8 окт 2024 в 11:19

А если сначала быстрый пробег по статье, потом медленнее, а потом совсем медленно, как считаться будет?

@Zempik 8 окт 2024 в 12:12

Если незарегистрированный читатель когда‑нибудь вернётся в статью и решит прочитать её заново — мы это поймём, если кука сохранилась.
В этом случае в статистике зачтётся одно, самое глубокое прочтение.

В статье похожий случай описывали, могу предположить будет аналогичная ситуация.

@apoltavcev 8 окт 2024 в 12:52

Всё так, зачтём самый глубокий забег и его время. Если читатель несколько раз дошёл до одного места — зачтём самое длительное из прочтений.

@h45h47 8 окт 2024 в 21:26

А если не дочитал, а потом, зайдя заново, быстро пролистал до момента остановки, чтобы продолжить? Тогда может дочтение в доскролл попасть.

Хотя это уже редкие кейс, на статистику наверняка не сильно влияет.

@apoltavcev 9 окт 2024 в 05:42

Конкретно этот случай мы обсчитаем корректно, потому что метки доскроллов и время между ними отдельно трекаются.

Но да, есть эджкейсы, при которых статистика рушится. К счастью, уже после 1000 просмотров они практически не влияют на показатели.

В будущем хотелось бы стать точнее. Тогда мы бы уже не только воронки вывели, но и тепловую карту статьи — было бы видно, в каких местах юзеры задерживаются дольше.

@NataliaZheltova 8 окт 2024 в 11:29

Жаль, что нельзя посмотреть «дочтения» у конкурентов, чтобы анализировать среднее по палате:)

@apoltavcev 8 окт 2024 в 12:54

Решили поберечь нервы авторов, им и так несладко бывает) Но среднее по всему Хабру покажем обязательно, только чуть позже.

@Flammmable 8 окт 2024 в 11:54

Есть ли у вас внутренняя оценка полной численности целевой аудитории Хабра? Ну, скажем, "Хабр может претендовать на внимание 15-20 млн. человек, но пока что удалось привлечь лишь 5 млн. из данной совокупности людей".
Есть ли у вас какие-то модели тех социальных/профессиональных групп, которые являются целевой аудиторией Хабра?
Возможно ли собрать статистику, в какой момент чтения статьи пользователи выставляют ей оценку? Представляется, что это происходит буквально в течение первых 3-4 абзацев. Но так ли это на самом деле?

@apoltavcev 8 окт 2024 в 13:12

Да, рынок оценивали, но показать не могу — внутренняя информация. Если говорить про группы, то с большим отрывом лидируют бэкенд-разработчики, за ними фулстек и админы. Других специальностей сильно меньше.

@Flammmable 8 окт 2024 в 13:24

Спасибо!
Если можно будет опубликовать хотя бы часть данного исследования, лично для меня это было бы суперинтересно. Но я понимаю, что вряд ли :)

@apoltavcev 8 окт 2024 в 13:15

Пока не могу сказать, но вопрос интересный. Сейчас мы сфокусированы на действиях, которые могут совершать незарегистрированные пользователи. До рейтинга тоже когда-нибудь доберёмся.

@Zempik 8 окт 2024 в 12:17

Было бы здорово сделать сортировку статей по % дочтений и отдельно по количеству комментариев без учета рейтинга.

@apoltavcev 8 окт 2024 в 12:57

Хорошая идея, спасибо!

@Javian 8 окт 2024 в 12:38

Прочитать всё интересное - надо много времени. Поэтому чтение в свободное время: Начинаю читать на работе - дочитываю дома поздно вечером. Начинаю читать рано утром дома - заканчиваю на работе. При этом дочитать могу на следующий день. А могу всё сразу - зависит от объема текста и количества фото. И иногда приходится углубиться на гугленье.

@hw_store 8 окт 2024 в 12:55

А ещё некоторые статьи, даже плохие, вызывают бурю комментариев, и во многих случаях участие в обсуждении или хотя бы чтение комментариев является более познавательным занятием, чем чтение исходной статьи. При этом статья может быть просмотрена по диагонали.

@apoltavcev 8 окт 2024 в 13:04

Есть такое, поэтому для себя мы трекаем время в комментариях. Авторам эти данные пока не выводим, но может быть добавим их позже.

@BarakAdama 8 окт 2024 в 13:50

Есть риск, что фокус на дочтениях может привести к смещению контента в более короткие (менее глубокие) форматы. Время — ресурс, он ограничен. Даже на качественную, но длинную статью его нужно больше, чем на короткую. Похожее смещение может возникнуть и в паре научпоп-хардкор по той же причине.

В любом случае интересно, как всё это будет развиваться. Новые идеи — это хорошо! Удачи вам.

@apoltavcev 8 окт 2024 в 14:42

Спасибо на добром слове! Да, при прямом сравнении у коротких форматов действительно есть преимущество, как и у научпопа.

Но Хабр всегда был про длинные статьи и профильный контент. Так что будем продумывать систему сдержек и противовесов, ведь специфику терять не хочется.

@russeljo 8 окт 2024 в 19:34

Короткие статьи можно оставить на просмотрах и активности в комментариях

@Noizefan 8 окт 2024 в 21:04

введите коэффициент значимости дочтения, чем меньше статья - тем менее полезно дочтение, и пусть они множатся в объективную но условную оценку

@ris58h 8 окт 2024 в 22:02

Но Хабр всегда был про длинные статьи и профильный контент.

И поэтому появились посты /s

Мне интересно как происходит сама продуктовая разработка Хабра. Как решается какие фичи будут, как отбирают и тэстируют гипотезы. А если ещё и с примерами и со статистикой, так вообще замечательно было бы.

@Flammmable 9 окт 2024 в 05:37

"Но Хабр всегда был про длинные статьи и профильный контент."
И поэтому появились посты...

...и Слава Рюмин, который пишет про что угодно кроме IT, но является рекордсменом ППА. При этом отнесение его статей к профильному хабу Бизнес-модели*, очевидно, не соответствует тематике того хаба ("Предпринимательская деятельность в IT").

Мне интересно как происходит сама продуктовая разработка Хабра. Как решается какие фичи будут, как отбирают и тэстируют гипотезы. А если ещё и с примерами и со статистикой, так вообще замечательно было бы.

Удваиваю вопрос :)
В первую очередь было бы интересно, что для руководства Хабра является целевыми показателями? А затем - как от них протягивается цепочка к результативности того или иного нововведения.

@apoltavcev 9 окт 2024 в 06:12

что для руководства Хабра является целевыми показателями? А затем - как от них протягивается цепочка к результативности того или иного нововведения.

Подумаю, что я могу вытащить из-под NDA. В общих чертах расскажу в любом случае, но под это отдельную статью надо написать)

@Flammmable 9 окт 2024 в 06:19

В общих чертах расскажу в любом случае, но под это отдельную статью надо написать)

Это будет офигенно!

@Boomburum 9 окт 2024 в 16:24

Слава Рюмин не является рекордсменом в ППА :) Некоторые статьи, которые «написаны в профильные хабы и набрали рейтинг» отклоняются нами, когда мы принимаем решение поощрять или нет ту или иную статью-кандидата. Это не очень нравится авторам, но правила нам это позволяют, да и в целом у нас нет цели платить всем за всё — стараемся отбираем только самые технические и профильные статьи.

@Flammmable 10 окт 2024 в 07:36

стараемся отбираем только самые технические и профильные статьи

Большое спасибо вам лично и всей вашей редакции за то, что стараетесь сохранить Хабр тем местом, которое продекларировано в его манифесте!! Вы самые лучшие!

Пользуясь случаем хотел, однако, поинтересоваться:

Почему, исходя из комментария многоуважаемой @Exosphere, из статьи Рюмина, не соответствующей хабу Бизнес-модели*, модератор исключил данный профильный хаб?
А из этой, этой, этой и этой статьи (которые также не соответствуют описанию упомянутого профильного хаба - "Предпринимательская деятельность в IT") - не исключил?
В чем разница?
Правда ли, что при достижении первого места автор может опубликовать в ленте специальный рекламный блок "Голос свыше" и Слава Рюмин его неоднократно использовал, в том числе для рекламы своих статей (нерелевантных профильным тематикам Хабра)?

@apoltavcev 9 окт 2024 в 05:51

Кстати, отчасти это действительно так) Наличие постов удлиняет статьи, потому что теперь все короткие тексты валятся туда.

Про интерес к продуктовой разработке Хабра понял, спасибо. Подумаю, что можно об этом написать.

@sfi0zy 9 окт 2024 в 08:00

Наличие постов удлиняет статьи

Есть ложь, наглая ложь и статистика с подменой выборок. Нас на Хабре таким не проведешь!

Было бы на самом деле интересно посмотреть на графики по годам (скажем за 10 лет), сколько пишут в разные хабы. Особенно не очень попсовые. Такая мега подборка трендов среди всех авторов. Скажем хаб WebGL. Был период, когда там было много статей, а потом стало казаться, что их стало меньше в несколько раз. Это так кажется, или люди действительно перестали про это писать? "Тортовость" Хабра складывается же не только из формальной длины материалов, но и из специалистов узкого профиля с уникальными знаниями, которые готовы ими делиться. И есть впечатление, что там происходят смещения, какие-то специализации приходят, какие-то уходят.

@apoltavcev 9 окт 2024 в 08:35

"Тортовость" Хабра складывается же не только из формальной длины материалов, но и из специалистов узкого профиля с уникальными знаниями, которые готовы ими делиться.

Да, вы абсолютно правы! И смещения по профилю действительно есть, мы это видим.

В графиках по годам могут быть искажения из-за неправильной разметки данных. В Хабре 10-летней давности точно не так много внимания уделялось правильному проставлению хабов. Да и границы некоторых хабов размыты.

Но с хабами вроде WebGL всё более-менее понятно. Подумаю, можем ли мы какую-то инфу выкатить в открытый доступ. Спасибо за наводку!

@vtal007 8 окт 2024 в 13:58

Почему это сложно сделать? по сути нужно событие. которое сработает в конце статьи и еще метрика время от старта до конца (чтобы исключать быстро-скролл), плюс посчитать кол-во знаков (чтобы прикинуть среднюю скорость чтения)

Тему с доскроллами и прочими редакторскими метриками продвигали активно ребята из mail.ru. А потом и в я-метрике появились кое-какие метрики

@apoltavcev 8 окт 2024 в 14:50

Концептуально действительно ничего сложного. Фронт Хабра отправляет чуть больше событий, потому что мы строим подробную воронку, но смысл тот же.

Сложность в агрегации данных и скоростях. Чтобы вывести показатели авторам, пришлось отдельно думать над тем, как ускорить сервис.

Плюс нагрузки. На масштабах Хабра это настоящий хайлоад.

@ne555 8 окт 2024 в 15:38

Дочтения показывают, сколько читателей статьи действительно её прочитали

Боже. [р.п. дочитывания чего? статей].

Дальше дочтеневать статью не стал.

@apoltavcev 8 окт 2024 в 15:57

Мы не первые начали собирать дочтения, поэтому взяли формулировку, которая уже используется на рынке.

Многие авторы привыкли к названиям показателей в Метрике — не вижу смысла их переучивать.

@ne555 9 окт 2024 в 06:21

формулировку, которая уже используется на рынке

Только у Яндекса такая формулировка была? У кого-то еще "дочтения" имеются? Может быть в т.ч. и поэтому они на hh ищут специалиста по тех.документации?

Многие авторы привыкли

Да? Опрос проводили на Хабре или это все интуитивно, потому что Яндекс?

Я вот вижу, что "многие" пользователи и тем более читатели не привыкли к такой формулировке на Хабре.

Оказывается вам уже сообщали об этом факте.

Вы можете хоть всем отделом стоять за "дочтением" и минусовать, но лучше бы пообщались с учителем русского языка, провели бы опрос среди читателей/авторов контента на Хабре, а не слизывали сомнительную формулировку у компании, которая на ладан дышит. Вам пользователи говорят, что "дочтения" — криво, портал gramota за "дочитывание", даже браузер в редакторе подчеркивает красным, что формулировка такая себе.

@KGeist 9 окт 2024 в 14:38

"Дочтение" это по факту образование от глагола "дочесть", который существует, правда как устаревшее слово.
Прочесть - прочтение.
Дочесть - дочтение.

В какой-то момент глаголы "-честь" стали заменяться глаголами "-читать". Но имеют право на жизнь!
Мне лично "дочитывание" звучит как процесс (т.к. это несовершенный вид), тогда как "дочтение" больше звучит как про результат. А в контексте термина как будто важнее результат, чем процесс.

@AlexanderS 8 окт 2024 в 18:29

А как будет считаться, если я с мобильного без авторизации в дороге читаю статью, а на ПК потом уже подпроматываю чтобы плюсик статье поставить? Причём у меня куки и там и сям в браузерах автоматом трутся)

@apoltavcev 9 окт 2024 в 06:00

Оп-па, вот и эджкейс) Это будут два независимых прочтения, против смены устройства и чистки кук мы бессильны.

Но если авторизуетесь с мобильного — считаться будет корректно, для зарегистрированных у нас отдельная логика.

В целом, такие проблемы характерны для всех систем аналитики. «Пользователь» в них — это не совсем пользователь, а какое-то промежуточное состояние между пользователем и сеансом. Но и этого хватает, чтобы оценить качество текста.

Трекать юзеров точнее я бы и не стал, в корпорацию зла превращаться не хочется)

@9982th 9 окт 2024 в 00:25

Сейчас чтобы скрыть автора нужно открыть статью и доскроллить до блока с информацией об авторе в самом конце. Это считается как обычное дочтение или идет отдельной графой?

@apoltavcev 9 окт 2024 в 06:03

Для этого как раз разделяют доскроллы и дочтения. В этом случае будет зачтён доскролл.

По дочтениям о качестве статьи можно судить, а вот доскроллы скорее говорят о том, что в комментариях интереснее. Или статья полезная, но водянистая.

@KEugene 9 окт 2024 в 04:29

Тут есть несколько моментов, что искажают картину.

Как упомянули выше, чтобы забанить автора, надо доскролить статью.
Статья может быть так себе, но мотаем ради комментариев. Думаю, ситуация знакома.
У статьи отображается столько "минусов", что даже интересно за что ее так. Ну и комментарии. Опять мотаем до конца.
В общем, статистика может быть интересной, но она может быть искажена "ценностью" информации, что идет после статьи, а не самим материалом.

@apoltavcev 9 окт 2024 в 06:07

Да, замечания справедливые. Поэтому важно помимо доскроллов считать дочтения, они больше говорят о качестве текста.

@V1RuS 9 окт 2024 в 14:24

немного не в тему, но: почему на Хабре есть "лучшее за сегодня", но нет "лучшего за вчера" (или за любую выбранную дату)?
я из-за этого иногда пропускаю интересные статьи, если открываю Хабр не каждый день.

@apoltavcev 9 окт 2024 в 15:06

В потоках есть подходящий по смыслу фильтр)

Скрин

@V1RuS 9 окт 2024 в 15:53

Нет, это как раз неподходящий. Тот же вопрос: лучшие за последнюю неделю есть, а где лучшие за предыдущую неделю? Или за месяц, но не за этот, а за декабрь 2021 например?

@apoltavcev 10 окт 2024 в 08:57

Заберу в бэклог и подумаем, спасибо. Планировали поработать с лентами как раз)

@V1RuS 10 окт 2024 в 09:59

на пикабу это сделано достаточно удобно: можно выбрать любую дату или диапазон дат, и дальше статьи (посты) за эти даты уже сортируются по рейтингу.

@zamboga 9 окт 2024 в 20:11

Воспользуюсь случаем, задам вопрос напрямую.

Хотел бы на хабре галочку в настройках "скрывать прочитанные статьи". Я нередко пользуюсь разделами "лучшее за месяц" или "лучшее за неделю", и где-то на 2-4 день рейтинг уже "протухает" — на первой странице выдачи будут или прочитанные, или нерелевантные [ для меня] статьи. И вот тут бы прям на фасад перед катом кнопочку "скрыть статью" очень пригодилась бы, чтобы подобная лента всегда была свежей.

Может закинете в бэклог идею?

@apoltavcev 10 окт 2024 в 08:58

Идея понятна, забрал) Спасибо, что подробно описали!

@banno 10 окт 2024 в 19:53

Это из за этого мобильным приложением почти не возможно пользоваться в зонах не устойчивого приема? Едешь в электричке, читаешь уже подгруженную статью и тут бац заглушка во весь экран.

@apoltavcev 11 окт 2024 в 07:25

Нет, так быть не должно. Если ещё раз с этим столкнётесь, можно показать заглушку нашей техподдержке: https://habr.com/ru/feedback/

Мы проверим и исправим ошибку. Сегодня потыкался в приложение из леса, воспроизвести не смог :(

@banno 12 окт 2024 в 20:20

Здравствуйте!

Это издержки использования технологии отложенной загрузки. Возможно, в будущем, мы придумаем как это обойти. Но, пока что, это неизбежное зло.

HABR Support

@apoltavcev 18 окт 2024 в 13:38

Да, действительно есть такое ограничение. Я неправильно понял смысл ошибки — думал, что статья уже подгружена до конца.

Если связь неустойчивая и надо это обойти, можно переключить браузер в режим чтения — должно помочь. Так текст подгрузится полностью.

@banno 19 окт 2024 в 16:33

Да поддержка ерунду ответила, в браузере все нормально работает, жалоба на мобильное приложение, специально сейчас проверил всю страницу до конца пролистал чтобы загрузилась и отключил интернет. заглушка вылетает сразу же.

@Draku1a 16 окт 2024 в 09:28

Обычно пользую возможности Яндекс-браузера по краткому пересказу или озвучке текста страницы. Если не первое, то второе - точно должно быть сопоставимо с дочтениями... Но как это считать?..

@apoltavcev 18 окт 2024 в 13:41

Пока даже не знаю. Но если люди массово перейдут на озвучку вместо чтения — будем и под это инструмент пилить. У подкастов, например, есть подробная статистика прослушивания.

@ArtemTribunsky 18 окт 2024 в 13:32

Много просмотров, мало дочтений — кликбейт, информационный шум
Мало просмотров, много дочтений — полезная узкоспециализированная статья, которая с высокой вероятностью повлияла на своих читателей

Второй случай еще может говорить о том, что статья хорошая, но заголовок (превью с картинкой/анонс) - слабый.

@apoltavcev 18 окт 2024 в 13:42

Да, хорошее замечание!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий