Как стать автором
Обновить

Исследование: СМИ идут за контентом в Телеграм-каналы

Мессенджеры *Data Mining *Математика *Визуализация данных Статистика в IT

В вебе только и разговоров, что о Телеграм-каналах.


Однако, ещё никто не оценил численно: какое влияние оказывают Телеграм-каналы на СМИ? Сегодня мы попытаемся это исправить — и сделаем первый шаг в анализе связки медиа и Телеграма.


Ключевой вопрос исследования:


Какую роль играют Telegram-каналы в формировании медиаповестки?

Для оценки будем использовать следующий подход: соберем датасет новостей и оценим, какая часть приходится на Телеграм-каналы. Здесь мы собрали для анализа 67 тысяч постов медузы и проанализировали их источники и ссылки.


Начнем с интересного: новости на Медузе имеют специально выделенный "официальный" источник, а также в тексте присутствуют ссылки на другие источники, назовем их здесь "неофициальными".


Начнем с новостей, где источником указан Телеграм: официально (синий график) и в тексте (красный) — разница пятикратная. Как мы видим, медуза только начала официально и вообще в принципе ссылаться на Телеграм. Тренд: количество Телеграм-новостей растет: как в виде официального источника, так и в виде ссылок!



Данные: для воспроизведения результатов и дальнейших исследований выложены в открытый доступ: датасет (67к исходных текстов статей) и CSV c метаинформацией. См. методологию сбора и код в предыдущей статье по анализу Медузы.


Под катом:


  • Анализ — Телеграм vs Facebook (и vs Twitter).
  • Где находится Телеграм среди других ньюсмейкеров и источников?
  • Как растет влияние Телеграма?
  • На какие каналы чаще всего ссылаются?
  • Что из всего этого можно вывести?

Телеграм vs Facebook


Как мы заметили — популярность Телеграма среди медиа-источников растет, в то время как популярность отдельных классических соц. сетей, например Facebook, падает — как будто Телеграм стал отъедать часть пирога Facebook:


Телеграм vs Facebook vs Twitter


Однако, заметим, что например Twitter так просто свои позиции не сдаёт — и выглядит как будто Twitter стабилизировался (и не растет дальше) на хорошей позиции, Facebook падает, а доля Телеграм растет — причем судя по времени выглядит, как будто здесь свою роль сыграл именно Телеграм.



Где Телеграм среди источников?


Как мы видим, СМИ не торопятся признавать Телеграм официальным источником (и только вообще начинают это делать), в то время как активно его цитируют — мы видим, что среди официальных источников (за все время существования Медузы) Телеграма нет, в то время как среди самых цитируемых он уже встречается.


Если мы посмотрим на классическое медиа — например, КоммерсантЪ, то убедимся, что такого эффекта здесь не наблюдается — выделение синим: количество ссылок в обоих случаях примерно равное. В то время как картина Телеграма сильно напоминает социальные сети — СМИ активно берут оттуда контент, однако официальным источником не ставят: это видно в таблице на примере Twitter (выделение красным, такое же как и у Телеграма) — второй по количеству цитат, но официальным источником не является.



Изменение ранга во времени


Как мы видели во временных графиках цитирования: общий тренд — рост Телеграма, более того до 2017-2018 его фактически не было в источниках и цитатах новостей, поэтому логично рассмотреть последние три года отдельно, и тогда картина источников существенно меняется:



Фактически, мы видим, что Телеграм, как источник контента новостей, стабильно растет — особенно по отношению к другим социальным сетям: и Facebook, и VK.com сдают позиции там, где растет Телеграм.


Если тенденция сохранится, то Телеграм войдет в топ-5 источников контента в ближайшее время.

Top-каналов по официальным ссылкам и по цитатам в тексте


Также интересно посмотреть на какие именно каналы чаще всего ссылается Медуза, возьмем топ-15 каналов по цитатам в новостях:



И сравним с упоминаниями в качестве официального источника:



Отсюда можно заметить, что абсолютный лидер — Mash, который специализируется на "срочных" новостях. В то время как в качестве официальных источников выступают условные организации, например пресс-служба судов Санкт-Петербурга (что довольно иронично, учитывая судебный запрет на работу Телеграма в России). Для них канал — это одно из основных средств оповещения, и тогда логично, что они могут играть роль официальных источников СМИ.


Интересное наблюдение про информативность заголовка


Исследуя сам датасет статей, обнаружил следующую закономерность: средний размер заголовка в символах стабильно растет, если в 2014 типичный заголовок звучал как


"Лоукостер «Аэрофлота» поменял название" = 40 символов

То в 2019, это уже ближе к


"Сотрудники МЧС не сумели спасти учебный манекен. Его утащила напуганная лошадь " = 80 символов


Возможно, это связано с особенностью поисковых системы, а также особенностью работы социальных сетей (где люди часто не читают дальше заголовка, или их нужно "заманить" кликнуть по заголовку).


Почему была выбрана Медуза и что делать дальше


Дальнейший анализ


Безусловно, анализ и исследование на основе одного медиа не может быть 100% достоверным и целиком отражать информационную повестку СМИ — необходимо провести анализ на основе нескольких ключевых медиа, например на основе бизнес тройки — Ведомости, РБК, Ъ. Если у вас есть доступ или существенный архив их новостей (желательно свежих; и если есть и других медиа) — дайте знать.


Также, необходимо составить внутреннюю карту самого Телеграма — как каналы связаны между собой — см. мою статью про связь Хабов и анализ графа связи статей.


О проблемах и методологии анализа


Выбор Медузы для анализа неслучаен — здесь приведем выжимку, почему именно она была выбрана и какие проблемы возникают с другими изданиями.


Во-первых, такие издания как "Ведомости" и "Коммерсант", как правило, не ставят гиперссылок на источники, а дают только текстовое описание — откуда пришла информация. Например, новость от коммерсанта: "«Абрау-Дюрсо» понижает градус" — в ней присутствует только текстовая ссылка на источник в духе "… заявил президент «Абрау-Дюрсо», в интервью газете «Ведомости», февраль 2019 года". А значит, задача определения ссылок становится экспоненциально более сложной, фактически превращаясь в задачу NLP и Identity Matching. Приведем упрощенный пример для понимания проблемы Identity Matching: в статье на vc.ru "Пока не запретили: как Telegram поможет получить визу в США" создатели канала Out of Office делятся своим опытом по получению визы — ссылки на канал в тексте нет, как часто и бывает у обычных СМИ. Поэтому, даже если мы определили название канала из текста и что это Телеграм, нам предстоит поставить ему в соответствие собственно ID канала: OutOfOffice или out_of_office? Правильный ответ можно найти по ссылке на канал (а сам канал неплохой — про культурные события и путешествия, рекомендую).


Собственно, как вообще родилась идея этой статьи

Я поспорил с одним из автором канала — будет ли Телеграм в топе источников СМИ? Для уверенности зафиксировали, что возьмём топ-5. Был почти уверен, что ещё нет и похоже спор выиграл. Хотя случись этот разговор не в 2019, а, например в 2022-ом, я бы уже не был так уверен в исходе спора.


Во-вторых, насколько мне известно никто из деловых СМИ не предоставляет публичного API для доступа к своим статьям, более того, есть основания полагать, что они будут не слишком рады систематическому парсу их статей. В таком случае, дополнительно придется обходить защиту от парса и возможно нетривиальным образом итерировать по всем статьям.


В-третьих, есть проблема в том, что нельзя отделить "основной" (официальный источник) от "неосновного" (дополнительный материал), например, возьмем новость "Личные данные миллионов россиян утекли через торговые площадки" — здесь есть одна основная ссылка и еще пять в виде дополнительного материала. В таком случае провести анализ схожим с тем, что мы сделали здесь не представляется возможным (без существенного изменения методологии и дополнительного анализа — что тоже является нетривиальной исследовательской задачей NLP).


А значит, что теоретически возможно только использование РБК для ограниченного экспериментального сравнения. Причем сбор и выделение нужных данных существенно усложнится и потребует дополнительных методов фильтрации шума, а также учета и идентификации текстовых ссылок в дополнение к гиперссылкам в статьях.


Выводы


Тезисно обозначим основные пункты исследования:


  • Телеграм становится топовым источником контента СМИ, скоро может войти в топ-5
  • Доля классических социальных сетей падает, и похоже, за счет них Телеграм идет вверх
  • СМИ цитируют Телеграм, но редко признают его в качестве официального источника
  • Для достоверной оценки необходим разносторонний анализ на основе нескольких ключевых медиа
  • Телеграм растет как платформа контента, причем закономерность поведения СМИ похожа на их работу с с соц. сетями: авторские каналы, как профили в соц сетях, так и в качестве "медиа внутри медиа" — где организации заменяют Телеграмом условный "сайт" и используют, как канал распространения информации

А если совсем вкратце:


Вечером в Телеграме — утром в газете.
Теги:
Хабы:
Всего голосов 25: ↑23 и ↓2 +21
Просмотры 7.8K
Комментарии Комментарии 12

Работа

Data Scientist
124 вакансии