В вебе только и разговоров, что о Телеграм-каналах.


Однако, ещё никто не оценил численно: какое влияние оказывают Телеграм-каналы на СМИ? Сегодня мы попытаемся это исправить — и сделаем первый шаг в анализе связки медиа и Телеграма.


Ключевой вопрос исследования:


Какую роль играют Telegram-каналы в формировании медиаповестки?

Для оценки будем использовать следующий подход: соберем датасет новостей и оценим, какая часть приходится на Телеграм-каналы. Здесь мы собрали для анализа 67 тысяч постов медузы и проанализировали их источники и ссылки.


Начнем с интересного: новости на Медузе имеют специально выделенный "официальный" источник, а также в тексте присутствуют ссылки на другие источники, назовем их здесь "неофициальными".


Начнем с новостей, где источником указан Телеграм: официально (синий график) и в тексте (красный) — разница пятикратная. Как мы видим, медуза только начала официально и вообще в принципе ссылаться на Телеграм. Тренд: количество Телеграм-новостей растет: как в виде официального источника, так и в виде ссылок!



Данные: для воспроизведения результатов и дальнейших исследований выложены в открытый доступ: датасет (67к исходных текстов статей) и CSV c метаинформацией. См. методологию сбора и код в предыдущей статье по анализу Медузы.


Под катом:


  • Анализ — Телеграм vs Facebook (и vs Twitter).
  • Где находится Телеграм среди других ньюсмейкеров и источников?
  • Как растет влияние Телеграма?
  • На какие каналы чаще всего ссылаются?
  • Что из всего этого можно вывести?

Телеграм vs Facebook


Как мы заметили — популярность Телеграма среди медиа-источников растет, в то время как популярность отдельных классических соц. сетей, например Facebook, падает — как будто Телеграм стал отъедать часть пирога Facebook:


Телеграм vs Facebook vs Twitter


Однако, заметим, что например Twitter так просто свои позиции не сдаёт — и выглядит как будто Twitter стабилизировался (и не растет дальше) на хорошей позиции, Facebook падает, а доля Телеграм растет — причем судя по времени выглядит, как будто здесь свою роль сыграл именно Телеграм.



Где Телеграм среди источников?


Как мы видим, ��МИ не торопятся признавать Телеграм официальным источником (и только вообще начинают это делать), в то время как активно его цитируют — мы видим, что среди официальных источников (за все время существования Медузы) Телеграма нет, в то время как среди самых цитируемых он уже встречается.


Если мы посмотрим на классическое медиа — например, КоммерсантЪ, то убедимся, что такого эффекта здесь не наблюдается — выделение синим: количество ссылок в обоих случаях примерно равное. В то время как картина Телеграма сильно напоминает социальные сети — СМИ активно берут оттуда контент, однако официальным источником не ставят: это видно в таблице на примере Twitter (выделение красным, такое же как и у Телеграма) — второй по количеству цитат, но официальным источником не является.



Изменение ранга во времени


Как мы видели во временных графиках цитирования: общий тренд — рост Телеграма, более того до 2017-2018 его фактически не было в источниках и цитатах новостей, поэтому логично рассмотреть последние три года отдельно, и тогда картина источников существенно меняется:



Фактически, мы видим, что Телеграм, как источник контента новостей, стабильно растет — особенно по отношению к другим социальным сетям: и Facebook, и VK.com сдают позиции там, где растет Телеграм.


Если тенденция сохранится, то Телеграм войдет в топ-5 источников контента в ближайшее время.

Top-каналов по официальным ссылкам и по цитатам в тексте


Также интересно посмотреть на какие именно каналы чаще всего ссылается Медуза, возьмем топ-15 каналов по цитатам в новостях:



И сравним с упоминаниями в качестве официального источника:



Отсюда можно заметить, что абсолютный лидер — Mash, который специализируется на "срочных" новостях. В то время как в качестве официальных источников выступают условные организации, например пресс-служба судов Санкт-Петербурга (что довольно иронично, учитывая судебный запрет на работу Телеграма в России). Для них канал — это одно из основных средств оповещения, и тогда логично, что они могут играть роль официальных источников СМИ.


Интересное наблюдение про информативность заголовка


Исследуя сам датасет статей, обнаружил следующую закономерность: средний размер заголовка в символах стабильно растет, если в 2014 типичный заголовок звучал как


"Лоукостер «Аэрофлота» поменял название" = 40 символов

То в 2019, это уже ближе к


"Сотрудники МЧС не сумели спасти учебный манекен. Его утащила напуганная лошадь " = 80 символов


Возможно, это связано с особенностью поисковых системы, а также особенностью работы социальных сетей (где люди часто не читают дальше заголовка, или их нужно "заманить" кликнуть по заголовку).


Почему была выбрана Медуза и что делать дальше


Дальнейший анализ


Безусловно, анализ и исследование на основе одного медиа не может быть 100% достоверным и целиком отражать информационную повестку СМИ — необходимо провести анализ на основе нескольких ключевых медиа, например на основе бизнес тройки — Ведомости, РБК, Ъ. Если у вас есть доступ или существенный архив их новостей (желательно свежих; и если есть и других медиа) — дайте знать.


Также, необходимо составить внутреннюю карту самого Телеграма — как каналы связаны между собой — см. мою статью про связь Хабов и анализ графа связи статей.


О проблемах и методологии анализа


Выбор Медузы для анализа неслучаен — здесь приведем выжимку, почему именно она была выбрана и какие проблемы возникают с другими изданиями.


Во-первых, такие издания как "Ведомости" и "Коммерсант", как правило, не ставят гиперссылок на источники, а дают только текстовое описание — откуда пришла информация. Например, новость от коммерсанта: "«Абрау-Дюрсо» понижает градус" — в ней присутствует только текстовая ссылка на источник в духе "… заявил президент «Абрау-Дюрсо», в интервью газете «Ведомости», февраль 2019 года". А значит, задача определения ссылок становится экспоненциально более сложной, фактически превращаясь в задачу NLP и Identity Matching. Приведем упрощенный пример для понимания проблемы Identity Matching: в статье на vc.ru "Пока не запретили: как Telegram поможет получить визу в США" создатели канала Out of Office делятся своим опытом по получению визы — ссылки на канал в тексте нет, как часто и бывает у обычных СМИ. Поэтому, даже если мы определили название канала из текста и что это Телеграм, нам предстоит поставить ему в соответствие собственно ID канала: OutOfOffice или out_of_office? Правильный ответ можно найти по ссылке на канал (а сам канал неплохой — про культурные события и путешествия, рекомендую).


Собственно, как вообще родилась идея этой статьи

Я поспорил с одним из автором канала — будет ли Телеграм в топе источников СМИ? Для уверенности зафиксировали, что возьмём топ-5. Был почти уверен, что ещё нет и похоже спор выиграл. Хотя случись этот разговор не в 2019, а, например в 2022-ом, я бы уже не был так уверен в исходе спора.


Во-вторых, насколько мне известно никто из деловых СМИ не предоставляет публичного API для доступа к своим статьям, более того, есть основания полагать, что они будут не слишком рады систематическому парсу их статей. В таком случае, дополнительно придется обходить защиту от парса и возможно нетривиальным образом итерировать по всем статьям.


В-третьих, есть проблема в том, что нельзя отделить "основной" (официальный источник) от "неосновного" (дополнительный материал), например, возьмем новость "Личные данные миллионов россиян утекли через торговые площадки" — здесь есть одна основная ссылка и еще пять в виде дополнительного материала. В таком случае провести анализ сх��жим с тем, что мы сделали здесь не представляется возможным (без существенного изменения методологии и дополнительного анализа — что тоже является нетривиальной исследовательской задачей NLP).


А значит, что теоретически возможно только использование РБК для ограниченного экспериментального сравнения. Причем сбор и выделение нужных данных существенно усложнится и потребует дополнительных методов фильтрации шума, а также учета и идентификации текстовых ссылок в дополнение к гиперссылкам в статьях.


Выводы


Тезисно обозначим основные пункты исследования:


  • Телеграм становится топовым источником контента СМИ, скоро может войти в топ-5
  • Доля классических социальных сетей падает, и похоже, за счет них Телеграм идет вверх
  • СМИ цитируют Телеграм, но редко признают его в качестве официального источника
  • Для достоверной оценки необходим разносторонний анализ на основе нескольких ключевых медиа
  • Телеграм растет как платформа контента, причем закономерность поведения СМИ похожа на их работу с с соц. сетями: авторские каналы, как профили в соц сетях, так и в качестве "медиа внутри медиа" — где организации заменяют Телеграмом условный "сайт" и используют, как канал распространения информации

А если совсем вкратце:


Вечером в Телеграме — утром в газете.