Как стать автором
Обновить

Самые упоминаемые слова в названиях топ просматриваемых видео российских СМИ на YouTube

Добрый день!

Сегодня хочу поделиться небольшим исследованием: какие слова наиболее упоминаемые в заголовках топ-видео по числу просмотров на YouTube на каналах ведущих российских СМИ?

Для анализа я взял 7 YouTube каналов самых популярных российских СМИ:

  1. "Россия 24"

  2. "RT на русском"

  3. Телеканал "Дождь"

  4. "DW на русском"

  5. "Настоящее Время"

  6. "Новости на Первом Канале"

  7. "BBC News - Русская служба"

Почти на всех каналах более миллиона подписчиков, топ видео набирают более 10 миллионов просмотров.

К сожалению, YouTube API не позволяет получать более 50 видео по одному запросу, поэтому выборка для каждого канала формировалась как объединенный уникальный набор самых популярных видео по четырем запросам:

  • Название канала

  • пустая строка с условием на канал

  • "репортаж" с условием на канал

  • "новости" с условием на канал

Результаты запросов актуальны на 20 марта 2021 года. В итоге для каждого канала получилось около 120-150 заголовков, на основе которых можно построить "словарное облако". Исключением стали "Новости на Первом Канале" - там много видео с однотипными названиями "Выпуск новостей в ....", поэтому пришлось формировать выборку только по 2-м из 4-х запросов.

Уточню, что в анализе не учитываются частицы, предлоги и собственно слова по которым был поиск ("новости", "репортаж"). Также если на канале есть много однотипных заголовков/частей заголовков (Например "специальный репортаж" или "интервью"), то такие части тоже старался исключать. Также старался исправлять склонения (например "Россией", "России" эквивалентно "Россия"), но тут вынужден признаться, что не всегда хватало терпения все исправлять.

В итоге для каждого канала строим график топ-10 слов по доле заголовков и wordcloud.

Итак, начнем!

Россия 24

Здесь самыми упоминаемыми словами стали "Россия" (не в качестве названия канала) и "коронавирус". Распределение достаточно ровное, топ-1 слово упоминается лишь в 6% названий.

RT на русском

Здесь ситуация прямо противоположная: топ-1 слово упоминается почти в 30% (!) заголовков к видео. На 2-м и 3-м местах две страны: "Украина" и "Россия" с ~8%. "Коронавирус" замыкает пятерку с 5% упоминаний, что почти соответсвует его топ-1 доле на канале "Россия 24" (6%).

Телеканал "Дождь"

На этом канале топ-1 ключевое слово "Навальный" упоминается почти в каждом пятом заголовке. На втором месте "Путин" с 10% упоминаний.

"DW на русском"

Здесь картина похожа на Телеканал "Дождь", также довольно неравномерное распределение - почти в 30% названиях видео упоминается "Навальный". Также можно отметить значительное число названий со словом "срочно" (почти 7%). Отметим, что в топ-10 отсутствует "Россия", зато есть "Беларусь" и "Германия". Впрочем, наверное это логично, так как DW все таки немецкое СМИ.

"Настоящее Время"

Здесь на первом месте "Россия" с более 10% упоминаний. Также часто упоминаются "протесты", "Беларусь" и лидеры почти всех СМИ "Навальный" и "Путин". Стоит также отметить присутствие в топ-10 стран "Кыргызстан" и "Таджикистан".

"BBC News - Русская служба"

Здесь снова на первом месте "Путин" с всего 8% упоминаний, что в целом говорит о довольно равномерном распределении.

"Новости на Первом Канале"

Тут, как я уже упоминал выше, выборка меньше и результаты менее достоверные. На первом месте "Тутберидзе" и "Россия" с почти 4%. Распределение довольно равномерное. Много упоминаний на тему фигурного катания, имен фигуристок.

Саммари

  • Наиболее упоминаемые слова - "Навальный", "Путин", "Россия". "Навальный" на 2-х каналах ("DW на русском" и Телеканал "Дождь") упоминается в более чем 15% названий (максимум ~30%), Путин также на одном канале ("RT на русском") набрал почти 30% упоминаний (там "Навальный" даже нету в топ-10), на другом ("DW на русском") почти 15%. "Россия" также на первом месте на 2-х каналах, но при этом ее максимальная доля не превышает 10%.

  • Самые "неравномерные" каналы - "RT на русском" и "DW на русском". Там на топ-1 приходится почти 30% заголовков. Телеканал "Дождь" также довольно неравномерный с 20% упоминаний топ-1 слова.

  • Самые "равномерные" каналы - "Россия 24" и "Новости на Первом канале" - ни одно из слов не упоминается в более чем 6% названий видео.

  • Страны в топ-10 упоминаний помимо "России": "Украина", "Беларусь", "Германия", "Таджикистан", "Кыргызстан", "Казахстан". Причем "Украина" на 2-м месте по упоминаниям на канале "RT на русском" и не присутствует при этом в топ-10 ни на одном из других каналов.

  • "DW на русском" - единственный канал, где топ-3 слов состоит из фамилий.

Ссылка на python код анализа

Спасибо за внимание!

Теги:
Хабы:
Данная статья не подлежит комментированию, поскольку её автор ещё не является полноправным участником сообщества. Вы сможете связаться с автором только после того, как он получит приглашение от кого-либо из участников сообщества. До этого момента его username будет скрыт псевдонимом.