Первый ролик на YouTube был загружен в далёком 2005 году. С тех пор сервис стал частью Google, это один из наиболее популярных в мире сервисов. Но насколько он большой, кто может подсчитать? Официальной статистики корпорация не даёт, так что приходится всё делать своими руками.
Именно так и поступили исследователи, одним из которых является доцент кафедры государственной политики, коммуникаций и информации Массачусетского технологического института (MIT), сооснователь блог-агрегатора Global Voices, интернет-активист и блогер Итан Цукерман (Ethan Zuckerman). Он с коллегами и подсчитал, что сейчас на сервисе опубликовано свыше 13,325 млрд роликов. О методике подсчёта и других нюансах — под катом.
Как вообще можно посчитать видео на YouTube?
По данным авторов исследования, на данный момент YouTube посещают практически все пользователи сети. Например, есть статистика о том, что с сервисом взаимодействует свыше 93% юзеров интернета подросткового возраста. Это гораздо больше, чем, например, у сверхпопулярного среди подростков TikTok — там показатель составляет примерно 63%. Если говорить о Snapchat, то показатель этого сервиса — 60%.
Что касается YouTube, то у видеосервиса есть хорошо задокументированный API. Но, к сожалению, даже с его помощью нельзя получить репрезентативную выборку. В большинстве случаев можно получить информацию по видео на каналах выбранной категории пользователя либо же ролики, которые найдены по рекомендациям. Практически любой из этих методов позволяет получить подробную информацию по узкому классу видео, но вот посчитать количество роликов на платформе нельзя.
Поэтому пришлось пойти другим путём. Команда решила обратиться к специалисту по парсингу, которого зовут Джейсон Баумгартнер (Jason Baumgartner). Он — автор достаточно известного проекта по парсингу Reddit под названием PushShift и обладает обширными знаниями в сфере работы с недокументированными API для сбора данных.
Зачем парсить Reddit? Дело в том, что некоторые сервисы, включая, например, Reddit, в течение нескольких лет давали возможность собирать статистику посещений/интересов пользователей. Это делалось для того, чтобы различные исследователи из разных организаций могли понять интересы аудитории сервиса. Кроме Reddit так поступал и Twitter. А потом эту возможность закрыли, так что теперь можно что-то получить лишь за счёт кастомных парсеров.
Так вот, Баумгартнер смог создать инструмент с названием InnerTube. Он действует достаточно просто: создаёт случайные URL-адреса сервиса и проверяет, существуют ли они. Здесь небольшое отступление: вспомним, каким образом работает сама система URL. Так, URL-адрес на YouTube выглядит следующим образом: https://www.youtube.com/watch?v=vXPJVwwEmiM, где изменяются значения после «watch?v=». Первые 10 из 11 символов ссылки могут состоять из заглавных и строчных букв английского алфавита, цифр от 0 до 9 и знака «_». Последний символ может принимать лишь одно из 16 значений.
Что это за перебор такой?
Всё не так и сложно. Дело в том, что исследователи подсчитали количество возможных URL-адресов YouTube. Их оказалось свыше 18,4 квинтиллиона. Конечно, это теоретический предел, а не реальное количество. На данный момент столько роликов на сервисе быть не может, и вряд ли этот показатель будет достигнут в ближайшем обозримом будущем (вернее, очень отдалённом).
Так вот, исследователи разработали метод «пьяного дозвона». Они предположили, что если, например, на YouTube сейчас загружен 1 млрд роликов, то если набрать URL, удастся получить верный адрес лишь в одной из 18,4 млрд попыток.
Насколько можно понять, метод рабочий, поскольку всего за несколько месяцев исследователям удалось выявить около 10 тыс. случайных роликов. Кроме того, авторы проекта выяснили, что YouTube обычно рекомендует к просмотру ролики, существенно отличающиеся от «средних» видео на платформе. Это важно, поскольку YouTube предлагает видео, количество просмотров которого составляет не менее 10 тыс. Тем не менее в среднем у роликов около 39 просмотров.
Авторы проекта провели аналогию с дозвонами по случайным номерам. Так, если абонент набирает номера на 413 из диапазона 413-000-0000 — 413-999-9999, то ему придётся перебрать 10 млн возможных номеров. Ну а если один из 100 телефонных звонков оказывается удачным, то это означает, что телефонный номер на 413 в упомянутом диапазоне есть у 100 тыс. человек.
Что касается видеохостинга, то метод набора одновременно проверял около 32 тыс. адресов. Система «угадывала» каждые 50 тыс. наборов. Так исследователи и подсчитали, что объём сервиса на данный момент составляет 13 235 821 970 видео. После того как выяснилось количество роликов, авторам идеи удалось прояснить и другие данные. Так, они смогли определить, что в 2023 году на площадке появилось около 4 млрд новых видео. И ещё один интересный факт: выяснилось, что основной объём просмотров генерирует лишь 4% размещённых на сервисе роликов.
Вся эта статистика обновляется с периодичностью раз в несколько недель. Посмотреть её можно на сайте tubestat.org. На данный момент исследователи говорят, что планируют продолжить работу с сервисом плюс обновлять различные важные метрики. К слову, всё это — лишь выдержка из исследования, само оно достаточно масштабное — в документе 85 страниц. Ознакомиться с проектом можно на сайте одного из участников.