Группа исследователей задалась вопросом: сколько видеороликов размещено на YouTube? Эксперты считают, что оценить объём той или иной интернет-платформы достаточно сложно. Однако это не остановило энтузиастов. Среди них оказался доцент кафедры государственной политики, коммуникаций и информации Массачусетского технологического института, сооснователь блог-агрегатора Global Voices, интернет-активист и блогер Итан Цукерман. Вместе с единомышленниками он решил вычислить объём YouTube. Результат их подсчётов — более 13,325 млрд роликов.
Как пишут Tech News Space, некоторые онлайн-платформы, такие как Reddit, много лет позволяли собирать статистические данные при помощи специальных API. Благодаря этому, исследователи могли понять, например, какая часть пользователей платформы интересуется мемами или криптовалютами, а какая — психическим благополучием и настольными играми. Однако в этом году Reddit закрыл возможность обработки публикаций. Аналогичным образом поступили и в соцсети Х (бывшем Twitter).
Хотя YouTube имеет хорошо задокументированный API, надёжного способа получить случайную репрезентативную выборку YouTube не существует. Вместо этого в большинстве исследований YouTube рассматривается либо как коллекция видео, либо как видео, найденные в рекомендациях. Любой из этих методов позволит провести исследование, но ни один из них не позволит подсчитать размер YouTube.
Для решения этой задачи Цукерман и его единомышленники обратились к Джейсону Баумгартнеру, создателю проекта парсинга Reddit под названием PushShift, который знает, как работать с недокументированными API для сбора данных. В случае с YouTube это был инструмент InnerTube, который Джейсон использовал для создания случайных URL-адресов YouTube и проверки их существования. URL-адрес YouTube выглядит следующим образом: https://www.youtube.com/watch?v=vXPJVwwEmiM, где значения изменяются после «watch?v=». Первые 10 из 11 символов ссылки могут быть прописными или строчными буквами английского алфавита, числами от 0 до 9 и символом «_». Последний символ может иметь только одно из 16 значений.
В результате подсчётов выяснилось, что существует 264 возможных URL-адресов YouTube. И хотя на YouTube очень много роликов, очевидно, что не настолько. Если предположить, что на YouTube размещён 1 млрд видео, то случайный подбор URL-адреса даст только один правильный вариант из 18,4 млрд попыток. Исследователи назвали этот метод «пьяным набором номера». После оптимизации этого метода в течение нескольких месяцев они смогли идентифицировать на платформе 10 тыс. действительно случайных видеороликов. В процессе этой работы исследователи также обнаружили, что YouTube склонен рекомендовать видео, которые значительно отличаются от «средних» видео на платформе. Дело в том, что платформа рекомендует ролики с количеством просмотров не менее 10 тыс., тогда как «средний» ролик имеет всего 39 просмотров.
Во время исследования YouTube методом «пьяного набора» проверяли порядка 32 тыс. адресов, и «попадание» регистрировалось примерно через каждые 50 тыс. наборов. В результате энтузиасты подсчитали, что объем YouTube составляет 13 235 821 970 видеороликов.
Эта и другая статистика теперь обновляется на сайте tubestats.org каждые несколько недель. После того как было подсчитано количество видео на платформе, исследователи стали изучать и другую статистику YouTube. Например, «возраст» видео в случайной выборке помогает увидеть, как быстро растёт YouTube: по оценкам исследователей, только в 2023 году на нём было размещено более 4 млрд новых видеороликов. Также удалось подсчитать, что ролики с числом просмотров более 10 тыс. составляют лишь 4% от общего объёма контента, размещенного на YouTube, но при этом на них приходится львиная доля от общего количества просмотров.
На что ещё обращает внимание Tech News Space: группе энтузиастов в итоге удалось разработать гораздо более надёжный метод изучения YouTube, чем «пьяный набор». Метод случайной выборки видео последовательно обходит всё адресное пространство. Исследователи намерены продолжить работу с YouTube.