/ фото Brian Cantoni CC
Ранее в нашем блоге мы уже рассказывали о том, как большие данные меняют облик компаний и обсуждали интересные способы использования облачных сервисов. Сегодня мы поговорим о том, как изменился кинематографический ландшафт с приходом на рынок сервисов вроде Netflix.
Если вы – пользователь Netflix, то, скорее всего, вы замечали, что иногда вам предлагаются фильмы странных жанров. Алексис Мадригал из The Atlantic обнаружил, что провайдер видеоконтента может размечать свои фильмы и сериалы 77-ю тысячами различных описаний и тегов.
Конечно, даже частичный реверсивный инжиниринг рекомендательного алгоритма такой компании как Netflix требует немалых временных затрат, но уже на первом этапе работ Алексис удостоверился в том, что компания тщательно анализировала и размечала каждый фильм и ТВ-шоу.
По словам Тода Йеллина (Todd Yellin), человека, который придумал эту систему, компания платила за просмотр фильмов и сбор соответствующих метаданных, который производился на основе специально разработанного учебного пособия для оценки различных аспектов художественных произведений.
Netflix создал базу данных кинематографических предпочтений американцев, которая послужила полезным подспорьем и в создании собственных телевизионных шоу вроде «Карточного домика».
Работа по сбору данных производилась с помощью UBot Studio, упрощающего написание скриптов для веба, и обыкновенного ноутбука Asus, которому пришлось поработать около суток для того, чтобы осилить эту задачу. Далее мы приводим лишь пару примеров из полученного списка жанров:
Независимое кино: эмоциональные фильмы о спорте
Шпионские и приключенческие фильмы 1930х годов
Культовые ужастики со злыми детьми
Культовые спортивные фильмы
Сентиментальные европейские драмы 1970х
Первичный анализ данных показал, что Netflix обладает собственным словарем, а описания указывали еще и на происхождение идеи для сценария к тому или иному произведению. По количеству вхождений стало возможным установить тот факт, что наиболее востребованными темами оказались замужество и жизнь элиты общества.
Базовый шаблон, по которому формируется жанр, исследователи представили следующим образом:
Откуда + Прилагательные + Существительное + Основан на … + Снят в … + От режиссера … + О… + Для возрастов от X до Y
Для более полноценной расшифровки грамматики был использован AntConc – это бесплатная программа, разработанная профессором из Японии. Обычно это ПО используется лингвистами в цифровых центрах гуманитарных наук для обработки больших объемов текста.
AntConc, по сути, превращает текст в легкоуправляемый набор данных. Программа может посчитать число вхождения слов в текст, например, в базу данных Netflix. Так, по поиску фраз, начинающихся с «Для…» можно увидеть, что у компании есть контент для детей возрастов от 0 до 2 лет, от 0 до 4, от 2 до 4, от 5 до 7, о 8 до 10 и от 11 до 12 лет.
На основе словаря был предложен ряд грамматик. В ходе работ было скорректировано количество допустимых прилагательных в заголовках и проведены эксперименты с различными грамматическими структурами, но суть оригинального подхода так и не была достигнута. Так, было решено встретиться с представителями компании, которая услужливо предложила пообщаться с непосредственным разработчиком данной системы.
/ фото Austen Squarepants CC
Тодд Йеллин пригласил журналистов к себе в офис и попытался передать им суть устройства его системы описания контента. Старый способ рекомендации контента Netflix сильно отличается от нынешнего. По словам инженера, только на разработку документации для нового проекта, получившего название «Квантовая теория Netflix», ушло несколько месяцев работы специалистов компании.
Основная ставка была сделана на описания, которые будут составлены понятным языком и сделают рекомендации более точными. Часть «микро-тегов» сделали «скалярными» (от 1 до 5), а жанры ограничили тремя основными факторами (кстати, жанры с более чем пятью дескрипторами отсутствуют):
1) до 50 знаков в названии;
2) условие накопления достаточного объема контента для конкретного жанра;
3) условие синтаксически «правильных» жанров.
Конечно, журналисты не могли учесть подобные нюансы и их генератор выдавал достаточно забавные описания, но само исследование приводит нас к размышлениям о том, что машинное обучение, алгоритмы и синтаксис обладают огромным потенциалом как улучшения, так и сведения способности людей понимать, что происходит вокруг, на нет. В данном случае вечный вопрос «что посмотреть?» может привести нас к очень и очень спорным результатам.
P.S. Мы стараемся делиться не только собственным опытом работы над сервисом по предоставлению виртуальной инфраструктуры 1cloud, но и рассказывать о смежных областях знаний.
Не забывайте подписываться на наш блог на Хабре, друзья!