Схема гибридной модели рекомендаций Merlin Video для определения аудитории фильмов. Слой логистической регрессии сочетает модель коллективной фильтрации с информацией о частоте и сроке посещения кинотеатра, чтобы вычислить вероятность желания посмотреть этот кинофильм. Модель обучена от начала до конца (end-to-end), а функция потерь обратно распространяется по всем обучаемым компонентам
Выход трейлера — самый важный элемент в подготовке кинопремьеры. Зрелищный трейлер повышает рейтинг зрительских ожиданий, знакомит зрителей с сюжетом, представляет главных героев, передаёт общее настроение картины. В то же время по отзывам на трейлер создатели кинокартины получают возможность понять, какие аспекты фильма нравятся или не нравятся зрителям — эта информация обычно становится основой для дальнейшей маркетинговой кампании. Трейлер напрямую коррелирует со сборами в первые дни показа. Затем уже цифра больших сборов в первые дни привлекает внимание массовой аудитории и СМИ, что во многом обеспечивает общий коммерческий успех картины.
Поскольку речь идёт о сотнях миллионов долларов, над созданием более эффективных трейлеров работают лучшие учёные. Специалисты по машинному обучению из компании 20th Century Fox опубликовали научную работу с описанием системы под названием Merlin Video. Эта система машинного зрения генерирует схему представлений из трейлера (на иллюстрации вверху). Данные репрезентации используются для предсказания реакции зрителей. По информации авторов научной работы, это первый случай, когда киностудия использует систему компьютерного зрения для вычисления зрительского интереса к фильму.
Инструмент основан на инновационной гибридной модели «коллективной фильтрации» (Collaborative Filtering, CF), которая вычленяет характерные признаки из видеоряда трейлера: цвет, освещение, лица, объекты, пейзажи.
Эта информация сочетается с демографическими данными, информацией о посещаемости кинтеатра (частота, сроки последнего посещения). В результате обучения система позволяет делать точные предсказания и выдавать рекомендации на основе трейлера.
Нейросеть обучалась на графических процессорах Nvidia Tesla P100 GPU в облаке Google Cloud, во фреймворке глубинного обучения TensorFlow и библиотекой примитивов cuDNN. В качестве данных для обучения использовались сотни трейлеров к кинофильмам, вышедшие в последние годы, а также миллионы записей о поведении зрителей.
«Найдя подходящее представление этих признаков и загрузив их в модель, которая имеет доступ к историческим записям посещаемости фильмов, можно найти нетривиальные ассоциации между признаками трейлера и будущим выбором аудитории после выхода фильма в кинотеатрах или на потоковых сервисах», — пишут авторы научной работы.
Результаты работы систем Merlin Text (по тексту) и Merlin Video (по видео) для предсказания аудитории фильма «Величайший шоумен» показаны в таблице. В правой колонке — реальная аудитория по факту.
Как видим, текстовый анализ достаточно точно предсказал аудиторию кинофильма, но анализ видеоряда дополнил несколько недостающих фрагментов. Эксперименты показали, что не большом объёме данных система компьютерного зрения с анализом трейлеров демонстрирует результат на 6,5% лучше по AUC (площадь под ROC-кривой), чем система анализа текста, то есть сценария.
С помощью такого слабого Искусственного Интеллекта маркетинговые отделы киностудий смогут более точно понимать интересы аудитории. Они смогут лучше понять, какие именно люди заинтересуются новым фильмом. Самое главное — с какими прошлыми фильмами пересекается эта аудитория. Таким образом можно проводить более эффективные маркетинговые компании, таргетированные по конкретной аудитории.
Сейчас исследователи работают над тем, чтобы совместить в единой системе систему предсказания аудитории по анализу сценария и видеоряда трейлера. В этом случае прогноз будет максимально точным.
Научная статья опубликована 12 июля 2018 года на сайте препринтов arXiv.org (arXiv:1807.04465v1).