Как стать автором
Обновить

Кино, финансы и data science

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.4K

Можно ли заранее знать, будет фильм успешным? - "Да". Можем ли мы заранее знать, сколько принесет данный фильм в прокате? - "Да", но в определенном интервале (средний бюджет, крупный бюджет) и с определенными оговорками. Стоит ли вкладываться в конкретный фильм? - "Нет", скорее всего, вы прогорите как инвестор. Можно ли вкладываться в "портфель проектов"? - "Да", но отобранный самым тщательным образом. "ДА-ДА-НЕТ-ДА" - это формула голосования, но не за Конституцию, а за будущее национального кинематографа.

Предположим, что государство предложило "частникам" стать соинвесторами в российский кинематограф. Механизм – допустим, эмиссия акций и облигаций кинопроизводителями и дистрибьютерами киноконтента, а также выпуск "проектных" или условных "субфедеральных" облигаций по аналогии с муниципалитетами и региональными бумагами.

Все как положено, с амортизацией, налоговыми льготами при реинвестировании, гарантиями возврата капитала, возможностью частичного погашения налогов и сборов в бюджет и прочими вычетами плюшками для инвесторов.

Пока принципиально не рассматриваем краундлендинг и всевозможные крипто-истории, а также производные финансовые инструменты. Только классика только хардкор инвестиций.

Отметим сразу, что кинобизнес может быть не только крайне патриотичным, богоугодным, полезным для развития всей креативной отрасли и смежных отраслей экономики, но и прибыльным. Условный портфель проектов на исторической доходности может давать до 130% годовой прибыли. Почему именно портфель? — вложения в один проект все‑таки достаточно рискованны — все помнят историю со "Смешариками" от фонда под управлением "Тройки‑Диалог". Диверсификация — наше все.

Главный вопрос бытия

Как именно определить, будет ли фильм успешным и сколько он даст заработать частным инвесторам?

Признаки инвестиционного успеха такие как жанр, длительность, рейтинг детально разобраны здесь. Обученные на исторических данных ансамблевые модели машинного обучения достаточно точно отбирают (классифицируют) успешные и неуспешные в прокате фильмы, даже в условиях дефицита информации. Мало того они могут рассказать о том, насколько фильм будет успешен или неуспешен при том или ином сочетании факторов. 

По запросу прогнозирование кинопроката с помощью машинного обучения мы увидим десятки и сотни публикаций, касающихся глобального кинорынка, отдельных страновых ниш. Предиктивная аналитика кинопроката достаточно развита в странах Азии и Африки от Китая, Индии, Индонезии и Шри-Ланки  до Нигерии.  В России, к сожалению, количество работ по данной тематике ограничено.

Тренируемся на ... кинокотиках

Теперь давайте попробуем просчитать на малой 26-факторной модели теоретическую возможность определять: сколько именно может собрать конкретный фильм в прокате (трансляцию на ТВ и платформах, сопутствующие каналы монетизации пока оставим вне контекста), сколько зрителей его просмотрит, наконец, какой зрительский рейтинг будет у него на "Кинопоиске" (а есть еще и большая 146-факторная модель).

Для решения задачи регрессии мы будем использовать популярные метрики качества:

MSE - Среднеквадратическая ошибка

R2 -  коэффициент детерминации

MAE - средняя абсолютная ошибка

В качестве исследовательской базы данных у нас – 26-факторный датасет с историческими данными проката российского кинематографа с 2004 года.

Сначала мы будем работать со зрительским рейтингом "Кинопоиска", постараемся создать модель его прогнозирования, потом перейдем к сборам и просмотрам.

По аналогии с предшествовавшей публикацией о классификации успешных/неуспешных кинокартин, мы "прогоним" датасет через несколько ансамблевых моделей регрессии: AdaBoostRegressor,  BaggingRegressor, ExtraTreesRegressor, GradientBoostingRegressor, RandomForestRegressor, HistGradientBoostingRegressor, CatBoostRegressor и получим следующую картину:

Метрики качества ансамблевых моделей машинного обучения на тестовом датасете
Метрики качества ансамблевых моделей машинного обучения на тестовом датасете

Которая нас очевидным образом не совсем устраивает. И ради науки попробуем все-таки упороться поработать  со StackingRegressor с 5 базовыми моделями и  VotingRegressor.

В первом случае мы получили дополнительно следующие метрики качества:
R2 score: 0.7765016786761326
MSE: 0.33853354109051054
MAE: 0.3771748372943936

Во втором:
R2 score: 0.7681826141319006
Mean Squared Error: 0.3511344517462928
Mean Absolute Error: 0.3920323384745612

Разумеется, можно продолжить комбинировать вложения моделей в метамодели Stacking и Voting, но уже ставший нам родным и любимым CatBoost показывает сопоставимые результаты без танцев подбора гиперпараметров с бубнами от random_search или optuna дополнительных ухищрений.

Метрики качества прогнозирования зрительского рейтинга "Кинопоиска" на 26-факторном датасете
Метрики качества прогнозирования зрительского рейтинга "Кинопоиска" на 26-факторном датасете

В случае с предложенным датасетом мы упираемся в ограниченный набор данных (всего 1660 кинофильмов), которые к тому же не всегда полны, по 30% фильмов отсутствует описание размера бюджета. Увы, но с Голливудом, и даже Болливудом и нигерийским Нолливудом чуть проще – больше примеров и больше открытой информации.

Метрики качества прогнозирования рейтинга "Кинопоиска" на "раздутом"  датасете
Метрики качества прогнозирования рейтинга "Кинопоиска" на "раздутом" датасете

Придется использовать допинг возможность многократной "проходки" в рамках имеющейся выборки с помощью resample из sklearn.utils. Мы для начала увеличим нашу исходную выборку в три раза и обучим CatBoostRegressor на ее основе.

Метрики качества показывают существенное улучшение модели, но в реальности мы понимаем, что это "допинг" и искусственно сгенерированные данные не повысят эффективность модели.

В порядке эксперимента попробуем обучить нейросеть на на данном датасете, не забыв отмасштабировать выборку MinMaxScaler и включив возможность возврата к лучшим характеристикам с помощью ModelCheckpoint.

R2 score: 0.754466615225763 Mean Squared Error: 0.3719101141843108 Mean Absolute Error: 0.42290152981668294

Тоже неплохо, хотя радикального прироста метрик качества мы не получили.

Подобный подход мы можем использовать и в отношении других прогнозируемых категорий: сборов, просмотров — ибо в душе каждого из нас сидит корыстный делец светоч творчества и благодетель искусств, для которого пресловутые "иксы" прибыли означает лишь возможность поднять бабла быстро реализации своих благодатных инициатив и начинаний для просвещения будущих поколений зрителей.

Результат прогнозирования сборов на "малой" модели
Результат прогнозирования сборов на "малой" модели

R2 score: 0.6961300448654311 Mean Squared Error: 1.4121814796466494e+16 Mean Absolute Error: 40337513.05613101

Уже сам график нам говорит о том, что сборы свыше 1 миллиарда – уникальные явления для российского кинопроката, поэтому практически все проекты с бюджетом свыше 500 млн уже находятся в зоне риска по окупаемости.

Идеальный вариант бюджета в наши дни — это все-таки 200-300 миллионов или феномен "якутского кино" с относительно низкими бюджетами (до 10-15 миллионов), но уникальной самобытной картинкой и формой подачи материала.

Для крупнобюджетных и седнебюджетных проектов данный метод прогноза сборов вполне допустим, однако для малобюджетных проектов и "якутского кино" может потребоваться дополнительная достройка модели и новые данные.

Точные прогнозы сборов нам пока не удаются, хотя если подключить большее количество данных (146-факторная модель), включая информацию о ведущих актерах и членах творческой группы - есть некоторые шансы на успех.

Фильмы-блокбастеры в России, увы, "выстреливают" очень редко, поэтому создавать их нужно исключительно в копродукции с иностранными инвесторами и под иностранные целевые аудитории.

Другой вариант – кинофраншиза с многократной "проходкой" черед целевые аудитории и разные каналы коммуникации с помощью кино, телесериала, видеоигры, серии романов, мерча, реалити-шоу, театральных постановок и других составляющих.

Так что между data science с идеей многократного использования одной и той же выборки, синтетическими данными и российским кинематографом – очень много общего!  

Результат прогнозирования просмотров на "малой" модели"
Результат прогнозирования просмотров на "малой" модели"

Количество просмотров так же предсказуемо для кинотеатрального проката. Хотя картин, набравших в прокате больше 5 миллионов просмотров у нас можно пересчитать по пальцам за весь последний исторический период.

R2 score: 0.7143188616452341. Mean Squared Error: 224631961039.53024 Mean Absolute Error: 180635.22466829635

К сожалению, в истории российского кинематографа мало фильмов, приносящих пресловутые "иксы" прибыли, буквально считанные проценты и доли процентов.  Окупаются в кинопрокате  с 2004 года всего лишь 11,5% фильмов; а сколько их еще осталось на полках или вышло сразу на ТВ, платформах и дисках?.

Тем не менее даже за счет простого отбора проектов на раннем этапе можно повысить окупаемость проектов до 20% и 30% и величину сборов примерно в 1,7-1,9 раза даже при текущих размерах кинотеатральной сети.

Больше – проблематично, поскольку только российский кинорынок все-таки ограничен и для окупаемости пресловутых "блокбастеров" нужна страновая аудитория в 500 миллионов. И это уже вопросы не экономики, а скорее демографии. Поэтому альтернатив развития для российского кинематографа кроме как медиа-франшизы с многократными "проходками" по аудитории или экспорта, копродукции со странами Азии и Африки – пока не предвидится.

Вместо выводов

Трейдинг, криптовалюты и прочие околоинвестиционные темы достаточно плотно заняты инфоцыганами работниками информационно-развлекательной околофинансовой индустрии. Кино, креативные индустрии в целом – пожалуй единственная все еще не истоптанная площадка для творческого слияния интеллекта и финансов.

С одной стороны, мэтры кинематографа из прошлого вещают об уникальном духовном потенциале, великой идее , о примате мира духовного над мирским и недопустимости формализованного подхода к оценке проектов. Но, к сожалению, так индустрия не работает. Да и проблемы нравственного развития и продвижения традиционных ценностей, патриотизма средствами искусства и культуры — тоже не решаются.

С другой стороны, есть продюсерский подход на "зарабатывании с бюджета", который создает отрицательный отбор кинофильмов вместо прогрессивного отбора — "зарабатывания с проката".

Впрочем, у рядового зрителя, к коим и относит себя автор нет-нет, да и возникает вопрос: зачем снимать фильмы, которые «не заходят» для целевых аудиторий? Когда можно подобрать так параметры фильма — жанр, длительность, возрастной рейтинг, состав творческой аудитории, параметры бюджета и так далее, что любой самый "лубочный" или "клюквенный" проект, если не будет вписан в анналы мирового кинематографа как шедевр пропаганды и агитации Сергея Эйзенштейна, то хотя бы просто окупится в прокате?

Кстати, к вопросу о "броненосцах" в наших "кинопотемках". Есть фильмы, которые по мнению автора, могут иметь определенный успех в прокате. Возьмем к примеру список победителей питчинга "Фонда кино" от лидеров индустрии. Из 15 кинокартин вполне серьезные шансы на преодоление барьера "двух бюджетов" в прокате есть как минимум у ""Буратино", "Горыныча", "Руки вверх", "Чебурашки 2" — при рациональных, не превышающих лимита бюджетах (в бюджеты сильно выше 800 млн. лучше даже не смотреть), сохранении изначального жанра, отсутствия затягивания производства, оптимального подбора творческой группы. Подробный количественный прогноз тоже возможен, естественно, при наличии производственных данных.

Если на российских просторах будет сформирован "инвестиционный портфель" из 20–30 тщательно отобранных проектов в год, на горизонте нескольких лет можно стабильно получать если не "иксы", то десятки процентов прибыли. Как для государства, так и для частных инвесторов. В конце концов, экспорт хлеба, газа и нефти претерпевает циклические колебания мировой конъюнктуры, подвержен санкциям и запретам. Однако, хорошее кино смотрят всегда. А очень хорошее кино тоже можно экспортировать.

Датасет и код проекта находятся в репозитории.

Всем интересных и успешных в прокате фильмов!

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
Какая технология или методика могут улучшить эффективность кинематографа и качество контента?
18.18% Внедрение современных аналитических и предиктивных технологий кинопроката2
18.18% Новые механизмы и инструменты частного финансирования2
9.09% Увеличение государственного финансирования1
9.09% Кросс-медийные франшизы и плотная интеграция с креативными отраслями1
9.09% Сценарно-интегрированный продакт-плейсмент российских корпораций1
0% Инвестиционные льготы, вычеты и гарантии от государства0
27.27% Международная копродукция и выход на иностранные аудитории3
27.27% Тщательный отбор, конкурсные процедуры, объективное оценивание — от сценария до производства3
36.36% Ничего уже не поможет4
36.36% Наймите Дарта Вейдера, он разберется с бракоделами!4
45.45% Повышение квалификации кинопроизводителей и уровня компетентности управленческих кадров в индустрии5
Проголосовали 11 пользователей. Воздержались 2 пользователя.
Теги:
Хабы:
Всего голосов 4: ↑3 и ↓1+4
Комментарии6

Публикации

Истории

Работа

Python разработчик
190 вакансий
Data Scientist
101 вакансия

Ближайшие события

19 августа – 20 октября
RuCode.Финал. Чемпионат по алгоритмическому программированию и ИИ
МоскваНижний НовгородЕкатеринбургСтавропольНовосибрискКалининградПермьВладивостокЧитаКраснорскТомскИжевскПетрозаводскКазаньКурскТюменьВолгоградУфаМурманскБишкекСочиУльяновскСаратовИркутскДолгопрудныйОнлайн
24 – 25 октября
One Day Offer для AQA Engineer и Developers
Онлайн
25 октября
Конференция по росту продуктов EGC’24
МоскваОнлайн
26 октября
ProIT Network Fest
Санкт-Петербург
7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань