Netflix опубликовал свою первую open-source модель — VOID (Video Object and Interaction Deletion). Она удаляет объекты из видео и физически корректно моделирует последствия удаления: если убрать человека, державшего гитару, инструмент не зависнет в воздухе, а упадет. Модель доступна на Hugging Face и GitHub под лицензией Apache 2.0.

Главное отличие VOID от существующих инструментов — понимание причинно-следственных связей в сцене. Стандартные методы закрашивают область за удаленным объектом и корректируют тени и отражения, но не справляются с физическими взаимодействиями. VOID использует специальную четырехзначную маску (quadmask), которая размечает не только сам объект, но и зоны, на которые он влияет — например, предметы, которые он поддерживал или сдвигал. Для определения таких зон модель задействует мультимодальный ИИ (Gemini) и систему сегментации SAM2.

Технически VOID построена поверх CogVideoX-Fun — 5-миллиардного видеодиффузионного трансформера от Alibaba PAI. Модель обучали на синтетических парных видео: сцены с объектом и без него генерировались в Blender с физической симуляцией (датасет HUMOTO) и в движке Kubric от Google. Такой подход позволил получить "эталонные" примеры, где физика гарантированно корректна. Обучение проводилось на 8 GPU A100 80 ГБ, а для инференса требуется видеокарта с 40+ ГБ видеопамяти.

В пользовательском тестировании на 25 участниках VOID предпочли 64,8% респондентов — против 18,4% у Runway, ближайшего конкурента. Модель также сравнивали с ProPainter, DiffuEraser, MiniMax-Remover и другими решениями на синтетических и реальных видео. Для Netflix, который до сих пор не публиковал ИИ-моделей, это заметный шаг к открытости: компания не просто выложила веса, но и предоставила полный пайплайн генерации обучающих данных, код инференса и GUI-редактор масок.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.