Pull to refresh

Разработчик из Стэнфорда научил нейросеть находить на видео целующихся людей

Reading time2 min
Views2.2K

Нейросети могут многое — идентифицировать рак, определять следы редактирования фотографий, помогать на производстве. Теперь нейросети научились еще одной очень полезной функции — определять на фотографиях целующихся людей.

Систему построили из двух основных элементов. Первый — бинарный классификатор, который способен определить наличие целующихся людей на снимке или видео. Второй — сегментатор, который выделяет и показывает все обнаруженные кадры. Результаты своей работы опубликованы автором проекта на arXiv.

Разработчик, которого зовут Амир Зиай, реализовал вой проект на основе сверточной нейросети ResNet. Это стандартный элемент в похожих проектах, который отвечает за распознавание изображений. Второй элемент базируется на сверточной нейросети VGG, которая используется еще и для анализа различных акустических характеристик разных объектов. Вторая нейросеть определяет уникальность каждого обнаруженного кадра с поцелуем.

Итоговый продукт получает на входе видеофайл, который и анализирует. На выходе получается ряд вырезанных из общего видео кадров с поцелуями, которые удалось обнаружить системе. По словам разработчика точность работы системы составляет 95%. Обучение нейросети (это необходимо для того, чтобы система могла нормально работать) производилось на голливудских фильмах. Всего нейросеть «изучила» несколько сотен фрагментов фильмов с поцелуями и еще больше кадров без поцелуев. Продолжительность кадров составила от 10 секунд до 2 минут.

Сейчас Зиай сотрудничает с Netflix, но разработчик занят в проекте, который не имеет отношения к нейросети. Насколько можно понять, нейросеть, которая умеет находить на видео целующихся людей — проект, который стал хобби. По словам экспертов, нейросеть можно использовать на самых разных стриминговых сервисах для идентификации различных эмоциональных сцен и их дальнейшего озвучивания для людей с нарушением зрения.

«Этот проект является хорошим примером того, как современные компьютерные технологии позволяют выполнять новые задачи — например, структурировать базы видеороликов, выделяя кадры с заданными действиями или объектами», — заявил Джек Кларк, представитель OpenAI.
Tags:
Hubs:
If this publication inspired you and you want to support the author, do not hesitate to click on the button
Total votes 8: ↑7 and ↓1+6
Comments3

Other news