Nvidia показала нейросеть, которая учит танцевать

    image

    Исследователи Nvidia совместно с Калифорнийским университетом представили модель машинного обучения, которая поможет создать танцевальное видео. Нейросеть предлагает набор танцевальных движений, которые разнообразны, согласованы по стилю и соответствуют ритму музыки.

    «Это сложная, но интересная генеративная задача с потенциалом для создания контента в искусстве и спорте, например в сфере театральных представлений, художественной гимнастики и фигурного катания», — заявили авторы исследования.

    Модель сначала учится двигаться, а затем сочинять движения. Команда использовала MM-GAN (Generative Adversarial Network for Multi-Modal Distribution). Исследователи брали стиль и ритмы музыки и синтезировали последовательность танцевальных движений рекуррентным образом. Для обучения нейросети они использовали видео трех танцевальных категорий, включая балет, зумбу и хип-хоп. В итоге было синтезировано более 361 000 клипов или около 71 часа танцевального видео.


    Для обработки движений применили OpenPose, разработанную Университетом Карнеги-Меллона. Нейросеть превращает исходное видео движения в упрощенную модель человеческого тела, состоящую из ключевых точек, которые соединяются линиями. Затем движения исходника передаются на целевую модель. Работа проводилась с использованием PyTorch и графических процессоров NVIDIA V100.

    image
    image

    Теперь команда планирует добавить больше танцевальных стилей, таких как поп и партнерский танец. «Качественные и количественные оценки показывают, что синтезированные танцы по предлагаемому методу не только реалистичны и разнообразны, но также соответствуют стилю и ритму», — отметили исследователи.

    Исходный код модели опубликовали на GitHub.

    Ранее Nvidia представила AI-систему DIB-R, которая построена на основе ML-фреймворка PyTorch и способна преобразовывать двухмерные изображения в трехмерные объекты. Она обрабатывает картинку, а затем преобразует ее в высокоточную 3D-модель с учетом формы, текстуры, цвета и освещения объекта. Задействована архитектура кодера-декодера, которая преобразует входные данные в вектор, используемый для прогнозирования конкретной информации. Вся работа занимает менее чем 100 миллисекунд.
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 2

      0
      Каких нейросетей Nvidia еще не показала?
        0

        Вот если бы она меня научила танцевать!

        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

        Самое читаемое