Nvidia научила нейросеть замедлять видео / Хабр

В нашей жизни может быть много моментов, которые нужно записать на камеру в замедленном режиме – первые шаги ребенка, первая поездка на море, трюк любимой собаки. Современный смартфон позволяет снимать с частотой 240 кадров в секунду или выше, но постоянно в таком режиме записывать не получится — памяти не хватит, и батарея сядет быстро. Созданная Nvidia нейросеть работает с уже отснятыми видео, превращая их в замедленные.

Исследователи из Nvidia создали систему на основе глубинного обучения для переработки видеороликов с частотой 30 кадров в секунду в замедленные видео. Они использовали библиотеку глубинного обучения PyTorch и графические процессоры Nvidia Tesla V100 GPUs. Систему тренировали с помощью 11 000 видеороликов повседневной и спортивной активности, снятых с частотой в 240 кадров в секунду. Благодаря этому она стала предсказывать промежуточные кадры. Чтобы проверить точность технологии, исследователи использовали отдельную базу данных с видео.

Технология позволяет делать видео гораздо более плавными и менее размытыми, чем в случае обычного замедления скорости. Частота кадров повышается до 480 в секунду. Для демонстрации результатов команда сравнила замедленные ролики, снятые видеоблогерами The Slo Mo Guys, с теми же видео, замедленными новым способом.

Первая нейронная сеть оценивает видеопоток — структуру движения, объектов, поверхностей и рёбер в сцене. Делает она это и вперёд по временной шкале, и в обратной последовательности для двух входных кадров. Затем система предсказывает, как пиксели будут перемещаться из одного кадра в следующий, создавая 2D-векторы этих перемещений.

Затем работает вторая нейросеть, которая предсказывает карту видимости – исключает те пиксели, которые должны быть перекрыты объектами, чтобы убрать артефакты. И система с помощью всех полученных данных искажает новые кадры между двумя выходными, чтобы обеспечить плавность перехода.

На видео можно сравнить результаты. Конечно, есть отличия между искусственно созданными замедленными видео и оригиналом, отснятым изначально с высокой частотой кадров. Это особенно заметно в сравнении с прыжком на надувной шар в бассейн от Slo Mo Guys на 54 секунде. Но если бы сравнивать было не с чем — отличить настоящее видео от «поддельного» было бы сложно.

Команда пока не знает, как коммерциализировать свою разработку. По их мнению, она ещё далеко до идеала и требует много ресурсов, в том числе временных. Вероятно, даже если такая технология и будет реализована в качестве продукта, она не будет запускаться на устройстве пользователя — вычисления произойдут в облаке.

В апреле специалисты из Nvidia показали другую технологию, добавляющую новые фрагменты к изображению – реконструкцию фотографий. Метод позволяет убрать предмет с изображения, после чего система заменит пустой фрагмент на реалистичный фон, а также добавить глаза и другие части лица после удаления их с фото.

В процессе подготовки к тренировке нейросети исследователи создали более 55 тысяч масок из рандомных полос и отверстий разных размеров. Ещё 25 тысяч новых масок использовали для проверки точности результатов после обучения.

В процессе тренировки маски накладывались на изображения, чтобы помочь нейросети изучить, как нужно реконструировать недостающие пиксели.

Научная работа Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation опубликована на сайте препринтов arXiv.org: arXiv:1712.00080.