Nvidia научила нейросеть замедлять видео

    В нашей жизни может быть много моментов, которые нужно записать на камеру в замедленном режиме – первые шаги ребенка, первая поездка на море, трюк любимой собаки. Современный смартфон позволяет снимать с частотой 240 кадров в секунду или выше, но постоянно в таком режиме записывать не получится — памяти не хватит, и батарея сядет быстро. Созданная Nvidia нейросеть работает с уже отснятыми видео, превращая их в замедленные.


    Исследователи из Nvidia создали систему на основе глубинного обучения для переработки видеороликов с частотой 30 кадров в секунду в замедленные видео. Они использовали библиотеку глубинного обучения PyTorch и графические процессоры Nvidia Tesla V100 GPUs. Систему тренировали с помощью 11 000 видеороликов повседневной и спортивной активности, снятых с частотой в 240 кадров в секунду. Благодаря этому она стала предсказывать промежуточные кадры. Чтобы проверить точность технологии, исследователи использовали отдельную базу данных с видео.

    Технология позволяет делать видео гораздо более плавными и менее размытыми, чем в случае обычного замедления скорости. Частота кадров повышается до 480 в секунду. Для демонстрации результатов команда сравнила замедленные ролики, снятые видеоблогерами The Slo Mo Guys, с теми же видео, замедленными новым способом.

    Первая нейронная сеть оценивает видеопоток — структуру движения, объектов, поверхностей и рёбер в сцене. Делает она это и вперёд по временной шкале, и в обратной последовательности для двух входных кадров. Затем система предсказывает, как пиксели будут перемещаться из одного кадра в следующий, создавая 2D-векторы этих перемещений.

    Затем работает вторая нейросеть, которая предсказывает карту видимости – исключает те пиксели, которые должны быть перекрыты объектами, чтобы убрать артефакты. И система с помощью всех полученных данных искажает новые кадры между двумя выходными, чтобы обеспечить плавность перехода.

    На видео можно сравнить результаты. Конечно, есть отличия между искусственно созданными замедленными видео и оригиналом, отснятым изначально с высокой частотой кадров. Это особенно заметно в сравнении с прыжком на надувной шар в бассейн от Slo Mo Guys на 54 секунде. Но если бы сравнивать было не с чем — отличить настоящее видео от «поддельного» было бы сложно.

    Команда пока не знает, как коммерциализировать свою разработку. По их мнению, она ещё далеко до идеала и требует много ресурсов, в том числе временных. Вероятно, даже если такая технология и будет реализована в качестве продукта, она не будет запускаться на устройстве пользователя — вычисления произойдут в облаке.



    В апреле специалисты из Nvidia показали другую технологию, добавляющую новые фрагменты к изображению – реконструкцию фотографий. Метод позволяет убрать предмет с изображения, после чего система заменит пустой фрагмент на реалистичный фон, а также добавить глаза и другие части лица после удаления их с фото.

    В процессе подготовки к тренировке нейросети исследователи создали более 55 тысяч масок из рандомных полос и отверстий разных размеров. Ещё 25 тысяч новых масок использовали для проверки точности результатов после обучения.

    В процессе тренировки маски накладывались на изображения, чтобы помочь нейросети изучить, как нужно реконструировать недостающие пиксели.


    Научная работа Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation опубликована на сайте препринтов arXiv.org: arXiv:1712.00080.
    Поделиться публикацией
    Комментарии 54
      +6
      Было бы интересно провести сравнение с SVP.
        0
        Судя по использованному оборудованию и предложению делать это в облаке жрёт эта нейросеть кучу ресурсов и вряд ли сможет работать онлайн на ПК обычного пользователя.
        +3
        В апреле специалисты из Nvidia показали другую технологию, добавляющую новые фрагменты к изображению – реконструкцию фотографий. Метод позволяет убрать предмет с изображения, после чего система заменит пустой фрагмент на реалистичный фон

        Хорошо бы такой плагин для фотошопа!
          +3

          Уже давно в фотошопе есть и судя по примерам из видео работает не хуже, говорю как человек с большим опытом работы в фотошопе. С видео тоже не впечатлен, SVP тоже строит промежуточные кадры по похожему принципу и на первый взгляд не хуже ну нужно конечно видеть сравнение именно с SVP, а не оригиналом.

            0
            Healing Brush Tool. Пользуюсь уже не один год. Результат точно не хуже чем на видяшке
              0
              С такой же скоростью?
                0
                Ну, учитывая что здесь также появлялись размытости, то да, примерно с такой же скоростью. Я уверен, они подбирали удачную картинку для видео. От этого очень много всего зависит.
                Фотошоп достаточно адекватно закрашивает этой кистью. Отлично подходит для затирания текста на фото или небольших объектов.
                  +1
                  Сказки не рассказывайте. Штамп как минимум еще требует выбрать зону клонирования.
                  Это уже дольше. Не говоря уж о том, что он копирует один в один. Из-за чего приходится зону клонирования постоянно смещать на сложной картинке. В то время как здесь результат более интеллектуальный.
                  Так то да, попиксельно художник сделает в 100 раз лучше. Затраты по времени просто не адекватные будут.

                  они подбирали удачную картинку для видео

                  Мы обсуждаем тему исходя из того, что показан типичный сценарий, а не значительно лучший типичного.
                  А так — может это вообще фейк.
                    –1
                    Ну, я далеко не дизайнер, а программист. И для моих целей этот инструмент действительно позволяет за секунды убрать ненужный элемент с картинки. Да, не всегда и иногда приходится что-то делать вручную.

                    Здесь я не увидел сообо интеллектуального варианта. Разве что фон он не выбирает, да, тут вы правы. Впрочем, он его берет просто рядом, а не придумывает, как мне кажется.

                    Вы может быть и обсуждаете «типичный сценарий». Я полностью уверен, что в качестве примера показан один из самых лучших результатов.
                      +3
                      Странно, что Вы как программист не видити очевидной ошибочности аргемента «его берет просто рядом».
                      Где он там эти глаза или брови берет?
                        –1
                        Ок. Глаза и брови — «умная» замена. Но например в первом же примере, камень. Почему его заменили именно на землю, а не на зеленый куст? Скорее всего потому что вокруг больше земли, чем кустов.

                        В общем — верим заявлениям и считаем, что алгоритм именно «думает», а не просто дополняет Healing Brush Tool. Не стану спорить.
                          +1
                          Я в основном спорил не с тем что он умный. А стем что он не быстрее ручного штампа.
                          Я бы посмотрел, как вы с той же скоростью и качеством даже простую фотку библиотеки правите в ручном режиме. Даже без учета затрат времени на источник клонирования.
                            0
                            Мне кажется, что вариант с выбором «откуда» более правильный.
                            Возвращаясь к камню — что если бы я хотел на его месте увидеть именно зеленую землю, а не серую? Я бы клацнул на зеленую, а тут… неизвестно что оно подставит.
                            Выглядит круто и быстро, не спорю. А как оно на практике — покажет время, если оно вообще дойдет в массы.
                      +2
                      Полагаю, имелся ввиду не инструмент штампа, а Spot Healing Brush Tool.
                      Он сам выбирает область откуда брать данные и совмещает фрагменты из разных мест изображения. Принцип аналогичен тому как если выделить область и применить заливку в режиме Content Aware.

                      Местами результат очень похож на то, что показано в видео. Но конечно большой плюс новой нейросети, что она умеет дорисовывать изображения до типичного.

                      Вот замедление действительно пока не впечатляет. В редакторах давно есть неплохие плагины для этого, тоже работающие по принципу векторного поля (самый известный — Twixtor, или TimeWrap в AE). Субъективно, работают они пока получше.
                        0
                        Spot Healing Brush Tool — очень похоже по скорости, согласен.
                        0
                        Но речь ведь идет не про штамп, а по лечащую кисть.
                        В английской версии эти инструменты называются Healing Brush(то, что что Akuma говорит) и Stamp Tool, что далеко не одно и то же.
                          0
                          Именно Healing Brush отличается чуть алгоритмом, но суть у него таже что у штампа.
                          А вот у Spot суть гораздо ближе к видео. Правда я не в курсе, можно ли им возюкать или только точечно воздействовать.
                  +1
                  В смысле кнопка: «Сделать хорошо»? :-)
                  0
                  Интересно насколько было оправдано в плане стоимости и энергопотребления ставить такую сеть «в железе» как сопроцессор видеокарты и результаты обучения поставлять с игрой или драйвером. Было бы неплохо получать х2 FPS
                  Ну и ессно можно смотреть антимехи в 24 кадра :)
                    +8
                    Думаю, в случае игр честный рендеринг игрой дополнительных кадров требует заметно меньших вычислительных ресурсов. Не говоря уже про отсутствие артефактов
                      0
                      Это зависит от сложности рендеринга. Если каким-то образом, какая-то железка научится преобразовывать 15fps в 60 (в реальном времени), да еще и делать это селективно (там где происходит движение), то это как минимум, сильно упростит жизнь разработчикам, которые хотят не уронить FPS на динамичных сценах с большим количеством объектов (где, обычно, и требуется максимальная вычислительная мощность видеокарты и процессора).

                      При условии энергоэффективной реализации это еще может очень пригодиться для онлайн-видео (я не про сайты, а в общем о видео, что тянется из сети). Вместо 60fps, можно будет стримить 10-15 и получить дополнительное сжатие раза в 2.
                        0

                        Вроде в телеках есть такая тема. Но возможно, что там уже заранее (со станции) передается увеличенная частота. Возможно, что-то типа Auto Motion Plus, LED Clear Motion, TruMotion, Image Motion, Motion Rate и т.п.


                        Блин, увидел ниже в комментах ))

                        0
                        Подчеркну, что я не специалист в нейронных сетях, лишь предполагаю, что это может быть дополнительным вектором развития игровых видеокарт, помимо лобового наращивания ядер и мегагерц.
                        +1
                        В случае игр это будет бесполезно из-за высокого лага.
                        +2
                        Конечно, есть отличия между искусственно созданными замедленными видео и оригиналом, отснятым изначально с высокой частотой кадров. Это особенно заметно в сравнении с прыжком на надувной шар в бассейн от Slo Mo Guys на 54 секунде. Но если бы сравнивать было не с чем — отличить настоящее видео от «поддельного» было бы сложно.
                        Вы не совсем поняли. Нейронная сеть замедлила в 4 раза уже снятое с высокой частотой кадров оринанальное видео — а конкретно момент сдутия шара, в то время как видео слева было показано с первоначальной скоростью. На скриншоте в статье в двух кадрах показаны разные временные точки в одном видео. То есть если бы фреймрейт оригинального видео был бы х4, то получилось бы примерно так как справа.
                          0
                          Примерно — да. Но динамика разная. Речь об этом. На сгенерированном шарик схлопывается плавно и равномерно.
                            0
                            Ну так точно так же плавно и равномерно он схлопывается и в реальном мире. Ключевые кадры — одни и те же. Всё, что делает программа — между двумя соседними кадрами вставляет ещё три, не снятых камерой из-за ограничения частоты кадров. Это единственное «отличие между искусственно созданными замедленными видео и оригиналом». А то в статье так говорится, как будто нейронная сеть другую концовку придумала.

                            Естественно, в сгенерированном видео могут быть отличия от того, что получилось бы в реальности, но они небольшие. Но тут уже нужно сравнивать с чем-то, снятым на такой же скорости и с выкинутыми оттуда кадрами, которые потом «пририсуются» программой.
                              +3
                              Надо было замедленное видео, снятое The Slow Mo Guys, ускорить до реального времени, выкинуть лишние кадры, оставить только 30к/c, скормить нейросеткам, и потом сравнить с начальным видео то, что у них получилось.
                          +1
                          А зачем нейронная сеть в задаче на банальную интерполяцию?
                            +7
                            Переделать 30 fps в 240 — это не банальная интерполяция. Ну и потом, нейронные сети — это стильно и модно
                            0
                            Телевизоры уж больше 10 лет как умеют добавлять кадры чтоб из 50Гц делать 200-400. Причём в режиме реального времени. Артефакты, правда, заметны. А нейросеть Нвидии способна работать в реальном времени?
                              +10
                              Телевизоры хорошо умеют выдавать желаемое за действительное. В принципе, это их основное предназначение.
                                0
                                То же самое относится и к этой нейронке.
                                0
                                > из 50Гц делать 200-400

                                www.mediamarkt.ru/blog/2011/12/09/tv-embellish
                                  0
                                  Наличия расчёта промежуточных кадров во всех современных телевизорах эта статья не опровергает. Вопрос лишь в объективности цифр.
                                +1
                                кроме этого, ее еще можно использовать и для сжатия видеопотока — например, выкидывая из оригинального видео куски до тех пор, пока восстановленная часть не будет отличаться от оригинала.
                                  0
                                  Нейронками уже давным давно делают сжатие. Это не очень практично, но в каком-то там соревновании по качеству сжатия в первой десятке алгоритмы на них.
                                  0
                                  Fu Well done, Nvidia! А теперь нельзя ли приспособить этот самый искусственный интеллект пофиксить кривые линуксовые драйвера видеокарт?
                                    0

                                    Тру линуксоиду дрова на видяху не нужны. Или там черный фон более глубокий и насыщенный с дровами-то? %)

                                      0
                                      А Вы про декстопный линукс когда-нибудь слышали?
                                        0
                                        Слышал, что это не true!
                                    +1

                                    Один глаз провален, другой повернут прямо к наблюдателю.
                                    Сразу вспоминается, что такое зловещая долина.
                                    Нейросетям можно доверить отрисовывать персонажа какого-нибудь триллера или хоррора.

                                      –1
                                      Нормально они отрисовывают www.youtube.com/watch?v=R7CTBXZUDfc
                                        0
                                        А вы не сравнивайте интерполяцию с интерпретацией. Интерполяцию (расчёт промежуточных положений) хорошо делает довольно несложная математика. А вот интерпретацию (вставку отсутствующих деталей) математикой не сделать. Тут нейросети «без конкуренции», но результат в большинстве случаев работы с человеческим лицом будет «Франкенштейн». Потому что нашему глазу, натренированному на очень большой выборке лиц, малейшие огрехи очень заметны.
                                      +1
                                      Хм, а в чём отличие от AMD Fluid Motion, которой уже 100 лет в обед? Сразу поясню, что плаваю в обоих темах, так что хотелось бы с обывательской точки зрения.

                                      P.S. Видео с просторов интернетов, чтобы лишний раз не гуглить что это такое:

                                        0
                                        Судя по видео — это система стабилизации.
                                          0
                                          При большом числе кадров глазам заметно легче отслеживать движения. Стабилизации в том видео нет, только дополнительные кадры.
                                        +4
                                        Сначала я офигел с первого ролика. Потом ещё больше со второго. А комментарии, где всё это называется вчерашним днём, меня совсем добили. Это круто!
                                          0
                                          Хотелось бы глянуть как эта нейросеть сделает 240 фпс из видео с игрой пианиста крупным планом на пальцах. Движения пианиста очень быстрые, пальчики бегают вверх-вниз, да еще и на контрастном фоне. Интерполяции что я видел до сих пор фэйлились на таком видео. На примере выше все относительно просто т.к. движения плавные и равномерные.
                                            –1
                                            эта сетка сфейлилась на мужике с шаром и ракетке с гелем, слишком замедлила происходящее. Кнопка «я вложил тридцать квинтилион картинок, подбери какая подойдёт».
                                              0
                                              Что будет, можете увидеть, проследив за коньком падающего хоккеиста. На фоне рамки ворот, руки и номера на спине конек просто исчезает.
                                              Гифка

                                              0
                                              Команда пока не знает, как коммерциализировать свою разработку.

                                              Кажется очевидным — восстановление фрагментов потерянных при передаче.
                                                0
                                                Это не восстановление потерянного, а замена более-менее подходящими (с точки зрения нейросети) образцами.
                                                0

                                                Сколтех круче нейроску сделал, она вообще может полов ну лица дорисовать

                                                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                Самое читаемое