Comments / Profile of bdmoiseev / Habr

Борис Моисеев@bdmoiseev

Специалист в области компьютерного зрения

Subscribers

ProfileArticles1PostsNewsComments15

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

bdmoiseev Sep 26 2018 at 15:18

Архитектурно это практически та же сеть, что применяется на этапе деблокинга.

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

bdmoiseev Sep 26 2018 at 12:08

В конце статьи ещё есть примеры старых чёрно-белых фильмов, а больше можно посмотреть по запросу «фильмы в deephd» на Яндекс.Видео.

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

bdmoiseev Sep 25 2018 at 19:45

Если говорить про такие мультфильмы с не самыми качественными исходниками — да, возможно для каждого мультфильма и можно подобрать подходяшие фильтры вручную, хоть такой подход и плохо масштабируется. Однако лица вот так, например, всё же не вытянуть:

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

bdmoiseev Sep 25 2018 at 19:41

Да, вообще никакой. Про телекино не знаю, а интерлейс выглядит не очень хорошо (не сильно лучше, чем видео без обработки, на что уже выше указывали в комментариях), но для трансляций в интернете обычно всё равно приходится делать деинтерлейс и обрабатывать уже progressive-сигнал. Цвета тоже полностью автоматически меняются (так сетка научилась).

Мы очень ленивые люди, поэтому всё автоматизировано :)

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

bdmoiseev Sep 25 2018 at 15:26

Не пробовали, но мне кажется, что даже одного кадра более чем достаточно для того, чтобы отличить анимацию от кино, и если такой conditioning действительно полезен, то нейросеть сама справится его выучить на основе входной картинки.

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

bdmoiseev Sep 25 2018 at 15:24

У нас полностью универсальный автоматизированный алгоритм, все примеры из статьи (и цветные, и чёрно-белые фильмы, и мультфильмы) обрабатывались одним и тем же кодом аналогом цикла for внутри вычислительной платформы Нирвана. По сути это просто нейросетевая модель, которая на вход покадрово принимает видео и выдаёт видео в два раза больше, никаких специальных настроек там нет.

Что подразумевается под телеканалом? 60 полукадров?

25 полных кадров в секунду.

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

bdmoiseev Sep 25 2018 at 14:51

Потому что существующие решения решают более узкую задачу. Например, академические решения задачи super resolution хоть и повышют разрешения, но непригодны для решения поставленной задачи, т.к. артефакты сжатия видео начинают сильно бросаться в глаза. Обычные фильтры повышают резкость, но не увеличивают детализацию, и опять-таки делают более явными дефекты видео. Так что сравнение будет заведомо нечестным, т.к. мы решаем практическую, а не академическую задачу.

Просто для примера — вот относительно новая реализация super resolution: github.com/fperazzi/proSR. На реальных изображениях интернета, даже при условии предобработки всех изображений нашим деблокингом, по оценкам из Толоки DeepHD выигрывает в 67% случаев.

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

bdmoiseev Sep 25 2018 at 14:34

Вы правы, из отсутствия информации сделать её наличие нельзя. Но можно перенести информацию оттуда, где она есть. Подобный подход применяется, например, при обучении классификаторов: сначала обучают модель на какой-нибудь большой базе (например, ImageNet), а потом уже на маленькой базе обучают целевой классификатор.

Точно так же и тут: нейросеть «запоминает», как выглядят волосы, и дорисовывает исходя из этого знания. В этом и основная разница методов, основанных на машинном обучении, и простым шарпенингом: без знания о том, как вглядят волосы или глаза, нельзя реалистично их восстановить, см. пример с лицом из статьи. При этом отмечу, что content loss «отвечает» за то, чтобы содержимое кадров не изменилось, в результате нейросеть меняет только высокочастотные детали, не трогая ничего важного.

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

bdmoiseev Sep 25 2018 at 14:06

Спасибо за идею! Я попробовал, но пока с виду эффект получается своеобразным, на кадрах появляются следы предыдущих кадров, что выглядит не очень здорово. Попробуем ещё покрутить параметры.

Пример

Есть надежда, что подобные проблемы можно решить, подавая на вход сети не один кадр, а несколько, но пока что нам такую архитектуру не удалось заставить работать достаточно хорошо.

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

bdmoiseev Sep 25 2018 at 13:43

В общем-то вы во многом правы, нам ещё явно есть что улучшать. Мультфильмы, я думаю, действительно можно обработать и ручными методами достаточно неплохо, если внимательно подобрать фильтры. Другое дело, что намного полезней иметь универсальное решение, которое «из коробки» работает и на мультфильмах, и на фильмах, и на телепрограммах, без каких-либо дополнительных ручных действий, подбора степени шарпенинга и т.п.

За MSU Cartoon Restore — спасибо, мы действительно не знали про них, хотя и не совсем честно сравниваться с их решением: оно работает только на мультфильмах и требует ручного выставления параметров.

А пример деблокинга — кадр из видео foreman, широко используемого для демонстрации методов обработки видео по всему миру. Вот целое видео, если интересно: www.youtube.com/watch?v=0cdM-7_xUXM

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

bdmoiseev Sep 25 2018 at 10:41

Спасибо, поправили.

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

bdmoiseev Sep 25 2018 at 10:32

Непосредственно в самой сети — по сути сеть «запоминает», как должны выглядеть те или иные текстуры и объекты из обучающей выборки, и переносит эти знания на целевой домен.

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

bdmoiseev Sep 25 2018 at 10:29

По факту такой проблемы не возникает, причин этому несколько. Во-первых, сеть добавляет только мелкие детали, которые всегда привязаны к крупным, которые движутся плавно. Во-вторых, важная стадия — деблокинг, на которой устраняются привнесённые алгоритмами сжатия артефакты, в результате все сгенерированные детали привязаны к контенту изображений, а не к квадратикам алгоритма сжатия, за счет чего результат получается более гладким.

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

bdmoiseev Sep 25 2018 at 10:15

Спасибо! Пока, к сожалению, нет — пока что это только внутренний инструмент. Прежде чем делать технологию публичной, хочется ещё побороться за качество и производительность.

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

bdmoiseev Sep 25 2018 at 10:09

Спасибо за добрые слова!

Про звук много думаем, но это существенно сложнее. Для того, чтобы обучить такую нейросеть, нужно воспроизвести те деффекты, которые есть на реальном контенте низкого качества. В случае видео достаточно понизить разрешение, добавить блура и сжать одним из популярных кодеков, и результат уже получается неплохим. В случае звука нужно воспроизводить шумы и дефекты, которые возникали при записи на старые микрофоны и последующей записи на плёнку, что сложнее. Можно попробовать не воспроизводить эти шумы, а воспользоваться технологиями вроде CycleGAN, но мы пока что ещё не пробовали.