В прошлом году наша научная группа организовала международное соревнование по рендерингу ночных изображений на конференции CVPR. Это, на минуточку, одна их трех самых престижных профильных международных конференций в году.
Если кратко. Задача участника — создать алгоритм, который будет генерировать/рендерить по необработанному (RAW) изображению самое эстетически красивое изображение ночной сцены. Большинство представленных решений — нейросетевые end-to-end пайплайны обработки изображений. Главная особенность соревнования заключалась в том, что правильных ответов у участников и у нас не было, а рейтинг мы определяли используя Толоку (платформа для краудсорсинга разметки данных) путем массового голосования за лучший результат рендеринга. Лучшие 10 решений отдельно оценивались профессиональным фотографом. Что круто, рейтинги профессионалов и обычных пользователей оказались похожи (ну почти)! Получается, что мы измерили ту самую неосязаемую эстетику.
История начинается с того, что в 2018 году мы выиграли международное соревнование по вычислительной фотографии, целью которого было создание алгоритма для оценки точки белого в сцене. На волне позитивного энтузиазма нашей победы (а повод был, поскольку мы опередили исследователей из команды Google Pixel) со следующего года мы сами организовывали подобное соревнование. Спустя два года мы стали соорганизаторами воркшопа на конференции CVPR уровня А* , где предлагаем ученым и разработчикам новый вид соревнований с нестандартным тестом и трейном :)
Но обо всём по порядку, давайте сначала зададимся основным вопросом соревнования.
Почему сложно сделать алгоритм для обработки ночных изображений?
Во-первых, конечно же из-за шума. Ночью очень мало света, для сравнения, ясной лунной ночью в тропиках освещенность минимум в 32 тысячи раз меньше, чем под прямым солнечным светом. Лучше почувствовать разницу освещенностей помогает таблица из Википедии:
Освещённость, люкс | Типовые условия наблюдения |
0,0003 | Безлунное звёздное небо |
1 | Полнолуние в тропиках |
150 | Жилые комнаты, гостиные, спальни |
400 | Восход или закат в ясный день |
1000 | Пасмурное дневное небо (на горизонте) |
32—130 тыс. | Под прямым солнцем в тропиках |
Для большей наглядности давайте посмотрим на два снимка одной и той же сцены, снятые при дневном и вечернем освещении из окна и тех же настройках камеры. Шума явно стало большое!
Еще большие проблемы с шумом испытывают производители мобильных телефонов, которым приходится работать с очень маленькими CCD-матрицами (площадь пикселя порядка 5 мкм, что в 100 раз меньше, чем у Full Frame фотокамеры).
Чем меньше яркость источников света в сцене и размер матрицы, тем хуже мы оцениваем параметры исходного сигнала. Плюс к этому, сам сенсор тоже не является идеальным измерительным устройством: даже в кромешной темноте, где не пролетит ни один фотон, он будет показывать некоторое ненулевое значение – так называемый темновой ток. Как правило считается, что он не зависит от величины измеряемого сигнала.
В итоге с шумом мы имеем сразу две проблемы: мало информации о полезном/измеряемом сигнале, более сильное относительное влияние шума сенсора.
Во-вторых, ночью невозможно закрыть глаза на сложность освещения в сцене.
Большинство современных алгоритмов рендеринга изображений опираются на гипотезу о единственном доминирующем источнике освещения. Иными словами, предполагается, что в сцене всего лишь один основной источник света: либо солнце, либо серое небо, либо лампа в помещении. Это позволяет определить и оценить точку белого, которая используется для коррекции изображения. В ночное время гипотеза о существовании доминантного источника освещения выполняется гораздо реже. К примеру, для городских сцен со множеством фонарей, светящихся баннеров и вывесок выделить доминантный источник не получится.
Ну и наконец третья проблема: не существует консенсуса в вопросах эстетики.
Мы не первые, кто столкнулся с этой проблемой. Поставим себя на место производителей смартфонов с кучей камер. Постепенно все пользователи превращаются в любителей фотографии, учатся обращаться с разными настройками, ракурсами и сценариями съемки. Считается, что качество камеры чуть ли не больше всего влияет при выборе смартфона (особенно для дорогих моделей). Поэтому для них необходимо заранее подготовить такой алгоритм, который, как минимум, не будет вызывать внутреннее огорчение от серости жизни, а, как максимум, будет вызывать зависть обладателей менее крутого девайса. А яркие воспоминания — это очень востребованный продукт!
Более того, в разных регионах разная эстетика. В восточных странах любят более яркие и насыщенные цвета, а в странах Скандинавии, напротив, в среднем предпочитают умеренные оттенки. Например, в статье были выявлены наиболее предпочитаемые цвета для англичан и для корейцев. Крайний левый столбик отражает выбранные англичанами цвета, крайний правый — корейцами. Тогда как англичане выбирали, в основном, оттенки синего, у корейцев палитра получилась разнообразной и яркой.
В индустрии, как правило, проблему создания наиболее приятного для пользователя пайплайна обработки изображения решают путём формирования целого отдела по контролю качества изображений, состоящего из цветовых инженеров и профессиональных фотографов, на постоянной основе оценивающих качество работы разных версий ПО устройства. При таком решении возможно не только контролировать качество, но и формировать фирменные стили устройств, повышающих узнаваемость продукта.
В нашем случае гораздо важнее вопрос: “А что именно нравится обычному пользователю?”. Для этого вопроса можно пойти альтернативным путём и оценивать MOS (mean opinion score) большого количества испытуемых. Поэтому мы подготовили на базе Толоки необходимые скрипты для проведения массовых исследований предпочтений целевых групп пользователей.
Резюмируя, эстетический рендеринг ночных изображений -- это вызов, потому что:
Много шума. Это особенно больно для тех, кто занимается обработкой изображений на смартфонах.
Необычное освещение. Ночью может не быть доминантного источника освещения или же цвет источника может очень сильно отличаться. Стандартные подходы вычислительной фотографии в такой ситуации будут неприменимы.
Красота неизмерима. Не придумана метрика красоты изображения (и возможно кто-то когда докажет, что она не может существовать), однако задачу её предсказания всё равно неявно приходится решать.
Если при прочтении этой аналитики про проблемы вычислительной фотографии у вас дрогнуло что-то в душе, то тут у вас 2 варианта:
почитать интересный отчет о современном состоянии вычислительной фотографии, который написали наши коллеги из Канады и США
пишите вопросы в комментариях ;)
Как организовать соревнование без правильных ответов?
Как соревнование выглядело глазами участника? Каждой команде-участнику предстояло прописать алгоритм обработки RAW (сырых/исходных) изображений, опробовать его на нашем датасете и показать конечный результат в формате JPEG.
Соревнование проходило по турнирной системе в три этапа. Причем валидация была обязательна только на последнем, третьем этапе — новые участники могли подключаться в любой момент. Каждый зарегистрировавшийся участник получал 100 тренировочных изображений, первые 50 тестовых, потом еще 50 и, наконец еще 100 для финальной оценки качества. Каждый должен был прислать докер со своим решением, итоговые коррекции оценивались с помощью Толоки и профессионального фотографа. Подробнее можно почитать на сайте соревнования.
Состав организаторов и команд участников был интернациональным. В прошлом году соревновались 30 команд из стран Европы и Азии, а в этом году участвовали уже более 50 команд!
Как мы собирали датасет?
Этот раздел мы попросили написать нашего фотографа, чтобы обеспечить полное погружение в процесс :)
Сбор датасета, он же фотосъёмка, — это каждый раз более 10 часов прогулок по ночной Москве (и не только) и более 500 отснятых кадров, из которых только половина пойдет в дело. Задача, на самом деле, увлекательная и творческая: нужно искать симпатичные ракурсы, разные типы освещения, контрасты света и тьмы в кадре, менять планы от крупных объектов на переднем плане до панорамных снимков, а кроме того следить, чтобы в кадр не попадали люди и номера машин (политика неразглашения персональных данных).
Вот несколько лайфхаков по сбору датасета для проведения челленджа, которые мы освоили опытным путём:
Чем старее модель фотоаппарата, тем больше она нам подходит. В новых моделях зачастую «вшиты» алгоритмы предобработки, что нарушает чистоту эксперимента. Действительно “сырые” фотографии в современных фотоаппаратах и смартфонах получить сложно, и, по дефолту, они предназначены для конечного пользователя, обычно фотографа. Учитывая специфику матрицы, условия съемки, тип затвора, на каждой строке или в каждом пикселе при истинном raw формате будет различная яркость. Это очень редкий случай использования, даже для профессиональных пользователей. И это только один из примеров. Поэтому в современные камеры и фотоаппараты уже зашивают некоторую предобработку даже для raw формата изображений. В прошлом году мы снимали на Canon 7D, в позапрошлом — на Canon 600D в стандартной комплектации. Мы решили не перебарщивать и использовали камеры с высокой светочувствительностью матрицы, чтобы облегчить задачу участникам.
Фотографировать можно как с рук c высоким ISO, так и со штативом на длинной выдержке — оба подхода имеют свои преимущества и недостатки. В первом случае одной из приоритетных задач рендеринга становится подавление шума, тогда как при съемке на длинной выдержке и ISO не выше 400 нет необходимости вытягивать тени. Однако длинная выдержка дает свои не всегда желательные эффекты: при ветреной погоде или при наличии в сцене подвижного объекта полученное изображение будет смазанным. К тому же ходить со штативом и каждый раз его раскладывать довольно утомительно.
Интересный кейс для челленджа, когда в кадре появляются сильно контрастирующие цвета: синий с желтым, красный с зеленым и т.д. Это могут быть дорожные знаки или, например, баки для раздельного сбора мусора. В прошлом году фотограф Ричард Коллинз (судья соревнования) обращал особое внимание на качество коррекции именно таких изображений.
Свет и цветовая температура в кадре сильно разнятся в зависимости от погоды и времени года, наличия облаков (природного рассеивателя) или снега (природного отражателя). Поэтому лучше стараться во время сборки фотоматериала захватить разные погодные условия. Зима хороша тем, что ночью меньше людей и машин на улицах, но руки и ноги начинают отмерзать довольно быстро, а в кадр без конца попадают фирменные московские коричневые сугробы.
Как мы оценивали поданные результаты?
Конечной целью алгоритма обработки изображения является создание наиболее красивых для пользователей картинок, удовлетворяющих пользователей, предпочтения которых могут сильно разниться. По этой причине иметь для сравнения эталонные изображения практически невозможно. Как говорится: “Сколько людей, столько и мнений”, “На вкус и цвет товарищей нет”, ну и так далее.
И несмотря на это, оценить решения и понять кто лучший требуется. Для этого мы сравнивали ответы участников друг с другом. Поначалу было непонятно, как правильно провести такое сравнение, ведь изображений много и пересмотреть их все и оценить внутри команды было бы слишком времязатратно. К тому же, такое исследование будет сильно зависеть от конкретного наблюдателя. Для статистики нужно много непредвзятых респондентов, которые быстро будут проходить опросы.
Для решения этой проблемы мы решили прибегнуть к помощи Толоки, одной из краудсорсинговых платформ. Компания Толока являлась официальным спонсором данного соревнования и выделила нам бюджет для проведения исследования.
Процесс оценки решений команд выглядел следующим образом: мы предъявляли пары изображений одной сцены от различных команд и демонстрировали их наблюдателям.
Вопрос звучал так: “Какое изображение кажется вам наиболее эстетически привлекательным?”. Возможные ответы: “Левое изображение лучше”, “Правое изображение лучше”, “Не загружается” (на случай проблем с облачным хранилищем или интернетом, в результате таких ответов почти не было).
В наших предыдущих исследованиях мы экспериментировали с определением фрода задач в Толоке. Для этого добавлялся вариант ответа “Изображения одинаковые”, который служил индикатором невнимательности испытуемого в двух случаях: если на одинаковые изображения флаг не был выбран и если различные изображения были обозначены одинаковыми. Фильтруя пользователей Толоки за невнимательность, мы повышали достоверность ранжирования, однако затраты времени на оценку изображений заметно возрастали. Позже мы обнаружили, что при выборе топ 30% самых аккуратных пользователей Толоки, которых она предлагает на эту задачу, проверка на невнимательность не требуется.
Известно, что колориметрически точных экспериментов необходим серый фон: нам повезло, что сервис Толоки позволяет показывать изображения на сером. Помимо этого, для повышения точности экспериментов мы ограничили выбор девайсов, разрешив использование только компьютеров и ноутбуков (на маленьких экранах детали и шум могли бы быть незаметны оценщикам). Так как человек склонен уставать и прекращать замечать недостатки изображения, сессия каждого пользователя была ограничена 3 часами.
Теперь самое интересное, как лучше всего организовать турнирную схему при заданном бюджете на сравнения. Ограничение по бюджету определяет, как много сравнений между парами изображений мы можем сделать. С такой проблемой сталкиваются организаторы любых любых спортивных турниров: в условиях ограниченного ресурса (времени, финансов) нужно определить лучшего игрока, хотя все игроки друг с другом сыграть не могут. Согласно статье, оценка с попарными сравнениями изображений наиболее точная, но времязатратная.
В нашем случае бюджета соревнования оказалось достаточно для того, чтобы показать всевозможные пары разных алгоритмов обработки для каждой сцены пять раз. За каждый отданный голос команде начислялся один балл. При этом, конечно, каждую пару показывали нескольким людям — мы же не хотим, чтобы голос одного человека с его специфическими предпочтениями сильно влиял на общую оценку. И в итоге баллы команды — это сумма полученных ею очков, нормализованная на общее количество пар с её участием (в нашем случае количество пар для каждой команды одинаковое). Такая схема называется подсчетом голосов (“vote count”).
Этот подход, конечно, не лишён недостатков. Главным из них является равный вес каждого сравнения. Для решения этой проблемы придумали много способов, например, параметрические модели, которые приписывают рейтинг каждому объекту и на основе этого дают вероятности того, что человек предпочтет одно изображение другому. После накопления данных о сравнениях можно оценить наиболее вероятные скоры методом максимального правдоподобия, которые и будут итоговыми результатами. Однако оказывается, что если при попарных сравнениях каждое изображение сравнивалось с каждым другим одно и то же число раз, то такой подход полностью эквивалентен простому подсчету голосов. В челлендже этого года так и получилось, поэтому можно не беспокоиться о неидеальности модели.
На этом моменте у читателя может возникнуть вопрос, насколько стабильна оценка изображения предъявленным методом. Мы провели исследование, дважды запустив сравнение одного и того же датасета. На графике ниже каждая точка соответствует оценке одного изображения на первом и на втором запуске.
Что получили в результате?
В сравнении с прошлым годом, число участников увеличилось, а призовые места получили не только представители крупных компаний, но и исследовательские группы университетов: в прошлом году первое место занял научный коллектив из Миланского университета, тогда как в позапрошлом году лидировала компания Xiaomi.
Как и везде, тут тоже 10 лет назад среди методов обработки изображений главенствовали классические и статистические алгоритмы, а сейчас это, конечно, в основном нейросети.
Стоит отметить, что качество представленных работ существенно выросло по сравнению с прошлым годом — с увеличением количества участников выросла и конкуренция, и поэтому команды были замотивированы представить более сложные алгоритмы.
Если в позапрошлом году зрительские симпатии в большинстве случаев совпадали с профессиональной оценкой фотографа, на этот раз были расхождения в оценке результатов, и победители по двум номинациям отличаются, при том что тройка лидеров совпадает. В номинации “выбор фотографа”, как и в позапрошлом году, победила команда Xiaomi, а предпочтения людей были отданы решению, предложенному командой Миланского университета и основанному на алгоритмическом методе.
Особенно круто, что в прошлом году призовое место занял алгоритмический метод, а не нейронная сеть. Команда исследователей из Миланского университета показала, что не только нейронные сети могут быть использованы для решения задачи обработки ночных изображений.
Также стоит отметить, что в прошлом году наравне с компьютерными алгоритмами бился за первенство человек, который занял шестое место. С одной стороны, кажется, что кто, как не человек, должен понимать, какое изображение наиболее красивое. В конце концов, это и было ключевым критерием оценки результатов соревнования. Однако, в этом есть и загвоздка. Соревнующиеся должны предоставить решение, которое понравится наибольшему количеству толокеров и экспертов-фотографов. Помимо этого, это еще и должно быть некое усредненное представление об идеале снимка. Человеку, со своим субъективным мнением о красоте фотографии, добиться этого крайне тяжело. Тем не менее, согласитесь, впечатляет. Шестое место в соревновании алгоритмов с участием всемирно известных команд! Ручное улучшение отснятых кадров в Adobe Camera RAW включало коррекцию температуры, яркости, контрастности, темных и светлых областей, шумоподавление, настройку оттенков и интенсивности отдельных цветов.
Обзор решений
В пошлом году в соревновании зарегистрировалось больше 50 команд, в промежуточных этапах участвовало около 15 команд, а к финалу мы получили 10 решений. Большинство команд было из Китая, но также были представители Италии, Германии, Турции и даже сотрудники таких компаний, как Xiaomi и Google.
Далее мы подробнее посмотрим решения трех лучших команд, отсортированных по предпочтениям людей и наш предложенный бейзлайн.
Бейзлайн
В качестве бейзлайна участникам предлагалось использовать стандартный ISP-конвейер, выложенный нами на GitHub. Он включает в себя такие шаги обработки изображения как дебайеризация, баланс белого, шумоподавление, тональное отображение и преобразование из цветового пространства камеры в sRGB.
Классический пайплайн обработки изображения выглядит следующим образом:
Подробнее про каждый шаг можно прочесть в подробной обзорной статье.
Чтобы не пугать неподготовленного читателя, мы скроем далее все технические детали пайплайнов и покажем наглядные результаты. Подробности можно найти в статье.
1 место: Команда IVLTeam/University of Milano - Bicocca
Предлагаемый IVLTeam подход к обработке изображений состоит из пяти классических этапов и не содержит методов глубокого обучения.
Предлагаем вам посмотреть на примеры обработки изображений этим алгоритмом:
Hidden text
На первом этапе проводится нормализация изображения, дебайеринг, автоматический баланс белого (AWB) по алгоритму GrayWorld и преобразование из цветового пространства камеры в sRGB.
Второй этап включает в себя шумоподавление с применением алгоритма нелокальных средних. Интенсивность подавления шума зависит от его стандартного отклонения, оцененного по методике Donoho. Для эффективного удаления цветового шума при сохранении деталей и краев изображения к цветовым каналам применяется более сильное шумоподавление, чем к каналу яркости.
Третий этап включает ряд алгоритмов увеличения контрастности. Сначала применяется локальная контрастная коррекция (LCC). Так как это преобразование имеет тенденцию к снижению общего контраста и насыщенности, следующим шагом компенсируется это снижение. Завершается этап тремя шагами, направленными на улучшение внешнего вида изображения. Первый шаг повышает контрастность, растягивая значения пикселей на заданный коэффициент относительно их среднего значения. Второй — это применение S-кривой, где центр кривой установлен в нуле. Третьим шагом растягивается гистограмма яркости, увеличивая динамический диапазон и улучшая общую контрастность. В зависимости от среднего значения гистограммы может применяться дополнительная операция коррекции контраста, состоящая из дополнительной S-кривой или гамма-коррекции, для улучшения видимости очень темных изображений и восстановления засвеченных ночных сцен.
Четвертый и пятый этапы – это увеличение резкости изображения и новый баланс белого.
Так как в процессе шумоподавления края объектов изображения могли сгладиться, применяется нерезкое маскирования для повышения резкости деталей. Второе применение баланса белого, на основе алгоритма индекса серости, служит для исправления ошибок цветовой коррекции в определенных сценариях, где подход Gray World мог не сработать.
2 место: Команда DH_ImageAlgo/Zhejiang Dahua Technology
Алгоритм DH_ImageAlgo создан с целью объединить преимущества классических методов и методов глубокого обучения для улучшения ночных изображений. Он состоит из двух ключевых модулей: raw2rgb и объединения экспозиции. Модуль raw2rgb применяет глубокую CNN для проекции необработанного изображения в RGB, а модуль объединения экспозиции принимает на вход изображения разной яркости: недоэкспонированное, нормально экспонированное и переэкспонированное изображение и объединяет их в одно, обеспечивая более контрастный результат.
Предлагаем вам посмотреть на примеры обработки изображений соревнования этим алгоритмом:
Hidden text
Известно, что изображение, снятое ночью, значительно менее яркое. Чтобы получить более детальное изображение, для камеры обычно используется более высокий коэффициент усиления (gain), но при увеличении коэффициента усиления шум становится заметнее. Чтобы решить эту проблему, команда использовала модификацию end-to-end модели U-Net++. По сравнению с классической U-Net, U-Net++ способна лучше агрегировать пространства признаков больших размерностей для восстановления более робастных результатов. Для поощрения создания более реалистичного изображения используется L1 и VGG функции потерь. Затем производится коррекция усиления входных данных для получения изображений с различной степенью экспозиции: недоэкспонированные, нормально экспонированные и переэкспонированные изображения соответственно.
Модуль объединения экспозиции, основанный на классических методах, обеспечивает эффективное слияние изображений с разной экспозицией. Веса при слиянии вычисляется с учетом контраста, насыщенности и яркости каждого изображения. Для этого генерируются Лапласовы пирамиды для изображений с различной экспозицией и декомпозируются соответствующие карты весов. Затем, на каждом уровне масштаба, соответствующие компоненты сливаются для получения контрастного результата.
3 место: MiAlgo/Xiaomi
Решение Xiaomi отличается от остальных тем, что команда решила создать по предложенным изображениям ground truth с помощью профессионального фотографа. Далее модель, основанная на нейронных сетях, обучалась предсказывать обработанные фотографом изображения.
Предлагаем вам посмотреть на примеры обработки изображений соревнования этим алгоритмом:
Hidden text
Решение, представленное командой MiAlgo, основывается на модифицированном подходе Deep-FlexISP. Модификация заключается в разделении модуля преобразования из байеровской мозаики в sRGB на несколько модулей следующим образом.
Изначально входное изображение проходит через модуль шумоподавления в байеровском домене, в основе которого лежит облегченный U-Net. Последующий этап включает использование сети FC4 для предсказания параметров баланса белого и коррекции по ним байеровского изображения. Далее производится дебайеринг изображения с помощью встроенных функций библиотеки OpenCV. Учитывая, что баланс белого применяется в байеровском домене на втором этапе, параметры баланса белого прогнозируются и корректируются с использованием метода Greyscale в домене RGB. Затем осуществляется преобразование из RGB в sRGB.
На следующем этапе выполняется тональное отображение изображения в пространстве sRGB с применением фиксированной кривой и гамма-коррекции. Для дополнительного улучшения яркости, контрастности и насыщенности изображения применяется MWISPNet. Обучение MWISPNet проводится на основе данных, полученных в результате ручной постобработки изображений в Photoshop. Однако, в ходе соревнований команда столкнулась с трудностями в обучении на изображениях высокого разрешения из-за ограничений памяти графического процессора. Для решения этой проблемы было принято решение сжимать разрешение изображения перед улучшением и восстанавливаем его с помощью Hybrid Attention Transformer в процессе формирования итогового изображения в пространстве sRGB.
Примеры обработки изображений командами-победителями
В решении IVLTeam баланс белого лучше, цвета получаются наиболее естественными. У второго места, DH_ImageAlgo, изображения более бледные, зато шумоподавление в разы лучше. Решение третьей команды, MiAlgo, самое красочное, цвета теплые и насыщенные. В целом, эти особенности соответствуют различным предпочтениям людей: нет единого ответа на выбор между более холодными цветами и более теплыми.
Недостатки пайплайнов обработки изображений участников
Профессиональный фотограф, оценивавший решения участников, выделил следующие частые проблемы:
Артефакты, в частности шум в больших однородно окрашенных областях, а также цветные ореолы вокруг источника света.
Ошибки цветовой коррекции освещенных участков сцены. Ошибка особенно заметна на объектах, которые наш мозг ассоциирует с каким-то определенным цветом, таких как:
a. Дороги, тротуары. Предполагается, что это нейтральный серый цвет.
b. Снег. Предполагается, что это нейтральный белый цвет со светло-серыми тенями.
c. Облака, пар, дым. Предполагается, что это нейтральный серый цвет.
d. Чистое небо. Предположительно темно-синий, с углом оттенка HSB около 216◦
Перенасыщенный цвет небольшой яркой области.
Слишком низкая/слишком высокая яркость изображения
Слишком бледные/неверно восстановленные цвета изображения.
Неразборчивый текст постеров и вывесок
Плохое подавление бликов вокруг источников освещения
Что мы поняли и что дальше?
Задача обработки ночных изображений остро стоит перед производителями смартфонов. Качество съемки в дневных условиях у крупнейших компаний уже не вызывает особенных замечаний, а ночные фотографии все еще являются вызовом. Наш челлендж продемонстрировал широкое разнообразие возможных подходов к решению этой задачи, а метод для оценки эстетики может использоваться и для оценки алгоритмов производителями смартфонов.
Что удивительно, в соревновании реально нет единственного правильного ответа, нет ground truth изображений для тренировочного датасета, и даже нет метрик, показывающих эстетичность изображения. Командам приходилось создавать алгоритмы, опираясь на свое чувство прекрасного или же на отредактированные их фотографом изображения, и только дважды на промежуточных этапах мы могли показать им направление для улучшения по версии фотографа и отранжировать несколько их решений по мнению среднего пользователя. Удивительным является сам факт того, что возможно достаточно стабильно оценить эстетические предпочтения для среднего пользователя!
Куда это двигать дальше? Практически все представленные на соревновании решения (исключая команду IVLTeam, которая не использовала нейросети) не могут в текущем виде быть использованы в real-time обработке изображения. Разумеется, они все-таки быстрее ручной обработки изображения фотографом (~5 секунд против 3-5 минут у фотографа на изображение), но в пайплайн смартфона внедрить алгоритмы в текущем виде не получилось бы. Чтобы приблизить наше соревнование к реальности, в этом году мы собираемся учитывать в финальном счете команд время работы алгоритма. Также в этом году мы предоставляем участника датасет, собранный не на профессиональную камеру, а на камеру смартфона на радость всем любителям мобильных технологий.
Надеемся, что наш рассказ пробудил интерес к теме обработки ночных изображений. Присоединяйтесь к нам на соревновании “Night Photography Rendering Challenge” этого года! Вся информация уже опубликована на сайте.
Благодарности
Хотелось бы сердечно поблагодарить: в первую очередь своих коллег Алину Шутову, Георгия Перевозчикова, Егора Ершова, Марию Ефимову, Ивана Ермакова, Арсения Терехина, Николу Банича, Майкла Фримана, Ричарда Колинза, Олега Карасева, Артема Паншина, Екатерину Зайченкову, Александра Старцева, Даниила Владимирова, Льва Шепелева и Дмитрия Ярчука за проведение соревнования, ИППИ РАН за поддержку развития данной темы, и, наконец, огромное спасибо Дмитрию Ватолину, Артему Никонорову, Всеволоду Плохотнюку и Сергею Корчагину за большое количество дельных замечаний и правок, сделавших этот текст намного лучше!