Когда я слышу слова «нейросеть восстановила», я лезу проверять бэкапы / Хабр

Кроме того что я айтишник, я ещё и историк техники, и именно этим обусловлена моя реакция на новости об очередных достижениях в области цифровых технологий. Месяц назад я принял решение начать писать книжку для людей далёких от IT и близких к историческим исследованиям и источникам («Цифровое источниковедение — специфические проблемы» — пишется на сайтах книжных черновиков ), в которой расскажу им о том, чем для них обернулось развитие цифровых технологий.

Через пару дней после этого по интернету пронеслась новость « «Прибытие поезда» улучшили с помощью нейросетей — фильм 1896 года теперь можно посмотреть в 4K и 60 кадрах в секунду », и это хороший повод рассказать айтишникам о том же самом.

Исходного фильма «Прибытие поезда» у меня нет, поэтому в качестве тестовых образцов я использовал современные фотографии (уменьшенные или обесцвеченные) + фото из 1930-х (предположительно)

Когда я слышу слова «нейросеть восстановила», я лезу проверять бэкапы

0. В чём проблема?

Проблема, о которой пойдёт речь, возникает из-за того, как именно работают реальные историки и нейросети.

В представлении обывателя, идеальный историк сидит исключительно в архивах и работает с официальными и хорошо сохранившимися документами. В реальности же, историки работают с теми источниками которые у них есть и в том виде в котором они к ним попали.

В реальности, кроме официальных документов в государственных архивах, в качестве источников могут выступать личные фотографии, письма, воспоминания и т. п. К сожалению, очень часто историки работают не с исходными документами, а с различными копиями.

Вы когда-нибудь слышали фразу о том, что различные иконы и тексты «дошли до нас в списках»? В данном случае, слово «список» означает не каталог в котором упомянуто какое-то произведение, а копию этого самого произведения. Происходит этот термин от слова «списать».

Многие из текстов, фотографий и фильмов дошли до нас именно в виде копий, и нет никакой гарантии, что единственной копией фильма «Семнадцать мгновений весны» дошедшей до историков будущего не окажется именно раскрашенная и кадрированная версия. Ибо пути исторического источника неисповедимы.

С другой стороны, существует множество новостей о том, что нейросеть что-то восстановила или улучшила. Это звучит как некая магия и у многих создаётся ощущение, что некий искусственный интеллект действительно может что-то восстановить.

На самом деле, ни о каком восстановлении цвета или деталей на маленьких картинках речи не идёт и идти не может. Программа просто добавляет в фото или видео элементы, которые её алгоритмы определяют как подходящие.

К сожалению, в реальности невозможно восстановить утраченное изображение, потому что операция обесцвечивания необратима, а если на какой-то фотографии нет части изображения, то его нельзя восстановить лишь на основании этой же фотографии.

Поэтому нейросети делают ровно то же самое, что делают в таких случаях люди — фантазируют на основании имеющегося у них опыта.

И сейчас я покажу, то что получается в результате этих фантазий.

1. Сравнение разных сервисов колоризации

Хотя раскрашивание фотографий и фильмов не является совсем уж новым явлением, сейчас оно доступно всем, у кого есть доступ в интернет, и многие люди пользуются новой возможностью.

Мы уже живём в мире, где существует много раскрашенных фотографий солдат Великой отечественной войны, интерьеров «Титаника», царской семьи и многих других.

Непосвящённому человеку может показаться, что речь идёт именно о восстановлении исходного цвета, и что колоризованная фотография показывает нам то, как на самом деле выглядели люди и предметы столетней давности. Кто-нибудь на основании этих фотографий может начать делать выводы о жизни людей в прошлом, анализировать различные события и ситуации.
И хотя я понимаю невозможность восстановления реального цвета с чёрно-белой фотографии, как исследователь я обязан проверить и убедиться в собственной правоте.

Для проверки этой идеи я взял две современные цветные фотографии, обесцветил их в графическом редакторе и прогнал через онлайн-сервисы колоризации.

1.1 Колоризация автомобиля Ford A Phaeton

В данном случае была использована фотография, сделанная мной в конце января 2020 года в московском аэропорту «Домодедово». Я не знаю, насколько раскраска этих автомобилей соответствует их первоначальному цвету, но это не важно. В данном эксперименте мы проверяем то, насколько точно будет восстановлен цвет обесцвеченной фотографии.

Колоризация автомобиля Ford A Phaeton

Я провёл этот опыт на фотографиях разных автомобилей и результат неизменен: все сервисы раскрашивают реальные автомобили по-разному, но правильно не раскрашивает никто.

При этом лично мне больше нравится не оригинальный вариант, а результат раскрашивания от deepai.org – спокойный цвет кузова с синими боковинами крыши. (А вот в этом варианте исходный цвет показан в полосках под номерами 2 и 7, но мне больше нравится полоска 5, раскрашенная algorithmia.com, где часть раскрашена жёлтым, а часть — красным).

Проблема с раскрашиванием автомобилей объясняется очень просто — данными, заложенными в каждую нейросеть. И точно так же, как при ручном раскрашивании, автоматическое раскрашивание говорит именно о том, на основании какого опыта производилось раскрашивание.

То есть, ни о каком восстановлении исходного цвета речи не идёт и идти не может.

Конечно же, найдутся люди которые скажут, что в нейросеть надо загрузить ещё больше фотографий и тогда всё будет хорошо, но это противоречит самому принципу работы нейросетей — они просто усредняют загруженные в них данные и не способны выйти за рамки полученного таким образом «опыта».

1.2 Колоризация фонтана на ВДНХ

Следующий эксперимент был поставлен с фотографией, на которой показана архитектура и много людей в цветной одежде. Исходная фотография была кадрирована, обесцвечена и загружена в сервисы для колоризации.

Колоризация фонтана на ВДНХ

Из-за большого количества раскрашиваемых объектов результат не столь однозначный, как было в случае с раскрашиванием Ford A Phaeton.

Да, ни один из сервисов не раскрасил статуи в золотистый цвет, красные тюльпаны в нижней части снимка, и ярко зелёную и ярко синюю футболки. Однако все сервисы блестяще справились с раскрашиванием белой футболки мужчины сидящего на парапете фонтана и белой блузки женщины идущей справа налево с сумочкой на боку.

Таким образом, мы снова имеем вполне предсказуемый результат — сервисы колоризации не способны восстановить реальный цвет.

Но польза этого примера не в том, чтобы ещё раз повторить очевидный факт. Конечно, повторять очевидные факты — это нужно и очень правильно, но есть ещё один момент.

Бонус от 9may.mail.ru

Кроме раскрашивания, сервис 9may.mail.ru проводит операцию «устранение дефектов». Если сравнить просто раскрашенную фотографию и раскрашенную фотографию, с которой были удалены дефекты, то обнаружится очень интересная особенность.

Бонус от 9may.mail.ru

На данной иллюстрации показан увеличенный фрагмент правого края фотографии с фонтаном. Как хорошо видно, при «устранении дефектов», был удалён скульптурный элемент (я не возьму на себя смелость сказать его название :) )

Подобные же «устранения дефектов» были замечены и на других фотографиях, колоризованных сервисом 9may.mail.ru, но там это были не настолько большие удаления.

Таким образом, исторический источник был не только неправильно раскрашен, а ещё и имеет «потёртости», уничтожившие часть изображения (что снова возвращает нас к вопросу о «Цифровом износе» )

Этот пример позволяет плавно перейти к следующей части рассказа о влиянии «улучшения» фотографий нейросетями на исторические источники.

2. Увеличение размера фотографии

Так же как и раскрашивание, увеличение фотографий существовало и в доцифровую эпоху.

Результат для обоих случаев один, мы начинаем видеть минимальный элемент фотографии. В аналоговой фотографии это было «зерно», сейчас его место занял «пиксель», но суть у них одна — это минимальный неделимый элемент (очень хочется сказать «атомарный», но несмотря на своё название — атом не неделим :) )

Если мы смотрим на шахматную доску в увеличивающий оптический прибор (телескоп, бинокль и т. п.), то мы можем «приблизить» её и разглядеть детали, которые раньше были не видны.

Но если мы сфотографировали шахматную доску, так, что она уместилась в одно зерно/пиксель, то не существует возможности «приблизить» и разглядеть каждую клетку в отдельности. При увеличении такого снимка мы будем видеть большое одноцветное пятно там, где должна быть шахматная доска.

Ровно та же ситуация будет, если мы изменим пиксельный размер цифровой фотографии шахматной доски — информация о клетках на доске будет потеряна, и не существует никакой возможности восстановить её лишь на основании этой же фотографии.

Вообще, я испытываю неловкость, говоря эту банальную идею, но, как показывает практика, мысль о необратимости уменьшения цифровой фотографии очевидна не для всех.

Периодически появляются новости о том, что какая-то нейросеть увеличила и улучшила старую фотографию, так что теперь мы можем увидеть детали, которые раньше видеть не могли.

Так же как в случае с раскрашиванием, я попытался применить онлайн-сервисы к реальным фотографиям.

2.1 Неизвестная мельница из 1930-х

Однажды, в субботу вечером, коллега прислал мне ссылку на фотографию на странице Пермского Госархива в Вконтакте. 1024 на 705 пикселей несколько раз прошедших JPEG-сжатие, с плохо читаемой надписью.

Неизвестная мельница из 1930-х

Мы отлично провели время, разгадали эту загадку и в понедельник он подтвердил наши выводы сходив в архив и изучив оригинал фотографии.

Это позволило мне провести эксперимент и посмотреть на что способны нейросети

Неизвестная мельница из 1930-х - сравнение

Неизвестная мельница из 1930-х - сравнение

В результате, самым читаемым оказался вариант «простое увеличение» (вообще, я прочитал эту надпись просто увеличив её на экране смартфона).

biz.mail.ru сделал надпись нечитаемой при большом масштабировании, но строчка «Acme Road Mach Co» остаётся частично читаемой при определённом масштабе.

Остальные претенденты зашумили картинку настолько, что надпись перестала читаться вообще. Хотя и осталась частично узнаваемой.

То есть сервисы для «улучшения фотографий» сделали прямо противоположное — ухудшили реальную фотографию.

И если вы скажете, что улучшение надписей на старых фотографиях не является задачей для таких сервисов, то я соглашусь, ибо именно в этом и состоит проблема. Дело в том, что эти сервисы есть, они позиционируются как сервисы для «реставрации» и «восстановления», не объясняя пользователям риски и последствия, связанные с используемой технологией. Люди, изучающие историю своей семьи или своего населённого пункта, могут подвергать «улучшению» имеющиеся у них цифровые фотографии.

И у меня есть большие сомнения в том, что все они будут заботливо хранить исходную неулучшенную фотографию.

У меня есть ещё один пример, связанный с пермским архивом и атрибутированием фотографий, но он будет в следующем обновлении «Цифрового источниковедения», а сейчас я предпочту вернуться к машинам, сфотографированным мной в «Домодедово».

2.2 Капот Lorraine-Dietrich B36

Для проверки возможностей по увеличению фотографий, я взял одну из своих фотографий, уменьшил пиксельный размер с 4000 на 3000 до 1024 на 768, и прогнал через те же сервисы что и в случае с фотографией мельницы из предыдущего примера.

Lorraine-Dietrich B36

И если обычный зритель таких «улучшенных» картинок не особо в них вглядывается, то меня интересовали мелкие детали.

Капот Lorraine-Dietrich B36

Результат оказался предсказуем.

Логотип на решётке радиатора узнаваем, но искажён — линии стали ровными.

Боковые отверстия для вентиляции разгладились и не отличимы от бликов на капоте.

Вполне ожидаемо пропали многие мелкие детали, но этот пример здесь совсем не для того, чтобы в очередной раз подтвердить идею о необратимости потери информации с цифровой фотографии при уменьшении её пиксельного размера.

Если вы внимательно смотрели на фотографии, то уже увидели признаки того, что тут поработала нейросеть.

Бонус от letsenhance.io

Тут самое время напомнить о том, как работают нейросети — подбирает подходящие варианты из собственного «опыта», полученного в результате обучения.

И сейчас я покажу, как именно letsenhance.io увеличил в 4 раза фотографию, которую я предварительно уменьшил в 4 раза.

Слева вы видите исходную фотографию до уменьшения, справа — полученную после увеличения. (Промежуточная уменьшенная фотография не показана)

Бонус от letsenhance.io

Да, всё верно — это морда обезьяны.

И если вы видите в этом забавный случай, проблему обучения нейросети или её нецелевого использования, то я вижу совсем иное. А именно, огромное множество цифровых фотографий, которые были и будут «улучшены» нейросетью и попадут в оборот. Часть из них заменит собой оригиналы в силу их утраты.

И если до начала написания этой статьи я просто осознавал проблемы, связанные с модой на улучшение/восстановление изображений с помощью нейросетей, то теперь эта проблема обрела своё конкретное лицо.

Но и это ещё не конец истории.

3. Увеличение числа кадров в видео

Для того, чтобы получить кино, мало иметь одну большую и красочную картинку. Таких картинок должно быть много и они должны очень быстро сменять друг друга.

Одним из направлений по улучшению фильмов является повышение скорости, с которой эти картинки сменяют друг друга. Или, как это правильно называть, «увеличение частоты кадров».

И в этом случае, так же, нет ничего нового. Точно так же как в случае с обесцвечиванием и уменьшением пиксельного размера, не существует никакой возможности получить информацию о том, что было между кадрами.

Можно предположить, как двигался предмет в кадре и дорисовать его на вновь добавленных кадрах, но, как и в случае с колоризацией и увеличением, это будет именно дорисовывание новых деталей, а не восстановление того что было на самом деле.

Лучше всего это иллюстрирует кадр из демонстрационного ролика нейросети DAIN. (Судя по описанию к упомянутому ранее ролику «Прибытие поезда», именно эта нейросеть была использована его авторами для увеличения частоты кадров)

Увеличение числа кадров в видео

Тут приведено сравнение 3 вариантов повышения частоты кадров с 12 fps до 24 fps.

Верхний левый кадр — исходное видео.
Нижний правый — результат работы DAIN
Оставшиеся два — решения с которыми себя сравнивают создатели DAIN

Как видно, во всех трёх вариантах повышения частоты кадров, речь идёт попытке найти среднее состояние между двумя кадрами. Не смотря на то, что вариант DAIN (нижний правый кадр) выглядит более чётким, чем варианты SepConv и ToFlow, в нём всё равно видно как размазалась майка на спине и голова.

И даже когда технологии продвинутся вперёд и таких размазываний не станет, это не изменит ситуации с тем, что восстановить происходившее между кадрами невозможно, и всё что нам остаётся — дорисовывать некое усреднённое состояние.

Вывод

Как айтишник, я понимаю, что данные технологии не предназначены для корректного сохранения цифровых источников. Нейросети нужны для того, чтобы произвести красивый и легко проскальзываемый контент.

Поэтому, фильмы раскрашиваются, кадрируются и им повышают частоту кадров.

Это просто шоу-бизнес, и авторов технологии не должно заботить то как пользователи используют их разработку.

Но, как историк, я вижу результаты использования этих технологий. Рост числа «улучшенных нейросетями» фотографий и фильмов приведёт к попаданию их в материалы используемые как исторические источники в различных исследованиях. Сопутствующие явления будут приводить к вымыванию старых вариантов файлов и превращению «улучшенных» копий в единственно доступные (привет, «Цифровой износ»).

Остановить этот процесс нельзя, но можно вырабатывать подходы позволяющие минимизировать ущерб. Собственно, этому и посвящена книга про цифровое источниковедение, и направлена она именно на моих коллег по историческому цеху, а не на специалистов IT-отрасли.

Хотя, есть способ доступный всем людям, независимо от профессии — перестать называть процесс создания легкоусвояемого медийного контента словами «восстановление» и «реставрация», чтобы не создавать у непосвящённых ложного впечатления о сути этого процесса и получаемого в результате продукта.

Для этого есть другое слово:

Ретуширование или ретушь фотографических позитивов и негативов — имеет целью уничтожение некоторых их недостатков, в особенности пятен и резких теней на портретах и различных царапин и точек, происшедших от пыли и других случайностей фотографических процессов. В руках фотографов-промышленников, в особенности при снимании портретов, Р. обратилась в средство угождать различным мелочным требованиям публики (например, для уничтожения морщин лица); но кроме того, Р. имеет в своей основе и вполне, так сказать, законные требования глаза и впечатления. Дело в том, что наиболее распространенные на практике способы фотографирования на обыкновенных (не ортохроматических) пластинках передают снимаемый предмет с распределением ярких и темных его оттенков, значительно отличным от того, которое представляется глазу. В то время как глаз наиболее чувствителен к желтым, красновато-желтым и желто-зеленым лучам — фотографический слой обыкновенной негативной пластинки к ним почти нечувствителен, наиболее сильно изменяясь под влиянием синих и фиолетовых лучей (см. Ортохроматическая фотография). Вследствие этого почти незаметные для глаза и сливающиеся с общим световым фоном лица небольшие желтоватые пятнышки выходят на фотографии почти черными, а синеватые отливы кожи, часто оттеняющие лицевые очертания, совершенно пропадают, передаваясь на снимки гораздо более светлыми. Если бы Р. ограничивалась исправлением только этой дисгармонии, то роль ее следовало бы признать весьма желательной и полезной.

(выделение болдом — моё).

Энциклопедический словарь Брокгауза и Ефрона: Том XXVIА, стр. 624

Опубликовано в ТЫСЯЧА ВОСЕМЬСОТ ДЕВЯНОСТО ДЕВЯТОМ году.

Как видим, эта проблема известна не первое тысячелетие и была актуальна уже во времена появления оригинального фильма «Прибытие поезда».