Исследователи ИИ обнаружили предел распикселизации лиц на фото. Дальше алгоритм «придумывает» лицо

    imageФото: Duke University

    Исследователи показали работу новой системы на ИИ, которая генерирует изображение «с повышением частоты дискретизации» в 64 раза по сравнению с оригиналом с низким разрешением. В разработке использовали алгоритм исследования скрытого пространства. Система показала, что воспроизведенное изображение может кардинально отличаться от оригинала.

    Синтия Рудин, профессор компьютерных наук в Университете Дьюка в Дареме, Северная Каролина, прокомментировала разработку: «Мы доказали, что вы не можете распознать лица по размытым изображениям, потому что здесь слишком много возможностей. Таким образом, масштабирование и улучшение, превышающие определенный пороговый уровень, не могут существовать».


    Модуль Python PULSE, который разработала команда, тем не менее, может применяться если не в целях распознавания лиц, то в астрономии, медицине или в художественной сфере. В целом, отмечают исследователи, PULSE дает более широкое понимание исходного изображения. Оно не воспроизводит лицо с исходника, но «придумывает» множество похожих.

    Рудин привела в пример размытый снимок черной дыры. В сочетании с инструментом визуализации на ИИ, которые генерируют астрономические изображения, PULSE может воспроизводить возможные астрофизические сценарии, которые могли бы привести к получению этой фотографии с низким разрешением.

    При традиционном методе распознавания изображение с низким разрешением загружают в систему, а та «угадывают», какие дополнительные пиксели необходимо добавить, чтобы они, в среднем, соответствующим пикселям в изображении с высоким разрешением, на которых обучали алгоритм. В результате этого усреднения текстурированные участки волос и кожи выглядят нечеткими.

    image

    В случае с PULSE, вместо того, чтобы считывать изображение с низким разрешением и медленно добавлять в него новые детали, система просматривает сгенерированные ИИ примеры лиц с высоким разрешением, ища те, которые максимально похожи на входной снимок при уменьшении до того же размера.

    На данный момент PULSE оптимизирован именно для работы с портретами, потому что функционирует на алгоритме NVIDIA StyleGAN, который создает фотореалистичные лица.

    По мнению Рудин, PULSE можно задействовать также в областях архитектуры и дизайна, если оптимизировать для этого StyleGAN.

    «Каждый раз, когда у вас появляется подобный тип генеративного моделирования, вы можете использовать PULSE для организации поиска в этом пространстве», — заключила исследователь.

    Код модели выложили на GitHub.

    В 2019 году ученые Массачусетского технологического института разработали метод, позволяющий восстанавливать скрытое на видео, используя тени и отражения. Алгоритм анализирует взаимодействие теней и геометрии на видео и делает прогноз «переноса света». Так, если в комнате установлена видеокамера, он поможет реконструировать видеоизображение невидимого угла помещения.
    См. также:

    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 18

      0
      В общем тот же самый принцип как когда нужно получить номер банковской карты на запикселизованном изображении — генерируются все возможные комбинации, пикселизуются и результат сравнивается с пиксельным оригиналом.
        +1
        С картами проще. Номер карты валидируется простой математикой, там есть цифра с контрольной суммой. Т.е. можно отбрасывать заведомо неверные варианты.
          0

          А зачем вообще делают пикселизацию на документах, номерах телефона, банковских картах. Почему нельзя закрасить черным прямоугольником?

        +15
        А до этого ИИ не придумывал что-ли?
        Нельзя получить что-то из ничего. Это так не работает. Нейросеть не может восстановить убитое фото, оно всегда будет его дорисовывать на основе своей БД, по другому быть просто не может, т.к. исходные данные отсутствуют.

        Человек точно так же если будет восстанавливать фото — просто додумывает на основе своего опыта. Не всегда правильно, кстати.
          +1
          Ну разумеется додумывает, но до какого-то уровня это додумывание получается близким к оригиналу. Это как интерполяция дискретизированного сигнала — если сигнал достаточно плавный, а дискретизация высокая — можно получить довольно точный результат. Теорема Котельникова как раз задаёт такой порог.
            0

            Для фотографических изображений теорема Котельникова плохо применима, потому что объекты реального мира не имеют ограничений по частотам.

              +1
              А разве не на органичении частот JPEG работает?
                0

                А причём тут JPEG? Частоты уже потеряны при дискретизации.


                К тому же, JPEG работает не на ограничении частот, а на переходе в другой базис и на квантовании коэффициентов — по факту зануляются коэффициенты, имеющие низкие веса. Причём это могут и низкие, и высокие частоты (но чаще — высокие).

                  0
                  Так там тоже, на некоторых частотах снижается точность квантования при сжатии, а при разжатии идет интерполяция, как может.
                    0

                    А это уже связано с особенностями человеческого восприятия, что высокие частоты он воспринимает хуже. Интерполяция, кстати, не делается — расжимается как есть, с искажёнными коэффициентами.

          0
          Цензура в хентае под угрозой!
          +5

          Не увидел главного — лица Doomguy пропущенного через этот алгоритм!


          Пример работы другого алгоритма:


          Заголовок спойлера
          0

          Типа это было не понятно?

          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

          Самое читаемое