Pull to refresh

Comments 72

А еще год назад где-то на хабре утверждали что такое как в фильмах - математически невозможно.

Оно все ещё невозможно. Нельзя из картинки низкого разрешения извлечь информацию, которой там нет. Но можно додумать свою.

Но ведь нейросеть именно это и делает. Ну подумаешь не существующий номер на zoom-in будет ...

Она не извлекает информацию, а дорисовывает её, делая изображение визуально правдоподобным.

Если знать язык и шрифт, то да - можно восстановить. Количество символов и цифр очень небольшое.

Но рисунок состоящий из произвольных пикселей, это совсем другое дело.

Выше был коммент про "не существующий номер на zoom-in будет", я отвечал на него. А на что отвечали вы?

Хм.

Я не воспринял работу с упорядоченным набором пикселей как ответ на картинку на которой этого набора нет.

Номер ведь реально НЕСУЩЕСТУВУЮЩИЙ, а не УМЕНЬШЕННЫЙ.

Ну так в номере известен шрифт, язык и подмножество возможных символов. Вся ветка о том, что компьютеры учаться восстанавливать реальный текст из пары символов и номер автомобиля - идеально подходит под ограничения.

Метод восстановления букв и цифр является реальным методом ВОССТАНОВЛЕНИЯ, и как всякий реальный метод, он имеет множество ограничений и может быть использован далеко не везде.

Хотя, возможно я не прав и данный метод может быть использован при любом уменьшении.

Попробуйте восстановить вот это

Исходный текст был вот таким

Цифры и текст в любом положении? (фото в полутьме номеров, расположенных под уголом?)

я бы уточнил, что не просто додумать, а додумать наиболее вероятную

"В прошлом году вы совершили преступление. Было совершено еще одно. Наиболее вероятно это вы. 10 лет колонии. Следующий!"

Суд не совсем так работает. Есть прямые и косвенные улики. И улик должно достаточное количество.

Не совсем так. Смотря на картинки мне кажется что это не низкое разрешение, а размазанное из-за плохого фокуса изображение.

А размазанное изображение теоретически возможно сделать сколь угодно четким(правда для этого в идеальном случае нужно отсутствие шума в том числе шума квантования, и бесконечный размер)

Далеко не каждую свёртку можно обратить — из-за наличия нулей в спектре. Гауссиану — в идеале можно. Motion blur — уже нет.

Вы разумеется правы. Мне казалось, что в расфокусированной фотографии как раз гаусс. Но настаивать не буду, я этим интересовался лет 30 назад, сейчас уже все забыл. Тогда появились более - менее мощные компы и мне казалось что за две три недели рассчетов можно восстановить черно-белую фотографию

Мне казалось, что в расфокусированной фотографии как раз гаусс.

Как раз таки нет. В расфокусированной фотографии ядро размытия — не Гаусс, а что-то близкое к круговому размытию с резкими краями.

Та ситуация, когда догадался, что под спойлером, не заглядывая в него.

UFO just landed and posted this here

А куда делся белый воротничок рубашки? Не верится что сетка могла вот так взять и сильно выделяющийся фрагмент картинки выкинуть :)

Насчёт воротничка не знаю, но глаза она лео/гепарду очень сильно исказила.

*Режим пяти копеек*: Есть простой способ. У гепарда крапинки только сплошные, круглые, по минимуму на голове. У леопарда они неровные и образуют кластеры, как бы колечки вокруг желтого, которые при уменьшении диаметра на брюхе и голове сливаются в просто черные точки.

А если учесть что двух одинаковых шкур не существует...

UFO just landed and posted this here

"Макса Мустермана" из Франкфурта ... Как-то так ...

На эту модель и гугл можно теперь в суд подавать...

А где можно попробовать или посмотреть реализацию?

Topaz Gigapixel пытается по принципу нейросети улучшить качество картинки. обещают в 6 раз. Не так революционно как в статье но для ознакомления наверное пойдет

По своему опыту могу сказать, что алгоритмы Topaz почему-то как раз с лицами работают очень неважно, хоть там есть даже настройка их детектить, а с формой глаз так между сносно и отвратительно, закрытые же глаза может вообще превращать в жуткие отверстия. Возможно с HD изображения дела обстоят получше, с разрешением пониже и 4x увеличение требует правок руками

ИИ бровь

Какой-то расистский алгоритм, судя по всему - на европеоидах обучался ;)

Вот у нег... афроамериканцев сейчас пригорит то! И тут дискриминация. ))

Довольно любопытно. Как бы наш мозг дорисовал человека, если бы не знал что это Барак Обама и если вообще этого человека не существовало бы.

Это и представляешь когда говорят не про "похожесть на оригинал", а "похожесть на фотографию сделанную фотоаппаратом"

Не повышает она разрешение, неправда это. Гугл и то честнее -- называет это "генерирование изображений...". Но по сути это угадывание.

Или узнавание. Для известных лиц сможет практически реальные лица восстанавливать, для малоизвестных, если будет способна дообучаться, сможет на базе ваших же хороших фото дорисовывать ваши же селфи из крайне неудачных условий съемки в темноте и расфокусе.

Раз уж зашли, то вот. Чтоб не зря всё это было

Ничего, для видеопродукции японской индустрии сойдет. Плюс-минус все одинаковое, что они там заблюрили.

Видел несколько проектов для этого самого. Правда для рисованного. Есть и такие, что и раскрашивали. Вот только не помню, как оно называлось, а гуглить такое с работы не хочется.

Честно говоря, потенциал технологии немного пугает. В том смысле, что вместо совершенствования сенсоров и оптики, все ринулись в технологию дорисовывания того, чего нет.

все ринулись в технологию дорисовывания того, чего нет.

Дорисовать — это еще полбеды. Беда придет, когда начнут такими «улучшенными» фото размахивать где нибудь в суде.

Беда придет, когда начнут такими «улучшенными» фото размахивать где нибудь в суде.

«улучшенными» будут махать в «суде». А в Суде на каждое фото\видео приводится экспертное заключение что фото не подвергалось редактированию.

Только вот в Судах зачастую приводится "экспертное заключение", так что ваш Суд "суда" сильно отличается.

А а суды сейчас модно "ии" привлекать, вот он и будет выносить заключение.

В судах некоторых стран антинаучный «детектор лжи» принимают; выводы AI-системы определения выстрелов по звукам ShotSpotter до недавнего времени моги быть основным доказательством в суде, пока не оказалось, что операторы кол-центра ShotSpotter по просьбе «органов» вписывают в базу нужные выводы о типе звука и правят геолокацию, а сама AI-система никакой научно-обоснованной проверки не проходила.

Оптика давно уже вся на физических пределах работает. Только платите.

Такая оптика на самом деле дорого стоит. Её сложно изготавливать.

С другой стороны, КПД сенсоров всё ещё очень далёк от идеала. Дикие шумы, токи утечек, в итоге КПД составляет порядка 1%.


А что касается оптики: всё упирается в светосилу. Чем больше размер линзы, тем больше света она может собрать и тем выше качество снимка. Проблема исключительно в габаритах: большую линзу в смартфон не засунуть.

Бедные орлы и соколы.... Как они там со своими глазками размером чуть больше объектива смартфона мышей видят с птичьего полета..

Очень просто:


  1. Выше чувствительность.
  2. Больше плотность пикселей.
  3. Глаз у орлов таки большой, в разы больше, чем булавочное горлышко смартфонов.

Почему пугает? это очень прикольные базовые элементы "очень сжатой памяти". Т.е. храним в памяти картинку в 16х меньше оригинала, при необходимости восстанавливаем в нужном разрешении, ну подумаешь с оригиналом уже не совпадает, - перезапишем из сгенеророванного ... Моя память так примерно и работает, поэтому Билл Мюррей в любой момент мог стать Джеймсом Белуши и наоборот, пока я их имена не запомнил и с картинками не связал. 20 лет назад я был свято уверен, что это один и тотже чел и судя по всему на них двоих у меня один сжатый портрет был. Потом сетка перетренеровалась, под воздействием окружающих, - жена надо мной постоянно ржала.

UFO just landed and posted this here

Мозг тоже не хранит все 1:1 и с точностью до пикселя (если уж к этому пиксели применить, образно), хранит какие-то ключевые моменты, а многое "дорисовывает".

У мозга, как считают на данный момент, есть два режима построения изображения.

Первый- подгон готовой картинки из памяти по некоторым ключевым деталям полученным с сетчатки. Картинка в памяти может быть ранее увиденной на рисунке (или даже быть представленной по детальному описанию) и не иметь никакого отношения к реальности. А может и иметь.

Второй - построение по-пиксельного изображения с сетчатки глаза.

Чаще всего используется первый режим как наименее ресурсоёмкий и более быстрый. Отсюда черти, летающие тарелки и прочие интересности. Причём человек их реально видит, как он думает. Они даже двоятся при нажимании на глаз.

Для перехода во второй режим достаточно отвести взгляд и засомневаться.

Технология Google повышает разрешение изображений до 16 раз без потери качества

Надо очень постараться, чтобы в процессе увеличения разрешения сделать качество хуже чем было изначально.

Надо постараться, но они смогли. выше уже кидали где просто пропадают детали изображения которые были в оригинале (фото с Обамой)

Пару лет назад я тут делал пост "Увеличь это! Современное увеличение разрешения", который набрал +376 и 168 тысяч прочтений - как раз про разницу между реальным восстановлением и "сделай мне красиво, детка".

А этой весной мы зарелизили бенчмарк методов SR для видео https://videoprocessing.ai/benchmarks/video-super-resolution.html, где есть возможность на потоке генерировать такие сравнения:

Заметим - самый правый (топ номинации "самые ужасные зубы") - это самый модный в этом сезоне метод Super-Resolution Real-ESRGAN, прямо сейчас он висит на 4 месте (!) в трендах на первой странице https://paperswithcode.com/ (а два дня назад был вторым!) и вообще он в топе среди 600+ методов SR, доступных сегодня на гитхабе.

Как пользоваться:

Выбираете характер движения (для методов, которые реально восстанавливают - это важно) тип контента и модели - и наслаждаетесь реальным (а не рекламным) качеством.

Иногда оно очень приличное, заметим! Но контраст к рекламой сложно не заметить.

Этот бенчмарк мы активно пополняем разными модными SR. Еще два наших бенчмарка по SR (один - для картинок, второй - для пары SR+видеокодек) на подходе.

Пост про самые прикольные моменты бенчмарка (а также о том, как корректно интерпретировать графики, что творится в метриках SR - а то мне заголовок "без потери качества" в этой статье понравился))), ну и что творится в методах SR) планирую, а пока можете сами экспериментировать. В т.ч. можно туда залить интересующий вас метод (взяв код с гитхаба) и посмотреть, как он ляжет относительно других на графиках (заметим, что по умолчанию топ бенчмарка отсортирован по усредненной оценке нескольких сотен людей, которым мы показали результаты на яндекс.толоке). Это замедляет добавление, но зато позволяет оценить, насколько оно хорошо на большом количестве разнородных примеров контента.

Enjoy! )

Вот вам еще для вдохновения - лицо, на котором "все умерли" )

А так оно на номерах (iSeeBetter прям красавцы, а что творит текущий самый модный на гитхабе видите сами):

Что-то подсказывает, что и у гуглового есть погонять - не все так волшебно будет), никакого "без потери качества в 16 раз" там заведомо нет, конечно)

Я думаю если исходник был в плохом качестве, то его уже никакая технология не улучшит, темболее бесплатный продукт от гугла.

Я помню что в 90-х баловался программкой фрактального сжатия и увеличения. Загонял в неё картинку размером 32х32 и на голой математике без всяких ИИ и нейросетей минут через 10 получал увеличенный в 30 раз результат, который было просто интересно разглядывать, потому, что он получался "магически" естественным, только на гладких глянцевых поверхностях появлялись сколы и трещинки или грязь какая то налипала.

Так, давайте уже скорее обрабатывать фото пришельцев и НЛО!

Возможно технологию удастся применить для снижения объема передаваемого трафика. Если в определенных случаях (не утверждаю что во всех) изображение можно будет передавать в искусственно заниженном разрешении, а затем восстановить почти без потери качества, то это должно значительно снизить объем передаваемого видео, фото и иных графический файлов.

Там все не так волшебно) Мы прогнали пачку наиболее успешных алгоритмов Super-Resolution с разными кодеками на разных разрешениях. Ключевые выводы:
* Как только со сжатием уходят высокие частоты - эффективность подавляющего большинства методов SR сильно падает (ниже битрейт - ниже выигрыш от SR).
* С новыми кодеками (типа AV1) эффективность применения SR ниже, чем со старыми (типа H.264).

С другой стороны - сейчас включение нейросетевых методов SR прямо внутрь кодека - это тренд + есть LCEVC

Статья на английском точно будет. Возможно и пост тоже)

Интересно, с этим справится? Это зона посадки на Луну.

Sign up to leave a comment.

Articles