Comments 72
А еще год назад где-то на хабре утверждали что такое как в фильмах - математически невозможно.
Оно все ещё невозможно. Нельзя из картинки низкого разрешения извлечь информацию, которой там нет. Но можно додумать свою.
Но ведь нейросеть именно это и делает. Ну подумаешь не существующий номер на zoom-in будет ...
Она не извлекает информацию, а дорисовывает её, делая изображение визуально правдоподобным.
Цифры и текст неплохо восстанавливаются из пары пикселей
Если знать язык и шрифт, то да - можно восстановить. Количество символов и цифр очень небольшое.
Но рисунок состоящий из произвольных пикселей, это совсем другое дело.
Выше был коммент про "не существующий номер на zoom-in будет", я отвечал на него. А на что отвечали вы?
Хм.
Я не воспринял работу с упорядоченным набором пикселей как ответ на картинку на которой этого набора нет.
Номер ведь реально НЕСУЩЕСТУВУЮЩИЙ, а не УМЕНЬШЕННЫЙ.
Ну так в номере известен шрифт, язык и подмножество возможных символов. Вся ветка о том, что компьютеры учаться восстанавливать реальный текст из пары символов и номер автомобиля - идеально подходит под ограничения.
Метод восстановления букв и цифр является реальным методом ВОССТАНОВЛЕНИЯ, и как всякий реальный метод, он имеет множество ограничений и может быть использован далеко не везде.
Хотя, возможно я не прав и данный метод может быть использован при любом уменьшении.
Попробуйте восстановить вот это
Исходный текст был вот таким
Цифры и текст в любом положении? (фото в полутьме номеров, расположенных под уголом?)
я бы уточнил, что не просто додумать, а додумать наиболее вероятную
Не совсем так. Смотря на картинки мне кажется что это не низкое разрешение, а размазанное из-за плохого фокуса изображение.
А размазанное изображение теоретически возможно сделать сколь угодно четким(правда для этого в идеальном случае нужно отсутствие шума в том числе шума квантования, и бесконечный размер)
Вы разумеется правы. Мне казалось, что в расфокусированной фотографии как раз гаусс. Но настаивать не буду, я этим интересовался лет 30 назад, сейчас уже все забыл. Тогда появились более - менее мощные компы и мне казалось что за две три недели рассчетов можно восстановить черно-белую фотографию
Та ситуация, когда догадался, что под спойлером, не заглядывая в него.
Кхм
А куда делся белый воротничок рубашки? Не верится что сетка могла вот так взять и сильно выделяющийся фрагмент картинки выкинуть :)
*Режим пяти копеек*: Есть простой способ. У гепарда крапинки только сплошные, круглые, по минимуму на голове. У леопарда они неровные и образуют кластеры, как бы колечки вокруг желтого, которые при уменьшении диаметра на брюхе и голове сливаются в просто черные точки.
А где можно попробовать или посмотреть реализацию?
Topaz Gigapixel пытается по принципу нейросети улучшить качество картинки. обещают в 6 раз. Не так революционно как в статье но для ознакомления наверное пойдет
По своему опыту могу сказать, что алгоритмы Topaz почему-то как раз с лицами работают очень неважно, хоть там есть даже настройка их детектить, а с формой глаз так между сносно и отвратительно, закрытые же глаза может вообще превращать в жуткие отверстия. Возможно с HD изображения дела обстоят получше, с разрешением пониже и 4x увеличение требует правок руками
ИИ бровь
Какой-то расистский алгоритм, судя по всему - на европеоидах обучался ;)
BLM негодуэ!
Вот у нег... афроамериканцев сейчас пригорит то! И тут дискриминация. ))
Не повышает она разрешение, неправда это. Гугл и то честнее -- называет это "генерирование изображений...". Но по сути это угадывание.
confusion rate - хитрая такая метрика
Ничего, для видеопродукции японской индустрии сойдет. Плюс-минус все одинаковое, что они там заблюрили.
Честно говоря, потенциал технологии немного пугает. В том смысле, что вместо совершенствования сенсоров и оптики, все ринулись в технологию дорисовывания того, чего нет.
все ринулись в технологию дорисовывания того, чего нет.
Дорисовать — это еще полбеды. Беда придет, когда начнут такими «улучшенными» фото размахивать где нибудь в суде.
Беда придет, когда начнут такими «улучшенными» фото размахивать где нибудь в суде.
«улучшенными» будут махать в «суде». А в Суде на каждое фото\видео приводится экспертное заключение что фото не подвергалось редактированию.
Только вот в Судах зачастую приводится "экспертное заключение", так что ваш Суд "суда" сильно отличается.
А а суды сейчас модно "ии" привлекать, вот он и будет выносить заключение.
Оптика давно уже вся на физических пределах работает. Только платите.
Такая оптика на самом деле дорого стоит. Её сложно изготавливать.
С другой стороны, КПД сенсоров всё ещё очень далёк от идеала. Дикие шумы, токи утечек, в итоге КПД составляет порядка 1%.
А что касается оптики: всё упирается в светосилу. Чем больше размер линзы, тем больше света она может собрать и тем выше качество снимка. Проблема исключительно в габаритах: большую линзу в смартфон не засунуть.
Почему пугает? это очень прикольные базовые элементы "очень сжатой памяти". Т.е. храним в памяти картинку в 16х меньше оригинала, при необходимости восстанавливаем в нужном разрешении, ну подумаешь с оригиналом уже не совпадает, - перезапишем из сгенеророванного ... Моя память так примерно и работает, поэтому Билл Мюррей в любой момент мог стать Джеймсом Белуши и наоборот, пока я их имена не запомнил и с картинками не связал. 20 лет назад я был свято уверен, что это один и тотже чел и судя по всему на них двоих у меня один сжатый портрет был. Потом сетка перетренеровалась, под воздействием окружающих, - жена надо мной постоянно ржала.
Мозг тоже не хранит все 1:1 и с точностью до пикселя (если уж к этому пиксели применить, образно), хранит какие-то ключевые моменты, а многое "дорисовывает".
У мозга, как считают на данный момент, есть два режима построения изображения.
Первый- подгон готовой картинки из памяти по некоторым ключевым деталям полученным с сетчатки. Картинка в памяти может быть ранее увиденной на рисунке (или даже быть представленной по детальному описанию) и не иметь никакого отношения к реальности. А может и иметь.
Второй - построение по-пиксельного изображения с сетчатки глаза.
Чаще всего используется первый режим как наименее ресурсоёмкий и более быстрый. Отсюда черти, летающие тарелки и прочие интересности. Причём человек их реально видит, как он думает. Они даже двоятся при нажимании на глаз.
Для перехода во второй режим достаточно отвести взгляд и засомневаться.
Технология Google повышает разрешение изображений до 16 раз без потери качества
Надо очень постараться, чтобы в процессе увеличения разрешения сделать качество хуже чем было изначально.
Нечто подобное уже описывалось на Хабре:
Пару лет назад я тут делал пост "Увеличь это! Современное увеличение разрешения", который набрал +376 и 168 тысяч прочтений - как раз про разницу между реальным восстановлением и "сделай мне красиво, детка".
А этой весной мы зарелизили бенчмарк методов SR для видео https://videoprocessing.ai/benchmarks/video-super-resolution.html, где есть возможность на потоке генерировать такие сравнения:
Заметим - самый правый (топ номинации "самые ужасные зубы") - это самый модный в этом сезоне метод Super-Resolution Real-ESRGAN, прямо сейчас он висит на 4 месте (!) в трендах на первой странице https://paperswithcode.com/ (а два дня назад был вторым!) и вообще он в топе среди 600+ методов SR, доступных сегодня на гитхабе.
Как пользоваться:
Выбираете характер движения (для методов, которые реально восстанавливают - это важно) тип контента и модели - и наслаждаетесь реальным (а не рекламным) качеством.
Иногда оно очень приличное, заметим! Но контраст к рекламой сложно не заметить.
Этот бенчмарк мы активно пополняем разными модными SR. Еще два наших бенчмарка по SR (один - для картинок, второй - для пары SR+видеокодек) на подходе.
Пост про самые прикольные моменты бенчмарка (а также о том, как корректно интерпретировать графики, что творится в метриках SR - а то мне заголовок "без потери качества" в этой статье понравился))), ну и что творится в методах SR) планирую, а пока можете сами экспериментировать. В т.ч. можно туда залить интересующий вас метод (взяв код с гитхаба) и посмотреть, как он ляжет относительно других на графиках (заметим, что по умолчанию топ бенчмарка отсортирован по усредненной оценке нескольких сотен людей, которым мы показали результаты на яндекс.толоке). Это замедляет добавление, но зато позволяет оценить, насколько оно хорошо на большом количестве разнородных примеров контента.
Enjoy! )
Вот вам еще для вдохновения - лицо, на котором "все умерли" )
А так оно на номерах (iSeeBetter прям красавцы, а что творит текущий самый модный на гитхабе видите сами):
Что-то подсказывает, что и у гуглового есть погонять - не все так волшебно будет), никакого "без потери качества в 16 раз" там заведомо нет, конечно)
Можно выкидывать все Ваши камеры в 24mpx ;)))
Я думаю если исходник был в плохом качестве, то его уже никакая технология не улучшит, темболее бесплатный продукт от гугла.
Я помню что в 90-х баловался программкой фрактального сжатия и увеличения. Загонял в неё картинку размером 32х32 и на голой математике без всяких ИИ и нейросетей минут через 10 получал увеличенный в 30 раз результат, который было просто интересно разглядывать, потому, что он получался "магически" естественным, только на гладких глянцевых поверхностях появлялись сколы и трещинки или грязь какая то налипала.
Так, давайте уже скорее обрабатывать фото пришельцев и НЛО!
Возможно технологию удастся применить для снижения объема передаваемого трафика. Если в определенных случаях (не утверждаю что во всех) изображение можно будет передавать в искусственно заниженном разрешении, а затем восстановить почти без потери качества, то это должно значительно снизить объем передаваемого видео, фото и иных графический файлов.
Там все не так волшебно) Мы прогнали пачку наиболее успешных алгоритмов Super-Resolution с разными кодеками на разных разрешениях. Ключевые выводы:
* Как только со сжатием уходят высокие частоты - эффективность подавляющего большинства методов SR сильно падает (ниже битрейт - ниже выигрыш от SR).
* С новыми кодеками (типа AV1) эффективность применения SR ниже, чем со старыми (типа H.264).
С другой стороны - сейчас включение нейросетевых методов SR прямо внутрь кодека - это тренд + есть LCEVC
Статья на английском точно будет. Возможно и пост тоже)
А можно ли им как-нибудь скормить вот эту картинку и увеличить?
Интересно, что будет в фаре
Интересно, с этим справится? Это зона посадки на Луну.
Технология Google повышает разрешение изображений до 16 раз без потери качества