Comments 88
Забавно, некоторые артефакты похожи на то, как человек вспоминал бы увиденную ранее сцену. Например, запомнил, что стена была кирпичной, а размеры кирпичей просто предположил.
И часто у вас размер кирпичей в воспоминаниях изменяется в три раза? ) Уж что-что, а кирпич – вещь достаточно константная.
Тезис понятный, но пример неудачный.
Ну, умственно отсталый пока что человек слегка.
Скорее, совсем маленький ребёнок )
В одной книге по компьютерной графике мне попался фрагмент, где описывался психологический опыт, в котором ребенку показали квадрат и попросили его нарисовать.
Ребёнок сначала изобразил две пары параллелельных линий (как два знака "=" один за другим), две перпендикулярные им линии покороче, а потом соединил концы этих линий неровным кольцом. А потом, рядом, изобразил кривой квадрат. На вопрос психолога, что это за фигура, которую он нарисовал первым, он ответил (используя "детские" слова) что параллельные линии - это стороны, перпендикулярные им - это "острые штуки" (углы), а кольцо показывает, что они - вместе.
То есть первый рисунок был выражением результата абстрактной декомпозиции, в которой были выражены пространственные отношения между сторонами и углами квадрата, а также их принадлежность к одной фигуре. Когнитивный синтез, при этом, "провалился", потому что ребёнок использовал при визуальной реконструкции тот метод, который нужен для вербальной.
Второй рисунок, в свою очередь, был отражением конкретного восприятия.
Методы ML ведут себя весьма похоже внешне, но на самом деле, ограничены конкретными ассоциативными операциями, по большому счёту, не опираясь ни на что кроме сходства. Потому картинки получаются похожими не на рисунки ребёнка или умственно отсталого человека, а на рисунки страдающего от крайней формы парейдолии, переходящей в делирий. Потому что они, подобно такому человеку, не в состоянии отсекать заведомо невозможные ассоциации. Такое отсечение, например, позволяет здоровому человеку, видящему размытый российский номер, не видеть там символы Иврита. А на размытом портрете человека - лицо гориллы или шрамы вместо морщин.
"кирпич" может быть белый силикатный или красный (из глины) - размеры хоть и отличаются, но не сильно. Но вот рядом сарай или даже дом из пено/газо-бетонных блоков - издали они то же на кирпичи походят, а еще есть саманный кирпич - там вообще размер штука не постоянная обычно (тк делается он в разных местах немного по разному и его размер нигде не стандартизован - +/- достаточно много в размере может быть в зависимости от состава и людей, которые его изготавливали
размер одного кирпича в руках или лежащего рядом - не меняется. размер кирпича в воспоминаниях когда субьект смотрел на сплошную стену с 20 метров - вполне. особенно при малоосознанном воспоминании типа сна. vadimr все верно сказал



Увидим больше привидений и НЛО на фото-видео в будущем )))
Да, если человек с манией преследования начнет покадрово разглядывать на 16К мониторе свои видео с дачи, то с текущими SR его худшие подозрения рискуют полностью подтвердиться!)))
Вообще тема persecution mania safety методов может стать актуальна)))
НЛО это скорее исключение из опытных лабораторий ) Но сама возможность их появления на "улучшенных" изображениях конечно же настрораживает.
Насчет видео, можете почитать мою статью здесь:
Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями
Там я апскейлил фильм, получилось вполне годно, и никаких приведений и пришельцев )
Вам надо почитать Они хотят, чтобы мы забыли, как выглядят фильмы (https://habr.com/ru/companies/nmg/articles/797097/)
Вы вообще в курсе, что артефакты SR во многом зависят от того, через цепочку каких преобразований проходил исходник?
Мы можете радостно пиарить свой пайплайн, а другой человек подаст на него свой фильм, неострожно пропущенный через нейросетевой денойзер и получит ужас-ужас.
Ну и вас листья с травой не смущают в вашем примере?)
Спасибо за такой подробный, ёмкий материал. Далёк от AI и ML, но прочитал, открыв рот.
Очень уместно добавили везде сравнение с простым бикубиком. Так все нагляднее, но, все еще, не хватает сравнения с старыми добрыми алгоритмами увеличения резкости по микроконтрасту. Например — аншарп маск показал бы куда лучший результат на номерах машин
Фото увеличенного текста до полной читаемости — это просто чудо какое-то!
Никакие старые алгоритмы с повышением микроконтраста так не смогут, однознанчо
Интересно, что вы скажете про технологию увеличения резкости в Фотошпе? Она явно не из самых последних разработок. По результатам очень напоминает «дообученный Real-ESRGAN».
По ссылкам скриншоты до и после «улучшения» через рав-конвертер (осторожно — трафик). Это сьемки с дрона, очень люблю я это дело! ))
habrastorage.org/webt/4c/w1/uv/4cw1uvdljmkddlguncroluiqswm.png
habrastorage.org/webt/oe/q6/rr/oeq6rrgr27cnda_2s8vammtkhki.png
Конкретно эти фото с довольно старой модели, DJI Mavic 1 поколения. Сейчас у меня уже более современный Air 2s, там с шумами и четкостью — получше.
Потому, увеличение пикапа с дроно-фото — меня очень сильно впечатлило и заинтересовало. Не знаете о планах DJI на подобные алгоритмы? Они денег на это жалеть не должны, одна только покупка Хасселя — много о чем говорит.
Офигенно интересная статья, прошлые тоже читал с большим удовольствием!
Спасибо! Не хватает времени писать на хабр. Такие комментарии способствуют)
Очень уместно добавили везде сравнение с простым бикубиком. Так все нагляднее, но, все еще, не хватает сравнения с старыми добрыми алгоритмами увеличения резкости по микроконтрасту. Например — аншарп маск показал бы куда лучший результат на номерах машин
Гм... Интересная тема. С точки зрения восстановления разрешения unsharp mask скорее портит картинку и мешает восстановлению (столкнулись с таким), но в бенчмарк вполне можно добавить, поскольку визуально сравнивать с ним хорошо, согласен.
Фото увеличенного текста до полной читаемости — это просто чудо какое-то! Никакие старые алгоритмы с повышением микроконтраста так не смогут, однознанчо
Дык!)
Интересно, что вы скажете про технологию увеличения резкости в Фотошпе? Она явно не из самых последних разработок. По результатам очень напоминает «дообученный Real-ESRGAN».
Рук не хватает все прогнать. Пока только Adobe Lightroom прогнали из адобовских. Если кто Photoshop прогонит - будет здорово)
По ссылкам скриншоты до и после «улучшения» через рав-конвертер (осторожно — трафик)
Да, конечно продвинутая интерполяция RAW дает лучше результат (картинка чуть резче). Но именно "чуть". Мне лично интересно именно повышение разрешения, причем желательно в разы)
Не знаете о планах DJI на подобные алгоритмы? Они денег на это жалеть не должны, одна только покупка Хасселя — много о чем говорит.
Китайцы шуруют очень быстро. С большой вероятностью у них в исследовательском подразделении уже с чем-то подобным работают. Тема для смартфонов и профессиональных камер известна уже несколько лет, поэтому что-то такое вполне может быть у них в загашнике.
С точки зрения восстановления разрешения unsharp mask скорее портит картинку и мешает восстановлениюЯ о том, что в некоторых кейсах, например повышение читаемости номеров — Аншарп выдаст более четкую и понятную картинку, чем приведенные вами алгоритмы

«Энчантинг» в рав-конверторе — это всего лишь продвинутая интерполяция?
Согласен, новых деталей он не нарисовал, но четкость повысилась очень значительно. Размытые детали — прорисовались тоньше и четче
Тема для смартфонов и профессиональных камер известна уже несколько летМожет есть какой-то софт в открытом доступе или какой-то способ запихать пачку равов с дрона в смартфон (тот же Пиксель), который умеет пересчитать их них более детальное изображение?
Уж очень круто получается, прогресс с примерами из ваших прошлых статей — колоссальный
любой человек, запускающий SR с GitHub может помочь ускорить этот моментВы хотите сказать, что есть проекты, которые получают от пользователей данные по обучению алгоритмов и улучшают свои, таким образом?
Навскидку, я ничего такого в репозиториях — не нашел
Аншарп выдаст более четкую и понятную картинку, чем приведенные вами алгоритмы
Там возможно нечетко написано. GT - это Ground Truth - исходник высокого разрешения. И у нас не везде есть бикубик (что неправильно, согласен). Думаю, исправим!
«Энчантинг» в рав-конверторе — это всего лишь продвинутая интерполяция?
Да. Существует более сложные продвинутые методы интерполяции RAW, которые лучше интерполируют, но дольше работают. Самые свежие из них - это уже Image SR. Многие текстуры он сделает заметно лучше. Но может и начудить, естественно.
Может есть какой-то софт в открытом доступе или какой-то способ запихать пачку равов с дрона в смартфон (тот же Пиксель), который умеет пересчитать их них более детальное изображение?
Пока не видел. Хотя с текущим ростом числа репозиториев SR на гитхабе легко и пропустить ненароком) И скорее не в смартфон (где алгоритм заточен под конкретный сенсор), а в комп)
Вы хотите сказать, что есть проекты, которые получают от пользователей данные по обучению алгоритмов и улучшают свои, таким образом?
Я про то, что можно к нам методы сабмиттить (и видеть, где они получаются в рейтинге в том числе по субъективной оценке).
Такой фокус достигается за счет того же приема, что и у Google Pixel 3, то есть идет обработка именно RAW данных. Если обрабатывать интерполированный RGB, результат будет заметно хуже. Это означает, что завтра смартфоны (с их небольшими объективами, но довольно мощными процессорами) еще сильнее приблизятся по качеству к фотоаппаратам (с заметно большим размером объектива и матрицы).
Сырые данные с сенсора 48МП будут занимать около 96 мегабайт, 16 снимков потребуют для хранения 2 гигабайта памяти. Видимо, то, что до сих подобные алгоритмы пока не пошли в массы, является следствием высоких вычислительных затрат.
С точки зрения пользователя (и производителя) это немного не так работает.
У пользователя появляется возможность сильнее зазумить объект в кадре. При этом реально кропается только часть сенсора. Соответственно даже для финального разрешения 48МП для 2x SR это будет 336Мб, а для 4x (для которого, собственно, и нужно 14 кадров) - только 84Мб (1/16 сенсора 14 раз). Т.е. затраты по памяти невелики (и могут быть даже меньше, чем для "полного" фото), а вот вычислительные затраты действительно сильно больше, но терпимы для современных смартфонов.
Как-то так!)
Уже давно есть же телефоны с 1 Тб памяти ~ 8000 снимков. Вполне неплохо.

Также я обещал рассказать о новых результатах, которые меня, воробья стреляного, поразили.
…
На примере ниже хорошо видно, что это именно восстановление из нескольких кадров (в данном случае 14).
А я бы сказал — давно пора. В самом деле, идея вычислить из нескольких немного отличающихся картинок с низким разрешением одну с более высоким — вроде как лежит на поверхности, тем более что несколько лет назад было показано фото черной дыры в другой галлактике, вычисленное из данных нескольких радиотелескопов. И никаких нейронок, только матан, только хардкор!
Основная проблема здесь заключается в оценке движения между соседними кадрами. Чем точнее определено движение, тем лучше результат восстановления. В случае астрофизики мы это движение знаем изначально. В случае многокадрового суперразрешения для текста движение плоско-параллельное. А вот в общем случае здесь уже не всё так просто.
При увеличении разрешения по кадрам из видео сильно помогает более высокое темпоральное разрешение, компенсирующее недостаток пространственного. Потому что для его эффективной работы нужно, чтобы каждый фронт контраста имел несколько положений, пересекающих пиксель. Если же на соседних кадрах этот фронт имеет два пересечения с соседними или даже отстоящими дальше друг от друга пикселями, это довольно сильный недостаток информации.
Я бы сказал так - для астрономических объектов нам и движение очень точно можно посчитать, и довольно точно получается восстановить так называемую PSF - point spread function (след точки на снимке), которая может быть довольно сложной, но если ее восстановить - можно аналитически заметно поднять разрешение.

Выше PSF телескопа Хаббл отсюда. Там весьма серьезное увеличение качества фотографий возможно:

А у "обычного фото" из-за тряски рук и движения объектов в кадре предсказание PSF становится крайне нетривиальной задачей. Ну и дальше сложности с неидеальностью объективов, матриц и т.д.
Выясняется, что аналитически восстановить намного сложнее, чем обучить восстанавливать сеточку.
Хотя всегда найдутся люди, которые скажут, что восстановление невозможно и астрономы правдоподобно додумывают фотографии ))) (шучу)))
Картинка выше из старой статьи https://www.researchgate.net/publication/252709898_APEX_blind_deconvolution_of_color_Hubble_space_telescope_imagery_and_other_astronomical_data
Есть. Очень много. И мы этим тоже плотно заняты)
Опубликовали в конце прошлого года бету бенчмарка
MSU Video Deblurring Benchmark
https://videoprocessing.ai/benchmarks/deblurring.html
Как расширим лидерборд про наиболее интересные достижения напишу. В расширении можно помочь)
Там уже есть один ооочень классно работающий метод.
Очень понравился пример с текстом.
Как бы научится делать это в уме... И быстро.
Забавно, у меня телефон при цифровом зуме показывает очень похожие на некоторые фотки здесь артефакты. Причем деталей он вытаскивает больше, чем есть в оригинальном 108мп снимке. Особенно заметно на тексте, когда на 108мп без зума читается плохо, а на 12мп с зумом буквы гораздо понятнее. Телеобъектива честного нет конечно.
А какая у вас модель? (во флагманах 3 года назад начала технология появляться)
И если примеры кинете - было бы интересно!
У меня вот так. Xiaomi 11T.
Зум 10x (полностью цифровой):
https://habrastorage.org/webt/tm/mp/0f/tmmp0fb57ei8vvntpbhl7twlw6i.jpeg
108MP:
https://habrastorage.org/webt/ch/gp/zu/chgpzuxhw3_zsac1yfdvdt4mw2w.jpeg
Интересно, спасибо!
Что-то подсказывает, что 10х таки не полностью цифровой. Оптика тоже работает.
А у 108МП явно так проявляют себя жесткие алгоритмы подавления шумов.
У DXO есть неплохой обзор камеры вашего телефона
https://www.dxomark.com/xiaomi-11t-camera-review-decent-detail-low-noise/
но они, увы, не сравнивают одновременную работу разных камер (только разные телефоны в одинаковых условиях).
Я проверял, закрывая камеры пальцем. И в 1х, и в 10х используется только одна камера.
Нет. Смартфоны практически всегда используют только одну камеру. Одновременное использование нескольких камер высаживает батарею (сенсоры очень энергоёмкие) и требует использования дополнительных вычислений.
Кстати, могли бы использовать, только предупреждать, что «съёмка и обработка в этом режиме будет отнимать много времени и энергии». При съёмке слоу мо — они это пишут
Не так уже и много. Камеры все по характеристикам разные и зачастую хорошая камера только одна, остальные сильно хуже и имеют нишевое применение.
Раньше был период, когда в смартфоны ставили grayscale камеры, вот там с пары одновременных снимков можно было сильно улучшить снимок. Только загнулось это направление.
Могут использоваться разные камеры в зависимости от условий, например, освещения — брать 3x с доп.камеры меньшей светосилы, или переходить на цифровой кроп с основной 1x, если света мало (замечал на своём Huawei P30). Данные с соседней камеры могут использоваться для вычисления глубины в доп. режимах типа "портрет" или "эмуляция диафрагмы" (в этом случае потом, уже на готовой фото можно изменить фокус или размытие).
То, как сейчас работают камеры на смартфонах, уже почти чудо)) На S21/S22 Ultra можно сделать снимок в 108 мп (9000x12000px!), причём отдельно есть режим повышения чёткости, на котором видно "дорисовку" в стиле Super Resolution. Но апскейл выполняется на базе уменьшенного фото (где меньше шума), а результат по качеству не уступает честному 108-мегапиксельному. А в S23 Ultra аж 200мп, 16-кратный биннинг!
Самое печальное - то, что даже здесь на Хабре находится, тем не менее, некоторое количество людей, которые будут до хрипоты спорить, что есть средства, которые восстанавливают отсутствующие детали, а не дорисовывают правдоподобную выдумку.
https://habr.com/ru/post/681404/
https://habr.com/ru/post/695962/
https://habr.com/ru/post/573564/
См. комментарии, это что сходу нашлось.
Самое печальное - то, что даже здесь на Хабре находится, тем не менее, некоторое количество людей, которые будут до хрипоты спорить, что есть средства, которые восстанавливают отсутствующие детали, а не дорисовывают правдоподобную выдумку.
Вы намекаете что именно восстановить, а не дорисовать правдоподобно ни для картинок, ни тем более для видео невозможно? )
Я не "намекаю". Если информация действительно не содержится, "восстановить" её не из чего.
Случаи с тем, когда она искажена по известному закону или рассеяна в пространстве или времени - другая история.
На самом деле, мне несколько непонятна ваша ирония (а ваш вопрос звучит именно так, начинаясь с "намекаете", включая упоминание видео, как источника с темпоральной избыточностью, заканчивась смайликом).
Я не давал ни единого повода предположить, что мое утверждение выше основано на какой-нибудь глупости типа отрицания обращения PSF, уточнения wavelet-разложений по нескольким изображениям и т.п. "Отсутствующие детали" означает их отсутствие, ни больше, ни меньше.
"Отсутствующие детали" означает их отсутствие, ни больше, ни меньше.
В видео, если камера не на штативе, а движется, дополнительная информация о разрешении заведомо присутствует, другое дело, что ее извлечение является весьма нетривиальной задачей (ибо сложно точно определить движение на субпиксельном уровне, мешает сжатие и т.п.). Или вы только про картинки?
Вместо бикубика и аншарпа была бы интереснее "честная" интерполяция через БПФ или ДКП. Т.е. строим спектр, расширяем его в область высоких частот в 2 или 4 раза (дополняя нулями), восстанавливаем картинку в 2 или 4 раза большего разрешения, которая будет честно содержать всю информацию, которая есть в исходной картинке. Хотя ВЧ-область до расширения можно и немного усилить.
PS. Уверен, что вы в курсе, и просто не стали перегружать и без того насыщенную статью, но формат RAW в принципе почти с самого начала никакой не RAW, и над ним уже куча алгоритмов потрудилась. Шумодав, замыливатель битых пикселей, софтверный АА-фильтр, часто исправления геометрии и т.д. В-общем, довольно тяжелая обработка, уникальная для каждого семейства камер. Очевидно, что это будет влиять на последующие успехи SR-алгоритма.
PPS. Ну и да, обязательно пишите ещё, крайне интересно!
В ряду интерполяций очень много шагов на пути к "генераторам": кроме чисто спектральных, авторегрессии всех видов, уже старый добрый МГК, ту же PSF можно старыми ML-методами выцепить, типа отжига или генетики. Но оно чем дальше, тем вычислительно тяжелее тех же ГАНов, где лучше день потерять, потом за пять минут долететь, а то всё вкусное съедят.
Вместо бикубика и аншарпа была бы интереснее "честная" интерполяция через БПФ или ДКП.
Такие идеи были популярны в конце 90-х - можно поискать на сколаре super resolution dct fourier transform в этих статьях были так себе результаты для картинок и тем более видео (в отличие от восстановления звука, например).
Уверен, что вы в курсе, и просто не стали перегружать и без того насыщенную статью, но формат RAW в принципе почти с самого начала никакой не RAW, и над ним уже куча алгоритмов потрудилась. Шумодав, замыливатель битых пикселей, софтверный АА-фильтр, часто исправления геометрии и т.д. В-общем, довольно тяжелая обработка, уникальная для каждого семейства камер. Очевидно, что это будет влиять на последующие успехи SR-алгоритма.
Это жестокая правда! То, что RAW сегодня часто ни разу не "чистый RAW", причем у каждого девайса свой, даже если сенсор в них используется один - это большая проблема для создания и распространения SR. Можно прогнозировать, что для восстановления сделают режим типа pure RAW, в котором всего этого счастья не будет и на котором SR будет проще восстановить разрешение. А пока это приводит к артефактам и необходимости дообучать под новый девайс, увы.
И да, было что сказать практически про каждый пункт статьи - и про собираемый датасет, и про бенчмарки, и про метрики, и про новые методы, но бета-тестеры хором говорили, что размер уже велик.
PPS. Ну и да, обязательно пишите ещё, крайне интересно!
Эх, время бы понять где взять!)
Но это было на d200, а современные беззеркалки — да, вмешиваются жестоко, шарпят очень сильно и тп. Про смарты и речи нет — там ничего живого не остается после адского шумодава, который пытается обмануть физику и показать качественную картинку с матрицы как детский ноготь размером
Может на дронах не так все плохо. Надо бы попросить равов с Хасселевской камеры последнего Мавика, поковыряться. Там сенсор здоровый, его нет необходимости поганить картинку шумодавом, ибо здоровенные пиксели и расстояние между ними большое
Про смарты и речи нет — там ничего живого не остается после адского шумодава, который пытается обмануть физику и показать качественную картинку с матрицы как детский ноготь размером
Справедливости ради, у сенсора ещё есть показатель эффективности (quantum efficiency, например). И прогресс здесь тоже не стоит на месте. Сенсор 2005 года при одинаковом ISO будет давать сильно больше шума, чем сенсор 2020+ года.
А так, я своими глазами видел два фотоаппарата, зеркалку и беззеркалку, с одинаковыми обьективами, зеркалка, в раве, дает нормальный портрет, беззеркалка — пособие для дерматолога. В руках держал, равы ковырял…
«РАВы уже не торт» (С)
строим спектр, расширяем его в область высоких частот в 2 или 4 раза (дополняя нулями), восстанавливаем картинку в 2 или 4 раза большего разрешения
Я пробовал такое, результат весьма так себе — около резких границ появляется ВЧ звон. Уж лучше билинейкой интерполировать.
Ну, положим, звон убирается аккуратным антиалиасингом и добавлением белого шума в младшие 1-2 бита результата. Я тоже пробовал, тоже знаю, что тот же бикубик плюс немного аншарпа дают зрительно более приемлемый результат и заметно быстрее.
Собственно моя идея была в том, что спектральные методы интерполяции при корректной реализации дают ровно столько информации на выходе, сколько её было на входе. Соответственно можно численно измерить количество отсебятины, которое напридумывал исследуемый модный алгоритм по сравнению со спектральным.
Там можно паразитные волны подавлять, но вы правы, что так себе.
Отчего-то пропустили замечательный софт для увеличения фото - PhotoZoom с алгоритмами, как пишут, на основе сплайнов.
Зевс на Трампа похож. Что-то в этом есть...
В курсе)
Работаем. Делаем бенчмарк
MSU Video Frame Interpolation Benchmark
https://videoprocessing.ai/benchmarks/video-frame-interpolation.html
Это пока бета (выложили осенью), над расширением работаем. Любой, кто умеет гонять репозитории может помочь приблизить момент статьи по этому бенчмарку.
предполагаю, это про мультиэкспозицию— изображения разнесены во времени. Не уверен, что я прав. На питоне скрипт писал, который увеличивает качество, совмещением 256 фотографий.
Это отдельные темы - увеличение пространственного разрешения при motion blur removal и увеличение разрешения во времени:
frame rate interpolation https://scholar.google.ru/scholar?hl=en&as_sdt=0%252C5&q=frame+rate+interpolation
или frame rate up-conversion https://scholar.google.ru/scholar?hl=en&as_sdt=0%252C5&q=frame+rate+up-conversion
Статей море, коммерческий софт тоже есть (но там названия маркетинговые типа SlowMo и т.п.).
Подскажите чем увеличили четкость текста (там где состав печенья)?
Раскроем позднее. Там пока довольно сыро (хоть и многообещающе). Ищем компании, которые могли бы профинансировать доведение до юзабельного вида.
На «ГитХабе» в сопутствующем разделе нейросетей не нашлось на первый взгляд, пробежал верхние пару страниц из вашего списка, тоже нигде не упоминается тэг text recognition
. Так что условный 4K OCR upscaling (пусть как-то так будет) пока интрига...))
Немного страшновато от перспективы применения подобных алгоритмов в криминалистике. Нейросеть там дорисует что-то от себя, а результат может использоваться как свидетельство.
Это отдельная тема - в каких случаях восстановление идет неверно и можно ли посчитать точность восстановления.
Оказывается - можно. Пусть и сложно.
Другой вопрос - можно ли, чтобы сеть вообще не дорисовывала, если не уверена - сложнее, но тоже решаемо.
Запрос на "чистое" восстановление вполне себе есть. В какой-то момент компании его проспонсируют.
Причем в ближайшее время будет увеличение разрешения в первую очередь для смартфонов для фото - это самый понятный рынок и если освещения хватает, чтобы снять 20 кадров, а процессора телефона, чтобы из зума восстановить х4 с удаленным объектом или макро - люди будут счастливы и это очень заметно (явная плюшка телефона). И я вас уверяю - народ там будет каждую детальку разглядывать, сравнивая у кого лучше получилось из разных моделей))) (и уже разглядывает!)
А потом уже пойдет штурм намного более сложной задачи восстановления сжатого потока (регистраторы, камеры наблюдения) - то, что нужно для криминалистики. Подробнее о том, почему оно для криминалистики не работает сейчас, было в прошлой статье.
Сейчас появилась отдельная тема, кстати - это камеры видеонаблюдения которые реально пачку кадров пишут, дальше качество повышают и на запись отдают меньше, но в лучшем качестве - это потенциально разумный компромисс, когда "додумывание" минимально, а качество записи выше. И самое главное - не надо повышать качество сжатого потока.
Но и сжатый поток постепенно будет улучшаться (см. результаты отдельного бенчмарка SR+Codec, ссылка была в тексте)
Это всё здорово, а есть какие-то юзер-френдли программы для всего этого, кроме Topaz? Не для программистов.
В тексте было:
Этот бенчмарк менее академичен и активно сравнивает на разном контенте коммерческие апскейлеры, в том числе:
Adobe Lightroom Super-Resolution
Davinci Resolve Super Scale
Topaz Gigapixel
Какие из них более юзер-френдли вам судить (они все не для программистов, мне кажется))), но исходников с хорошей лицензией хватает и очевидно скоро многие вкатят в код новые SR.
Есть опенсорсные решения. Описываю те, что использовал сам.
Рабочий вариант с обзорами в интернетах - Waifu2x-GUI. Упрощенный рабочий вариант - Video2x. Ещё есть форк с ускорением обработки - Dandere2x (у меня крашился).
Добрый день! Чуть дополню материал своей недавней статьей здесь.
Там я увеличивал фильм с помощью модели SwinIR, которую вы здесь также вскользь упомянули. Получилось вполне прилично, и самое главное - без артефактов, вроде появления лица вместо глаза )
До этого пробовал делать то же самое через Real-ESRGAN, не понравилось, очень заметна синтетичность, особенно на сильно замыленных видео/изображениях. Но Real-ESRGAN позволяет легко дотренировать модель, хотя руки так и не дошли (муторно собирать и подготавливать датасет). Зато базовый SwinIR вполне прилично скейлит из коробки, хоть и не идеально.
Какие косяки сразу бросились в глаза - часто деревья и траву сильно меняет, прямо видно как рисует отсебятину. Там в статье есть несколько скриншотов. Но в целом, для апскейла видео, очень неплохо.
В общем, если будет интересно, можете заглянуть )
Выше на ваш комментарий уже ответил.
Но Real-ESRGAN позволяет легко дотренировать модель, хотя руки так и не дошли (муторно собирать и подготавливать датасет).
Легко? )
Ну попробуйте дотренировать, выложить на гитхаб и подтвердить популярностью, что у вас лучше получилось))) Уверяю вас, это намного сложнее, чем кажется.
Вообще на гитхабе сейчас 1300+ репозиториев в топике super-resolution https://github.com/topics/super-resolution и мы, несмотря на то, что в наших бенчмарках согласно paperswithcode протестировано больше всего опенсорсных решений https://paperswithcode.com/task/video-super-resolution категорически не успеваем за новыми решениями.
Датасет артефактов SR, кстати, сделали, может руки дойдут статью сюда сделаем (сейчас статьи на А* по теме пилим))).
Увеличь это! Современное увеличение разрешения в 2023