Комментарии 117
Спасибо за видео, выглядит гораздо приятнее.
Видео на YouTube очень сильно пожато. Для лучшего результата можно поискать исходник покачественнее. В идеале — архив Гостелерадио фонда, но реально — какой-нибудь официальный выпуск на DVD или даже BlueRay.
Сравнить бы с ней.
Суть письма в следующем (моими словами): Спасибо за интерес к нашему контенту, сейчас несколько подрядчиков делают upscale, и реставрацию изображения произведений до 2К и 4К. Работы ведутся с небольшим приоритетом и имеют академический интерес.
Будем ждать официальных upscale-проектов!
Хотя конечно по некоторым местам видны огрехи. Так например на среднем плане буква А в названии корабля ПЕГАС довольно сильно стала смахивать на Л. В старой версии там было мыло в котором название скорее угадывалось чем читалось, тут оно читается но А искажается.
В целом смотреть приятно, и думаю что многие мультики стоит прогнать такими алгоритмами ибо на больших экранах их смотреть сейчас очень печально (я частично с этим связываю малую популярность добротных старых мультиков у нынешнего подрастающего поколения).
Ждём, когда AI Чарли Чаплина он сам раскрасит.
Но предварительно хорошо настроили, как понимаю.
Местами остались и лесенки (например, у летящего флаера на первых кадрах с общим планом) и прочие дефекты — но их почти не заметно, если не всматриваться. А «исходную» на большом экране смотреть просто больно — кажется, что потерян фокус, и глаза напрягаются в попытках его восстановить.
Вроде бы некоторое время назад на Хабре кто-то уже выкладывал свой вариант ремастера «Тайны», по крайней мере, я отчетливо помню, что я ту статью комментировал. Но почему-то не нашёл её ни в трекере, ни гуглом.
Зато нашлась статья про подобный нейросетевой ремастер другого мультфильма — «Рик и Морти» — habr.com/ru/post/438886
Хорошо, что вернулись. Простите за форки и мерджи проектов. Мы не со зла, а «ради искусства». Кажется, теперь уже окончательно будет только Хабр.
Я тоже помню писал как-то мануал по установке ubuntu на журнал playboy, а потом сказал друзьям поискать по хабру, а мануальчик мой без уведомлений перенесли на мегамозг
Несмотря на то, что сейчас мой скафандр не мог передавать и принимать информацию, я рассчитывала узнать с помощью ракеты о судьбе своих друзей. Работающие на ОО инженеры, как обычно, предусмотрели всё. В том числе и запуск ракет тайконавтами, чьи скафандры не приспособлены для взаимодействия с картографическим модулем.
Для этого на пусковой установке был смонтирован небольшой экран, на который ракета транслировала изображение с камеры. Экран этот, кстати, имел свою собственную историю: когда-то давным-давно, журнал Playboy устроил рекламную акцию, вставив в журнал утолщенную страницу, внутри которой находился крохотный компьютер с жидкокристаллическим дисплеем, показывающий, как вы думаете что? Конечно ггнуху.
Номер моментально стал культовым. Гики охотились за ним, скупая пачками. Чтоб потом перепрограммировать халявные компьютеры, встраивая в свои проекты. В холодильники, умные дома, спутники, подводные лодки, адронные коллайдеры. Со временем это стало традицией. В определенных, очень узких кругах, но тем не менее.
Инженер, создавший эту картографическую систему, рассказал, что из купленной им дюжины журналов у него до текущего момента дожило всего три, и он использует их только в исключительно важных проектах. Таких, как созданная для Луны залпово–картографическая система. И что он надеется, что первый зонд, достигший другой звездной системы, тоже будет содержать один из двух оставшихся у него плееров. (Последний, он видимо собирался приберечь для постройки на его основе большой машины для изменения космологической постоянной в целях остановки разбегания галактик — инженеры порой такие инженеры…)
(с) #Даша_на_Луне
Конкретно это видео мне понравилось. Можно смотреть на большом экране, не напрягаясь и не плеваться на квадратики.
Однако, сама статья выглядит недосказанной — «стандартная процедура» по ссылке, вот по мне, ни разу не стандартная :-) Было бы неплохо эту процедуру прямо здесь, на русском языке, и расписать (ну хотя бы под кат, но по-русски).
ESRGAN очень свежая штука.
Вся процедура проста:
1) Сохраняем видео покадрово в png.
2) Каждое изображение прогоняем через любую из предложенных по ссылке нейросеток.
3) Склеиваем изображения обратно в видеопоток.
4)…
5) PROFIT!
Вот автоматизировать — это было бы дело.
Таким способом ничего толкового не выйдет. Получается искусственная пластилиновая плавность, движения становятся не естественными.
Любая уплавнялка лишь додумывает кадры чтобы перевести картинку из одного состояния в другое. Делает это исключительно с равной плавностью, т.к. информации о скорости движения и тем более ускорениях движений не имеет. Даже с учётом соседних кадров, которые могут не только добавить инфу для повышения корректности интерполяции, но и навредить. И для мультиков это тоже верно. Видео становится как будто пластилиновым, потому что от одного настоящего кадра к другому изображение притерпевает практически идентичные шаги трансформации чего в естественном ходе событий, даже для мультипликации, не бывает. И эту фигню в принципе не исправить никаким супер-пупер алгоритмом, какую бы лапшу ни вешали маркетологи. А вы просто привыкли, глаз замылился. Я же на протяжении нескольких лет видя такую картинку хочу плюнуть в экран, т.к. на мой взгляд это смотреть не возможно. Такое же отношение возникает и к интерполяции полученной любым другим способом.
от одного настоящего кадра к другому изображение притерпевает практически идентичные шаги трансформации чего в естественном ходе событий, даже для мультипликации, не бывает.
Я как раз вижу что мир состоит из повторения одинаковых шагов. Все ходят, бегают и двигают лицом практически идентично, особенно если это не крупный план. И чаще всего те, кто не привык смотреть доб кадры, говорит что они превращают кино в театр, слишком натурально, и теряется магия. Ощущение что просто мужики ходят по сцене.
И я бы не сказал, что у меня глаз замылился, скорее я всегда сам достраивал видео до реальных и плавных движений, и ни когда не ощущал эту «магию кинематографа». Теперь эту работу делает комп, а я могу чуть больше расслабится.
И да практически любая интерполяция, которую умудрились продать, как коммерческий продукт — работает. Люди так устроены, что любят градиенты и плавные переходы. А ступенчатые функции для нас понятны аналитически, но не приятны эстетически. Мы используем контраст там, где хотим что-то подчеркнуть и выделить, а плавные переходы там, где хотим приятных эмоций.
Показать можно привести на сильно упрощённом примере. Возьмём линейный график и две точки на нём с ординатами 1 и 5. Будем подразумевать что ось абсцисс — количество кадров. Если не учитывать остальные части графика, то интерполяция, например, для трёх промежуточных точек будет линейной, т.е. равномерной, со значениями 2-3-4. С учётом остальной части графика и применением нелинейных алгоритмов интерполяция несколько усложнится, но все равно останется лишь домыслами. В жизни же человек даже ходит не равномерно. Поэтому интересно смотрится, например, когда человек едет на чем-то вроде моноколеса, где движение в общем то равномерное, но даже здесь есть эпизоды старта и остановки с изменением скорости. Эти моменты нельзя исправить даже с учётом соседних кадров. Динамика движения будет иметь чувствительные погрешности, которые наш мозг будет воспринимать с трудом, т.к. это не будет увязываться с нашим опытом динамики на основе законов физики. В реальности между кадрами может произойти что угодно, что как-то влияет на линейность и равномерность движения. Это легко проверить. Нужна камера снимащая реальные 60 к/с. Далее снимаем небольшой ролик где-нибудь в публичном месте с достаточно интенсивным движением людей. Фильтруем каждый второй кадр и получаем видео 30 к/с. Любимым методом интерполируем обратно в 60 к/с. Сравниваем интерполированные кадры с настоящими. Оцениваем разницу. Это будут в принципе два разных видео. Интерполированное будет выглядеть странно и неестественно.
Дело не в повторении шагов, а в динамике. Возьмём опять же простой пример. Махнем рукой. У нас есть замах, движение, торможение. На каждом этапе своя динамика. При интерполяции у нас даже нет точных точек изменения этой динамики. Потому интерполяция будет сглаженной, как бы замыленной. Мозг же гораздо более сложная штука, его интерполяция основана на огромном массиве данных — опыте всей жизни. Никаким алгоритмам и нейронным сеточкам такая точность не будет доступна ещё очень и очень долго.
Мой же мозг, например, отлично видно этот обман и неестественность движений. Создаёт ощутимый дискомфорт.
Плавные переходы, конечно, приятнее, но при этом большинство не видит разницы между реальностью и интерполяцией, думают что так и должно быть. Так же как когда то с энтузиазмом смотрели диски 10-в-1. Так же как с энтузиазмом жрут хотдоги и запивают колой. Приятно? Им, похоже, что да. Правильно? Явно ведь нет. Это к тому что большинство готово идти на поводу у своих приятностей совершенно не учитывая правильность и адекватность путей достижения. Потому так хорошо работает маркетинг из разряда "два ядра — два гига".
А что касается резких смен — в мпеге ведь есть ключевые кадры, их при сжатии вставляют как раз на сцены с резкой сменой кадра. Думаю алгоритмы это учитывают при дорисовке, и если сцены сильно отличаются — то игнорируют их.
Мозг же гораздо более сложная штука, его интерполяция основана на огромном массиве данных — опыте всей жизни
Не понимаю о каком опыте всей жизни идет речь в мультипликации.
Никаким алгоритмам и нейронным сеточкам такая точность не будет доступна ещё очень и очень долго.
Совершенно не очевидный вывод.
Мой же мозг, например, отлично видно этот обман и неестественность движений.
Важно не то, что он его видит, а то, почему он считает это важным. Я наверное могу отличить дорогие духи от дешевых, если мне рассказать как это сделать. Но мне это не станет важным.
Приятно? Им, похоже, что да. Правильно? Явно ведь нет.
Мне не очевидно, почему это не правильно. Если эмоциональный отклик получен. И нет ни каких негативных эффектов, зачем платить больше? Так можно и музыку с винила слушать, кошерную еду покупать только у знакомого мясника, бояться ГМО и не ходить к докторам, там ведь химия!
правильность и адекватность путей достижения
Вообще не понимаю вас. Что не адекватного в просмотре фильмов в плохом качестве, если зритель не ощущает разницы? Что не правильного в интерполяции, если эффект радует глаз?
Вам не радует — больше похоже что проблемы у вас, а не у зрителей.
Кстати, вы не задумывались, что люди смотрят фильмы не только так, как это делаете вы? Мой мозг например работает вообще по другому. У меня картинка разбивается в модель, и я смотрю модель, а не фильм. А часто даже и не смотрю на экран, просто слушаю — разницы особо нет, если перевод многоголосый. Потому вы видите как там рука естественно или не очень делает какой-то замах, а я вижу «герой атакует врага из массовки метательным оружием», и пока я могу понять кто, кого и как атакует — я в целом доволен фильмом. Гладкость кадров просто разгружает мои мозги.
П.С. я не могу отличить какое я кино смотрю 3д или не 3д, буквально через 2 минуты я перестаю замечать различия. Не шучу, я буквально не могу увидеть отличие стерео картинки от обычной картинки. Я настолько привык что эта информация не нужна для просмотра фильмов, что я ее даже не воспринимаю, что-бы не напрягать мозги. И я не слышу музыку в фильмах и не отличаю качество звуковых эффектов. Сцены где ни кто не говорит для меня немые, а все эффекты можно заменить на звук миксера.
Вообще дело не столько в опыте, сколько в инерционности человеческого зрения, потому дискретные события кажутся непрерывными. Ну а опыт позволяет додумывает детали происходящего согласно естественности происходящего.
Пока научились моделировать лишь мозг грызунов, так что до человека ещё очень далеко. Алгоритмы же не обладают такой вариативностью решений какую может обеспечивать нейросеть.
Про важность как-то не понял. Есть например физика походки человека и, если он будет идти с ее нарушением, то это будет бросаться в глаза. Так же как бросается в глаза нефизичность китайской киношной "боевой" хореографии.
Примеры местами странные. В моем же случае негатива с избытком — только вот наблюдал обладателей последствий этого негатива на пляже, противно смотреть. Это было к тому что многие не понимают что правильно и готовы потреблять любую фигню и, да, радоваться.
В принципе пускай эти штуки работают на лету. Моя точка зрения больше связана с тем, чтобы не плодили такое видео и не засирали им сеть. И мои коллеги модераторы пока полностью согласны с этим чтобы не пропускать такой контент на ресурс, хотя возмущенных авторов таких шедевров полученных без особого напряга хватает. Причем они искренне считают что они сделали полезное дело.
У меня проблем нет, нравится кому то жевать Г. — кто я такой чтобы запрещать. Но пропагандировать это не стоит. Иначе эта зараза начнет распространяться.
Да все мы смотрим фильмы одинаково, физиология одна же. А представлять себе процесс каждый может как ему угодно, это лишь фантазия. Как это было в ЛвЧ 3… "снимаю как человек ест гамбургер… трансцендентно...".
Ну, за вас можно только порадоваться. Вы идеальный потребитель, потому что вам все равно. А кого-то, например, может раздражать когда фальшивят в песнях и не попадают в ноты. Большинство этого не слышит и рады себе в неведении. Только это не означает, что стоит на это забить и пускать к микрофону любую бездарность. Иначе в этом дилетантстве со временем просто утонем.
Пока научились моделировать лишь мозг грызунов,
Зрение не люди изобрели, и даже не грызуны. Думаю на додумывание нужна очень малая доля мозга даже грызуна. Не забывайте что у грызуна очень много функций, кроме зрения.
Так же как бросается в глаза нефизичность китайской киношной «боевой» хореографии.
Она бросается первые два фильма, потом просто привыкаешь и в мозгу «происходит китайская боевая хореография ведущая к победе\поражению», т.к. у них там сразу ясно кто победит.
противно смотреть
Похоже на вашу проблему, а не на их.
Причем они искренне считают что они сделали полезное дело.
И я так считаю, т.к. мне надо детям на телеке включать мультики, и без предварительной подготовки. А современные мультики задирают планку графики.
Иначе эта зараза начнет распространяться.
А кто вы такой, чтоб решать чему можно распространятся, а чему нет?
Иначе в этом дилетантстве со временем просто утонем.
Ну и что? Почему все должны переплачивать за ваше «веденье»? Люди имеют право потреблять то, что им хочется потреблять. Ни кто не может запретить пускать к микрофону бездарность. Судьбу решает рынок, а не вы и ваши убеждения.
В общем в очередной раз радуюсь что не живу в РФ. Тоталитаризм мышления на бытовом уровне, как бы мягко сказать, удивляет.
Как же просто по вашему мнению устроен человеческий мозг… Об этом, похоже, тут вообще спорить будет бессмысленно.
Да, к этому привыкаешь, но это все равно хоть и обманка, но все кадры реальные. Наверное, не совсем корректный пример был.
Все таки это их проблема, а мне просто противно смотреть. При том что в отеле полно качественной еды, а эти телеса жрут всякую дрянь. Свои же организмы гробят, а я могу и отвернуться.
Проблема с этими "хорошими" делами несколько глубже, но её бесполезно объяснять тому, кто никогда не был модератором на подобном ресурсе и не сталкивался со всем тем маразмом, который исходит от пользователей в их стремлениях.
Телек ваш, полагаю, и так снабжён одной из уплавнялок. Следовательно и предварительной подготовки не требуется.
Делайте что хотите в своей неРФ. Слушайте бездарностей если вам так хочется. Радуйтесь своей толерантности. Кто ж вам запретит то. Мне вообще по барабану кто и что делает, главное чтоб не забывали что их права заканчиваются ровно там где начинаются мои.
Уплавнялка у меня есть, а вот повышение разрешения и четкости нейронными сетями — нету. И я не хочу зависеть от вашего мнения, на тему какие именно переработки видео можно заливать на ютуб.
Да, со стороны это порой выглядит как маразм, но чтобы понять эти вымученные решения нужно смотреть именно с позиции модераторов. Это очень не просто найти консенсус, а угодить всем в принципе не реально. Надеюсь, это и так понятно. Потому, да, модераторы берут на себя право определять что да как. Все таки туда обычно не за красивые глаза попадают и мнение их чего-то да стоит. Просто надо видеть альтернативу каждому решению, чтобы понять что это не вариант.
Обязательно пересмотрю в вашем варианте. Один из моих любимых мультиков. Я и дочь Алисой назвал:)
Кстати, возникла интересная идея.
Комиксы. Раскрашивать.
Художникам часто не до того — им уж очень много картинок надо нарисовать. А смотреть ч\б в 21 веке как то не торт. А если нейросеть за пару часов все раскрасит…
Раз https://paintschainer.preferred.tech/index_en.html
И два (раньше был сайт, но теперь отключен) https://github.com/lllyasviel/style2paints
Кстати, обидно, что художники сами не раскрашивают таким способом. Может не знают?
Ха! Но это самому нужно быть художником. Как минимум быть способным цвет правильный выбрать.В версии на сайте раньше можно было выбрать один из предустановленных наборов цветов. Но она, как уже написали, сгинула.
Кстати, обидно, что художники сами не раскрашивают таким способом.Раскрашивают, но с другой целью: смотрят сочетание разных цветовых схем по-быстрому, чтобы потом так раскрасить вручную.
Но ответ по Topaz вас не обрадует: в моих тестах, он обрабатывал 38 секунд видео FullHD -> 4K за… 7680 секунд. То есть за 2 с лишним часа. Впрочем, если вас устроит апскейл до FullHD и с сетью низкого качества, то будет быстрее.
Это на одной 1080ti.
Очень странное замыливание на вполне себе прямых линиях на 18:49 на ногах. Учитывая разницу от кадра к кадру и даже на одном кадре на разных ботинках — кажется ещё есть куда сетку тренировать.
-Вы таки знаете, но в шляпе получилось не очень. Вы не могли бы сделать без шляпы?
-Без шляпы… Тут виден цвет волос. А на какую сторону ваш сын зачесывает волосы?
-Шо за странные вопросы вы задаете? Снимите шляпу и вы сами все увидите!
Но вот блок «как это делалось» — какой-то странный. Детально расписаны элементарные шаги о том, как разобрать видео по кадрам и как собрать обратно увеличенные кадры, а как провести сам пересчет кадров — просто ссылка на инструмент. При том, что смысл статьи именно в этом инструменте и разобраться с ним значительно сложнее чем скачать видео с youtube и разобрать/собрать (что кстати можно сделать любым видеоредактором).
На мой взгляд, тут логично или просто дать ссылки на инструменты, чтобы человек сам гуглил и разбирался, или, разобрать-таки процесс апскейла кадров. Вот такую статью лично я бы очень хотел прочесть.
Да, и итоговое видео здорово бы загрузить на какой-то файлообменник, чтобы youtube не портил картинку еще раз.
На данный момент и так ясно, что результат работы хороших классических алгоритмов и нейросетей — не отличается кардинально. Вероятно, на каких-то изображениях нейросети дадут лучший результат, на каких-то — худший. И вероятно речь будет идти о не особо значительных отличиях.
Предположим, в результате обширнейшего и подробнейшего тестирования, в номинации «аниме» победит Topaz. Значит ли это, что правило «Аниме апскель Топазом» — оправдано и незыблемо? Нет. Главное и огромное отличие нейросетей от классических алгоритмов — их потенциал. Невозможно аналитически восстановить полностью утраченные детали изображения. Но нейросети это делать не нужно, потому что зрителю очень часто важны не сами детали, а их наличие.
Если я вижу волосы персонажа — мне не важно, как именно лежит каждый волосок, мне важно общее ощущение реализма. А для этого нужны «дополнительные данные» (о том, как выглядят волосы вблизи) и из распространенных инструментов, учитывать эти дополнительные данные умеют только нейросети.
Поэтому неважно кто сегодня победит в рейтинге, важно, что «на длинной дистанции», победа так или иначе придет к инструменту на основе нейросети (или чем-то подобном). Поэтому куда важнее научиться работать с подобными инструментами, понимать принципы управления и т.п. Практическая статья на эту тему с подробными примерами — могла бы кого-то направить в верном направлении (например, меня), а не только обозначить сравнительный срез текущих достижений в области апскейла.
p.s. Вопрос механики сравнительного анализа алгоритмов на самом деле тоже открытый. Кажется, что достаточно уменьшить качественные изображения, вернуть им прежний размер с помощью разных алгоритмов и попиксельно сравнить с исходником — это верный подход. Но этот принцип не учитывает особенности нейросетей. Их задача, как я писал выше, по сути, не «восстановить детали», а «дорисовать что-то похожее на отсутствующие детали». Четкая текстура с несколько смещенным и/или изменённым рисунком — субъективно гораздо лучше размытой, но попиксельное сравнение может дать ей более низкую оценку. Получается, что автоматизированный текст — не даст гарантированную оценку потребительских свойств алгоритма. Не поставит «точку в споре».
Альтернатива — массовый опрос пользователей, мог бы помочь, но на сегодня отличия в результате работы алгоритмов незначительны, опрос может выродиться в классическую задачу про нос императора, и опять-таки не дать однозначного результата.
p.s.2. Ни в коем случае не отговариваю от написания упомянутой статьи. Просто хотел обозначить свое IMHO по данному вопросу.
Для полной реставрации нужно выровнять кадры по яркости, пройтись «дешейкером». Ну и потом Smooth Video Pack — до 60фпс — для полного совершенства.
«Магия кино» заключается в том числе в малой частоте кадров.
Какое ещё совершенство? Промежуточные кадры — искусственная фигня далёкая от истины.
Конечно, алгоритмы дорисовки этих кадров часто ошибаются. Но я без них уже не могу. Замыленная «кинематографичность» — или, наоборот, дерганность 15-кадровой анимации — не для меня.
24 кадра может и не достаточно, но явно не стоит исправлять одну фигню другой. Алгоритмы же ошибаются всегда так как, не располагая достаточной информацией об ускорении движений между кадрами, создают практически равномерное перемещение в каждом выдуманном кадре, а иногда вообще гонят лажу результатом которой является какой-то сюрреализм. И в этом точно нет ничего похожего на истину, даже жалкого подобия. Но многие обманываться рады.
Отзывы там положительные (и даже благодарные), так что на вопрос «Надо ли это кому-то? Или классику лучше не трогать?» — думаю надо, и как раз для классики, если результат будет хорошим.
А вообще то в сети есть «оригинал» с пастельными тонами а не монохромными заливками текстур.
Но судя по всему нейросетка просто хорошо убирает сглаживание, ( ну или не очень хорошо (см. лицо Алисы, на тех кадрах где она не крупным планом) ). Боюсь, для зашумленной картинки это вряд ли сработает.
А что если без нейронок?
Если нарезать мультфильм на сцены. Т.е. куски когда происходит только плавная смена плана? Или хотя бы режем по I-фреймам.
Для каждого такого куска в YUV делаем ТРЕХМЕРНОЕ преобразование Фурье или вейвлет для Y компоненты. Третьей координатой у нас является время, точнее, номер кадра. Результат фильтруем (ту гугель «повышение резкости изображение FFT»). Таким образом, как минимум, можно избавиться от дерганья изображения между кадрами.
Вангую что хорошие результаты даст преобразование Хаара.
Чтобы пост не потерялся, добавьте пожалуйста хабы Машинное обучение и Работа с видео.
Прошло 3 года, и мне на ютуб канал кинули страйк Газпром Медиа , за нарушение авторских прав, из-за моего ремастера любимого мульта Тайна третьей планеты с помощью нейронки. Я изначально отказался от всех доходов с рекламы в пользу правообладателя, но это никого не волнует.
«Тайна третьей планеты» с улучшенной нейросетями графикой