Comments / Profile of peterplv / Habr

Peter@peterplv

AI first

0,1

Rating

Subscribers

ProfileArticles5PostsNewsComments81

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

peterplv Apr 28 2025 at 15:48

источник правды для вобов - .ifo, а не сами вобы

Прямо сейчас посмотрел ifo и затем vob. Первый все наврал, и даже vob наврал меньше.

В данном случае диск кривой, я к этому склоняюсь. До этого скейлил другой диск, никаких проблем не было.

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

peterplv Apr 28 2025 at 13:53

Прикрепил ваши комментарии к статье, может быть кому-то еще будут полезны. Спасибо большое.

Увеличь это! Современное увеличение разрешения в 2023

peterplv Apr 28 2025 at 13:06

Добрый день! Чуть дополню материал своей недавней статьей здесь.

Там я увеличивал фильм с помощью модели SwinIR, которую вы здесь также вскользь упомянули. Получилось вполне прилично, и самое главное - без артефактов, вроде появления лица вместо глаза )

До этого пробовал делать то же самое через Real-ESRGAN, не понравилось, очень заметна синтетичность, особенно на сильно замыленных видео/изображениях. Но Real-ESRGAN позволяет легко дотренировать модель, хотя руки так и не дошли (муторно собирать и подготавливать датасет). Зато базовый SwinIR вполне прилично скейлит из коробки, хоть и не идеально.

Какие косяки сразу бросились в глаза - часто деревья и траву сильно меняет, прямо видно как рисует отсебятину. Там в статье есть несколько скриншотов. Но в целом, для апскейла видео, очень неплохо.

В общем, если будет интересно, можете заглянуть )

Увеличь это! Современное увеличение разрешения в 2023

peterplv Apr 28 2025 at 12:54

НЛО это скорее исключение из опытных лабораторий ) Но сама возможность их появления на "улучшенных" изображениях конечно же настрораживает.

Насчет видео, можете почитать мою статью здесь:

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

Там я апскейлил фильм, получилось вполне годно, и никаких приведений и пришельцев )

Апскейл, который смог

peterplv Apr 28 2025 at 12:40

Написал статью по теме, может будет интересно:

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

Я использовал модель SwinIR, а до неё описываемый здесь Real-ESRGAN. SwinIR качественнее, меньше пластилиновости, которая очень заметна у Real-ESRGAN. Пока не идеально, но вполне годно, уже несколько фильмов восстановил, смотреть приятно, очень близко к реальному HD

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

peterplv Apr 28 2025 at 10:31

Спасибо большое!

с помощью фреймсервера (avisynth или питоновский vapoursynth), это стандартный способ для "видео-в-видео". ffmpeg принимает на вход скрипты этих фреймсерверов (они открывают видео, на лету обрабатывают его и отдают ffmpeg'у, он кодирует)

Один кадр обрабатывается в несколько секунд, все кадры этого фильма в районе 5 суток. Разве тут как-то поможет фреймсервер? Основной потребитель ресурсов - именно работа модели с кадром, все прочие вещи, такие как загрузка и сохранение фреймов, их подготовка - там доли секунд.

Кадр на самом деле 720x480 (Storage AR = 720/480 = 3/2), но с вытянутыми вверх пикселями (Pixel AR = 8/9) и физически на экране он должен иметь соотношение сторон Display AR = Storage AR Pixel AR = 3/2 8/9 = 4/3 = 640/480 = 720/540. Лучше оквадрачивать кадр до 720x540 вместо 640x480, чтобы 11% горизонтального разрешения не терять.

Вот тут я не уверен точно. Несколькими способами я получил фактическое разрешение 640x480. Тут получается, что оба 640x480 и 720x540 нестандартные разрешения, поэтому тем более сложно понять какое оно на самом деле.

И, опять таки, если брать 720x540, тогда в фреймах будут вытянутые по вертикали пиксели + в теории точные по горизонтали (я бы вообще не верил прописанным параметрам диска). Нужно ли это, если мы затем передаем кадр на апскейл?

В общем, еще раз спасибо за полезную информацию. Я все-таки надеюсь этот диск был редким... редчайшим исключением, и в дальнейшем не придется заниматься подобной эквилибристикой (я с ним намучался изрядно).

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

peterplv Apr 28 2025 at 10:00

По отдельным, да, никаких существенных проблем здесь не вижу

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

peterplv Apr 28 2025 at 09:53

Нет, я проверял отдельные вобы также, причем каждый отдельно, в том числе смотрел их в hex-редакторе, там была прописана не верная информация в служебных битах.

Нет никаких проблем в склейке вобов, мы ведь затем просто распаковываем их на кадры, не более. С другими дисками проблем не было.

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

peterplv Apr 27 2025 at 08:54

Спасибо большое, надо будет ознакомиться.

Есть возможность обрабатывать напрямую видео-в-видео

А вы не описывали это? Например, в этой статье я написал какие грабли могут встретиться с DVD VOB (MPEG-2), там и FPS может сбиться и ширина кадра. Интересно какое решение вы нашли исходя из этого.

Сколько стоит «Спасибо» для Сэма Альтмана

peterplv Apr 23 2025 at 12:52

За "автодополнением" стоит несколько десятков слоев нейросети, в которых сформированы обобщения и абстракции из прочитанных данных. Когда модель автодополняет, она использует эти обобщения и абстракции. Чем это не мыслительный процесс? )

Сколько стоит «Спасибо» для Сэма Альтмана

peterplv Apr 22 2025 at 09:23

Спасибо за статью! Выводы там:

"наши исследования показывают, что мы не всегда можем полагаться на то, что они говорят нам о своих рассуждениях", да и сам заголовок:

"Reasoning models don't always say what they think"

имитация для пользователя

Не имитация, а скорее не весь мыслительный процесс выводится

Сколько стоит «Спасибо» для Сэма Альтмана

peterplv Apr 21 2025 at 19:25

Я переводил эту фразу в нескольких переводчиках и нескольких LLM, везде перевод был как в начале статьи. Сам я не уверен какой перевод правильный, оба варианта кажутся годными. Спасибо за уточнение, добавлю оба варианта в статью.

Как сделать 3D версию любого фильма на примере StarWars4 (DepthAnythingV2 + Parallax)

peterplv Apr 21 2025 at 14:19

для корректной работы надо туда подавать не насколько сдвинется пиксель в точке x,y а обратную функцию - откуда нужно взять точку чтоб она пришла в x,y.

Сделал такую реализацию, но особо ничего не изменилось. Возможно немного четче стало изображение, но это скорее особенности сглаживания при перемещениях разними способами. Скорость обработки, кстати, тоже без сильных изменений (кажется столько же времени и занимает). Зато появились дополнительные вещи, которые приходится учитывать, чего не нужно было делать в изначальной реализации. Еще просмотрю несколько видео, может быть что-то больше увижу по разнице.

Сколько стоит «Спасибо» для Сэма Альтмана

peterplv Apr 21 2025 at 12:36

не настоящие рассуждения, а чисто как генерация текста подразвлечь юзера

Но почему же, рассуждения выглядят вполне адекватно. Рассуждающие модели обучались примерно на таких же внутренних диалогах, после которых выдается финальный ответ

Как я создал полностью автоматизированное онлайн радио с AI ведущими и музыкой

peterplv Apr 17 2025 at 11:31

Спасибо за статью, потрясающе.

Еще бы написали инфраструктурные детали, как это все у вас работает согласовано

Как я создал полностью автоматизированное онлайн радио с AI ведущими и музыкой

peterplv Apr 17 2025 at 11:27

XTTS2 неплох, но очень прожорлив. Еще там часто артефакты звука - он вставляет слова (скорее частички) которых нет в тексте, это не критично, но для конечного продукта вряд ли такое сгодится. Еще, помню, он длинные тексты не принимал, их надо было разбивать на чанки, особенности архитектуры (там контекстное окно как у LLM). В общем, для своих нужд использовать можно, но для продукта вроде этого уже вряд ли получится.

Как обучить LLM выбирать правильные варианты кода, сгенерированные другой моделью. Разбор от Тайного редактора

peterplv Apr 17 2025 at 10:34

А где разбор?

Помощник читателя: визуализируем сюжет

peterplv Apr 16 2025 at 19:37

Спасибо за статью! Интересная идея.

С локальными решениями добиться хорошего результата порою сложно. Не говоря уже о том, что в их контекстное окно с трудом влезает даже малая проза

Не вполне понятно, вы ведь разбиваете текст на чанки, зачем тут большое контекстное окно?

Как сделать 3D версию любого фильма на примере StarWars4 (DepthAnythingV2 + Parallax)

peterplv Apr 15 2025 at 11:20

См выше про stereo-blind и большой подробный текст Почему от 3D болит голова / Часть 4: Параллакс. Там про это подробно)

Нет-нет, речь не про боли, усталость и тд. Многим людям просто этого не надо. Возможно "дискомфорт" от надевания очков перевешивает добавленную ценность 3D просмотра. Вот банально так, насколько я заметил. Просмотр 3D (в очках), это целый ритуал. Тут нужно надеть очки, расположиться плюс-минус прямо перед телевизором; очки сковывают (VR-шлем тем более), они как-бы изолируют тебя от окружающего мира, очки запотевают и тд. Многим это не удобно, тем более если собралась компания посмотреть кино и пообщаться одновременно. Мне кажется это большая проблема (скорее данность), чем головокружение и усталость.

решаемого. Причем в ближайший десяток лет (любимыми нейросетями)

С одной стороны да, появление в свободном доступе нейронок, вроде Depth-Anything, это просто праздник, лично я даже мечтать не мог, что буду синтезировать 3D видео на своем домашнем ПК. А с другой стороны... вот такая информация недавно попалась:

Reality Labs, подразделение Цукерберга занимающееся AR/VR-устройствами и метавселенной, с 2020 года накопило операционных убытков на $58 млрд

Ну не хочет массовая аудитория идти в шлем )

Как сделать 3D версию любого фильма на примере StarWars4 (DepthAnythingV2 + Parallax)

peterplv Apr 15 2025 at 08:28

Интересные опыты и наблюдения. Могу лишь добавить, что большинство людей, к сожалению, вообще ровно относится к объему. Среди моих знакомых и близких практически 90% абсолютно не интересно 3D. Некоторые из них его как-будто не ощущают в принципе, другие ощущают, понимают, но после 1 минуты просмотра снимают очки и смотрят без них. То есть, многим людям это в принципе не нужно, достаточно 2D картинки. Вероятно поэтому так быстро и заглохла эпоха 3D, а Цукерберг теряет миллиарды $ на попытках раскачать тему с VR. К сожалению это пока так и остается нишевым продуктом, для небольшого процента людей.

1 2

4 5

Information

Specialization