Pull to refresh
14

AI first

0,1
Rating
3
Subscribers
Send message

источник правды для вобов - .ifo, а не сами вобы

Прямо сейчас посмотрел ifo и затем vob. Первый все наврал, и даже vob наврал меньше.

В данном случае диск кривой, я к этому склоняюсь. До этого скейлил другой диск, никаких проблем не было.

Прикрепил ваши комментарии к статье, может быть кому-то еще будут полезны. Спасибо большое.

Добрый день! Чуть дополню материал своей недавней статьей здесь.

Там я увеличивал фильм с помощью модели SwinIR, которую вы здесь также вскользь упомянули. Получилось вполне прилично, и самое главное - без артефактов, вроде появления лица вместо глаза )

До этого пробовал делать то же самое через Real-ESRGAN, не понравилось, очень заметна синтетичность, особенно на сильно замыленных видео/изображениях. Но Real-ESRGAN позволяет легко дотренировать модель, хотя руки так и не дошли (муторно собирать и подготавливать датасет). Зато базовый SwinIR вполне прилично скейлит из коробки, хоть и не идеально.

Какие косяки сразу бросились в глаза - часто деревья и траву сильно меняет, прямо видно как рисует отсебятину. Там в статье есть несколько скриншотов. Но в целом, для апскейла видео, очень неплохо.

В общем, если будет интересно, можете заглянуть )

НЛО это скорее исключение из опытных лабораторий ) Но сама возможность их появления на "улучшенных" изображениях конечно же настрораживает.

Насчет видео, можете почитать мою статью здесь:

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

Там я апскейлил фильм, получилось вполне годно, и никаких приведений и пришельцев )

Написал статью по теме, может будет интересно:

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

Я использовал модель SwinIR, а до неё описываемый здесь Real-ESRGAN. SwinIR качественнее, меньше пластилиновости, которая очень заметна у Real-ESRGAN. Пока не идеально, но вполне годно, уже несколько фильмов восстановил, смотреть приятно, очень близко к реальному HD

Спасибо большое!

с помощью фреймсервера (avisynth или питоновский vapoursynth), это стандартный способ для "видео-в-видео". ffmpeg принимает на вход скрипты этих фреймсерверов (они открывают видео, на лету обрабатывают его и отдают ffmpeg'у, он кодирует)

Один кадр обрабатывается в несколько секунд, все кадры этого фильма в районе 5 суток. Разве тут как-то поможет фреймсервер? Основной потребитель ресурсов - именно работа модели с кадром, все прочие вещи, такие как загрузка и сохранение фреймов, их подготовка - там доли секунд.

Кадр на самом деле 720x480 (Storage AR = 720/480 = 3/2), но с вытянутыми вверх пикселями (Pixel AR = 8/9) и физически на экране он должен иметь соотношение сторон Display AR = Storage AR  Pixel AR = 3/2  8/9 = 4/3 = 640/480 = 720/540. Лучше оквадрачивать кадр до 720x540 вместо 640x480, чтобы 11% горизонтального разрешения не терять.

Вот тут я не уверен точно. Несколькими способами я получил фактическое разрешение 640x480. Тут получается, что оба 640x480 и 720x540 нестандартные разрешения, поэтому тем более сложно понять какое оно на самом деле.

И, опять таки, если брать 720x540, тогда в фреймах будут вытянутые по вертикали пиксели + в теории точные по горизонтали (я бы вообще не верил прописанным параметрам диска). Нужно ли это, если мы затем передаем кадр на апскейл?

В общем, еще раз спасибо за полезную информацию. Я все-таки надеюсь этот диск был редким... редчайшим исключением, и в дальнейшем не придется заниматься подобной эквилибристикой (я с ним намучался изрядно).

По отдельным, да, никаких существенных проблем здесь не вижу

Нет, я проверял отдельные вобы также, причем каждый отдельно, в том числе смотрел их в hex-редакторе, там была прописана не верная информация в служебных битах.

Нет никаких проблем в склейке вобов, мы ведь затем просто распаковываем их на кадры, не более. С другими дисками проблем не было.

Спасибо большое, надо будет ознакомиться.

Есть возможность обрабатывать напрямую видео-в-видео

А вы не описывали это? Например, в этой статье я написал какие грабли могут встретиться с DVD VOB (MPEG-2), там и FPS может сбиться и ширина кадра. Интересно какое решение вы нашли исходя из этого.

За "автодополнением" стоит несколько десятков слоев нейросети, в которых сформированы обобщения и абстракции из прочитанных данных. Когда модель автодополняет, она использует эти обобщения и абстракции. Чем это не мыслительный процесс? )

Спасибо за статью! Выводы там:

"наши исследования показывают, что мы не всегда можем полагаться на то, что они говорят нам о своих рассуждениях", да и сам заголовок:

"Reasoning models don't always say what they think"

имитация для пользователя

Не имитация, а скорее не весь мыслительный процесс выводится

Я переводил эту фразу в нескольких переводчиках и нескольких LLM, везде перевод был как в начале статьи. Сам я не уверен какой перевод правильный, оба варианта кажутся годными. Спасибо за уточнение, добавлю оба варианта в статью.

для корректной работы надо туда подавать не насколько сдвинется пиксель в точке x,y а обратную функцию - откуда нужно взять точку чтоб она пришла в x,y.

Сделал такую реализацию, но особо ничего не изменилось. Возможно немного четче стало изображение, но это скорее особенности сглаживания при перемещениях разними способами. Скорость обработки, кстати, тоже без сильных изменений (кажется столько же времени и занимает). Зато появились дополнительные вещи, которые приходится учитывать, чего не нужно было делать в изначальной реализации. Еще просмотрю несколько видео, может быть что-то больше увижу по разнице.

не настоящие рассуждения, а чисто как генерация текста подразвлечь юзера

Но почему же, рассуждения выглядят вполне адекватно. Рассуждающие модели обучались примерно на таких же внутренних диалогах, после которых выдается финальный ответ

Спасибо за статью, потрясающе.

Еще бы написали инфраструктурные детали, как это все у вас работает согласовано

XTTS2 неплох, но очень прожорлив. Еще там часто артефакты звука - он вставляет слова (скорее частички) которых нет в тексте, это не критично, но для конечного продукта вряд ли такое сгодится. Еще, помню, он длинные тексты не принимал, их надо было разбивать на чанки, особенности архитектуры (там контекстное окно как у LLM). В общем, для своих нужд использовать можно, но для продукта вроде этого уже вряд ли получится.

Спасибо за статью! Интересная идея.

С локальными решениями добиться хорошего результата порою сложно. Не говоря уже о том, что в их контекстное окно с трудом влезает даже малая проза

Не вполне понятно, вы ведь разбиваете текст на чанки, зачем тут большое контекстное окно?

См выше про stereo-blind и большой подробный текст Почему от 3D болит голова / Часть 4: Параллакс. Там про это подробно)

Нет-нет, речь не про боли, усталость и тд. Многим людям просто этого не надо. Возможно "дискомфорт" от надевания очков перевешивает добавленную ценность 3D просмотра. Вот банально так, насколько я заметил. Просмотр 3D (в очках), это целый ритуал. Тут нужно надеть очки, расположиться плюс-минус прямо перед телевизором; очки сковывают (VR-шлем тем более), они как-бы изолируют тебя от окружающего мира, очки запотевают и тд. Многим это не удобно, тем более если собралась компания посмотреть кино и пообщаться одновременно. Мне кажется это большая проблема (скорее данность), чем головокружение и усталость.

решаемого. Причем в ближайший десяток лет (любимыми нейросетями)

С одной стороны да, появление в свободном доступе нейронок, вроде Depth-Anything, это просто праздник, лично я даже мечтать не мог, что буду синтезировать 3D видео на своем домашнем ПК. А с другой стороны... вот такая информация недавно попалась:

Reality Labs, подразделение Цукерберга занимающееся AR/VR-устройствами и метавселенной, с 2020 года накопило операционных убытков на $58 млрд

Ну не хочет массовая аудитория идти в шлем )

Интересные опыты и наблюдения. Могу лишь добавить, что большинство людей, к сожалению, вообще ровно относится к объему. Среди моих знакомых и близких практически 90% абсолютно не интересно 3D. Некоторые из них его как-будто не ощущают в принципе, другие ощущают, понимают, но после 1 минуты просмотра снимают очки и смотрят без них. То есть, многим людям это в принципе не нужно, достаточно 2D картинки. Вероятно поэтому так быстро и заглохла эпоха 3D, а Цукерберг теряет миллиарды $ на попытках раскачать тему с VR. К сожалению это пока так и остается нишевым продуктом, для небольшого процента людей.

Information

Rating
3,861-st
Registered
Activity

Specialization

ML разработчик, LLM, RAG, DS, CV
Python
Linux
Базы данных