Pull to refresh
9
48.1

AI first

Send message

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

Level of difficultyMedium
Reading time13 min
Views1.7K

Меня давно интересовала тема апскейла изображений, отдельно - апскейла старых видео. Одно из первых решений, которое попалось в руки несколько лет назад - waifu2x (https://github.com/nagadomi/waifu2x). Но эта нейронка больше подходила для апскейла аниме (насколько я помню на них она и тренировалась). То есть, waifu2x подходила для довольно простых изображений без избытка деталей и сложности текстур.

Затем я поизучал ESRGAN (https://github.com/xinntao/ESRGAN) и Real-ESRGAN (https://github.com/xinntao/Real-ESRGAN). Довольно неплохие модельки, вполне годятся для апскейла изображений, но очень часто заметна синтетичность, особенно в сложных сценах, например когда на изображении есть деревья. Я даже попробовал дотренировать Real-ESRGAN, к слову это делать не сложно, на их гитхабе есть скрипты и инструкции (https://github.com/xinntao/Real-ESRGAN/blob/master/docs/Training.md), но пока дособирал свой датасет для тренировки на глаза попалась другая модель - SwinIR (https://github.com/JingyunLiang/SwinIR), потестировав которую понял - она покрывает мои текущие потребности, если не полностью, то по меньшей мере процентов на 80%. А потребности были - заапскейлить несколько старых фильмов, и чтобы после апскейла фильм смотрелся как фильм, а не как пластилиновый театр. В целом все получилось. Именно об этом эта статья.

Апскейлить будем фильм "Пираты Силиконовой долины" (1999г, США). Он повествует о появлении домашнего ПК и становлении компаний Apple и Microsoft. Довольно интересный фильм с бунтарским духом той эпохи. Главные герои - молодые Стив Джобс, Стив Возняк, Билл Гейтс и другие участники "революции домашних ПК". Кстати, апскейлить фильм будем конечно же на домашнем ПК.

Читать дальше →

Сколько стоит «Спасибо» для Сэма Альтмана

Level of difficultyEasy
Reading time3 min
Views2.9K

Недавно в X (Твиттер) один пользователь задался вопросом - сколько денег OpenAI потеряла из-за того, что люди говорят своим LLM спасибо и пожалуйста (не дословно). Сэм Альтман ответил на это: "tens of millions of dollars well spent--you never know", что можно перевести как: "десятки миллионов долларов были потрачены не зря, никогда не знаешь [на чем выиграешь].

Сложно судить, как здесь происходит на самом деле. В первую голову пришло, что такие простые завершающие сообщения можно обрабатывать отдельно. Делают ли это OpenAIAntropic и тд не известно.

Я решил провести небольшой поверхностный тест на реальных диалогах. В качестве подопытных выбирал рассуждающие модели, как наиболее ресурсозатратные.

Читать дальше →

Визуальное сравнение моделей генерации карт глубин Depth-Anything-V2 (Large, Base, Small)

Level of difficultyEasy
Reading time4 min
Views634

Это статья — обзор разных моделей Depth-Anything-V2, приложение к предыдущей статье Как сделать 3D версию любого фильма на примере StarWars4 (DepthAnythingV2 + Parallax). Здесь мы сравним качество полученных карт глубин для всех доступных моделей — Large, Base, Small. Будет много картинок и мало текста.

Для наглядности, карты глубин раскрасим в цвет (COLORMAP_JET). Со шкалой от темно-красного (ближние объекты) до темно-синего (дальние объекты).

Кратко по моделям:
Large: 335.3M параметров, размер ~1280Mb.
Base: 97.5M параметров, размер ~372Mb.
Small: 24.8M параметров, размер ~95Mb.

Читать дальше →

Как сделать 3D версию любого фильма на примере StarWars4 (DepthAnythingV2 + Parallax)

Level of difficultyMedium
Reading time23 min
Views3K

Заголовок не совсем корректен, потому, что 3D версию можно сделать любого 2D материала: фильма, мультфильма, своих личных видео/фото и тд, да хоть скриншот с рабочего стола можно сделать в 3D. Но в данном материале мы будем делать 3D версию фильма.

В качестве материала возьмем Звездные войны. Эпизод IV: Новая надежда (Star Wars. Episode IV: A New Hope, 1977).

Читать дальше →

Information

Rating
171-st
Registered
Activity

Specialization

ML Engineer, LLM, RAG, DS, CV
Python
Linux
Database