Хм, у меня в принципе всё каталогизировано по папкам, но я на данный момент далеко от ПК. Отпишу и закреплю в отдельном комментарии информацию сразу, как будет возможность сегодня.
В плане развития - действительно, не заметить гигантский рост практически каждые полгода, - невозможно. Но и статья не является сугубо критикой, а описанием моего опыта и мыслей в текущей фазе развития ИИ, так что на пьедестал "технократа" я не претендую, как и вы)
Так gpt 5.3 codex который использовался к поздним этапам, и вовсе удивлял меня тем, насколько быстро и умно, он работал в любой сфере разработки данной программы. Да даже новый Composer удивляет (или что там на режиме auto в Cursor стоит) - уровень от предыдущей итерации вырос с "ну ладно, можешь цифорки в виджет кнопки подправить, чтобы верстка крупнее стала" до "ты очень долго думаешь, но твои решения действительно работают в ~70% случаев, даже в ядре проекта и краевых случаях".
А это кстати, один из парадоксальных моментов - начал я с имеющегося примера MVP архитектуры, где уже реализованы механизмы смены тем, языка, логика создания стилей , но не сильно это помогло. По итогу архитектуру пришлось докручивать где-то в середине разработки
Да, согласен. У меня в основном все вайбкод проекты как раз таки сталкивались с проблемой, из-за такого "простого" запроса на какую-то фичу. В Improve-ImgSLI основной движок рендера картинки пережил больше 3х этапов полного переосмысления, когда естественным образом хотелось добавить новую функциональность или улучшить существующую.
Как по мне, в случае вайбкодинга, ещё больше больше обостряется потребность, думать на 3 шага вперёд, чтобы не утонуть в переделках "под корень". Промпт не как: "я хочу, чтобы между картинками был слайдер", а "мне нужен механизм отрисовки схожий с GIMP, мы накладываем сплиттер следующим слоем, а картинки делаем текстурами. Используем относительные координаты чтобы, это было масштабируемо, а также по возможности логируем все объекты на сцене"
Не могу не согласиться, что косяк с мощностью нейросети есть, но если посмотреть с другой стороны - после проделанной работы осталась программа для генерации датасетов, которая не зависит от текущих ограничений, так что может когда-нибудь в другой раз, но у меня выйдет обучить что-то на уровне больших решений) А так самые главные результаты, которые для меня здесь есть - Antilines и RGB модели
Хоть я и не являюсь сторонником зерна на видео, но объективно детализация страдает по нынешним результатам
Тогда речь скорее идёт о диффузионных апскейлерах и кластер-апскейлерах, как, например, Starlight от Topaz. На словах - это, конечно, интересно, но на деле для этого нужен просто огромный R&D отдел плюс копаться в разработках китайцев на arXiv
Да, но обучение такой модели - это кратно сложнее, нежели то, с чем я уже был знаком (ESRGAN compact). И я бы хотел всё же, чтобы мой эксперимент получил некоторую распространенность, и ESRGAN для этого отлично подходит, так как абсолютное большинство GUI умеет работать с данной архитектурой
Для целлулоидной анимации, как мне кажется, надо искать путь отделять фон от нарисованного на целлулоиде и применять разные фильтры к ним соответственно
Если я правильно понял, то вы говорите об оригинальных фреймах, с которых снимали плёнку, но это скорее абстрактное рассуждение, ибо все они либо лежат в архивах под семью печатями, либо уже давно утеряны/сгорели/испортились. Например, у MGM раза 2 с лишним горели архивы».
Русская озвучка не имеет версии без смеха, так что она и использовалась. Утерянный SFX не брался из старых американских ТВ записей из-за низкого качества звука(vhs запись определенно хуже чем запись на диск в нулевых-десятых через более современные стандарты форматы хранения медиа и вещания) и потому что это банально значительно дольше чем погуглить в гугл и порезать частоты и покрутить эквалайзер.
Сначала бралась английская и русская дорожка, обое со смехом:
Подгонка под нужную развёртку кадров у русскую дорожки
Нарезка сегментов где должна была быть реклама в русской дорожке и помещение по соответствующим позициям от англ дорожки с свежей реставрации
Индивидуальная подгонка каждого из 5-6 сегментов под соответствующие сегменты
Далее работа с софтом на основе полученной русской дорожки:
Прокатка через UVR для создания версии только с аранжировкой
То же самое через Izotope RX 10/11
Прогон полной русской аудиодорожки через spectralayers через 2 инструмент, которые выдают только голоса персонажей и экспорт по отдельности.
То же самое в Izotope RX через их инструменты.
Ещё был задействован какой-то аналогичной софт но по тому же самому алгоритму действий.
И теперь стол муксинга:
Оригинальная русская дорожка без изменений
Русская дорожка с UVR только включена аранжировка
2-4 дорожки которые должны содержать исключительно голоса персонажей
Русская дорожка с Izotope Rx только включена аранжировка
Ещё какие-либо дорожки в случае утери всеми инструментами звуковых SFX эффектов.
Далее уже работа только с ними. Чем больше опыта и набита рука, тем быстрее должен идти процесс.
Боже упаси такое комбо сорвать)
3 требование звучит достаточно расплывчато, но для примера есть такие проекты:
https://github.com/Loganavter/Improve-ImgSLI
https://github.com/Loganavter/Tkonverter
Думаю вы сможете понять, если обратитесь к моей самой первой статье. Касательно же filmation, - пока нигде не глянуть все постеры.
Хм, у меня в принципе всё каталогизировано по папкам, но я на данный момент далеко от ПК. Отпишу и закреплю в отдельном комментарии информацию сразу, как будет возможность сегодня.
Дорого, да и уже реализовано :)
В плане развития - действительно, не заметить гигантский рост практически каждые полгода, - невозможно. Но и статья не является сугубо критикой, а описанием моего опыта и мыслей в текущей фазе развития ИИ, так что на пьедестал "технократа" я не претендую, как и вы)
Так gpt 5.3 codex который использовался к поздним этапам, и вовсе удивлял меня тем, насколько быстро и умно, он работал в любой сфере разработки данной программы. Да даже новый Composer удивляет (или что там на режиме auto в Cursor стоит) - уровень от предыдущей итерации вырос с "ну ладно, можешь цифорки в виджет кнопки подправить, чтобы верстка крупнее стала" до "ты очень долго думаешь, но твои решения действительно работают в ~70% случаев, даже в ядре проекта и краевых случаях".
А это кстати, один из парадоксальных моментов - начал я с имеющегося примера MVP архитектуры, где уже реализованы механизмы смены тем, языка, логика создания стилей , но не сильно это помогло. По итогу архитектуру пришлось докручивать где-то в середине разработки
Да, согласен. У меня в основном все вайбкод проекты как раз таки сталкивались с проблемой, из-за такого "простого" запроса на какую-то фичу. В Improve-ImgSLI основной движок рендера картинки пережил больше 3х этапов полного переосмысления, когда естественным образом хотелось добавить новую функциональность или улучшить существующую.
Как по мне, в случае вайбкодинга, ещё больше больше обостряется потребность, думать на 3 шага вперёд, чтобы не утонуть в переделках "под корень". Промпт не как: "я хочу, чтобы между картинками был слайдер", а "мне нужен механизм отрисовки схожий с GIMP, мы накладываем сплиттер следующим слоем, а картинки делаем текстурами. Используем относительные координаты чтобы, это было масштабируемо, а также по возможности логируем все объекты на сцене"
Corne MX, покупал у Oumae
готово
Интересная концепция) Не знал, что через фотошоп можно и такое проворачивать
Не могу не согласиться, что косяк с мощностью нейросети есть, но если посмотреть с другой стороны - после проделанной работы осталась программа для генерации датасетов, которая не зависит от текущих ограничений, так что может когда-нибудь в другой раз, но у меня выйдет обучить что-то на уровне больших решений) А так самые главные результаты, которые для меня здесь есть - Antilines и RGB модели
Хоть я и не являюсь сторонником зерна на видео, но объективно детализация страдает по нынешним результатам
Тогда речь скорее идёт о диффузионных апскейлерах и кластер-апскейлерах, как, например, Starlight от Topaz. На словах - это, конечно, интересно, но на деле для этого нужен просто огромный R&D отдел плюс копаться в разработках китайцев на arXiv
Да, но обучение такой модели - это кратно сложнее, нежели то, с чем я уже был знаком (ESRGAN compact). И я бы хотел всё же, чтобы мой эксперимент получил некоторую распространенность, и ESRGAN для этого отлично подходит, так как абсолютное большинство GUI умеет работать с данной архитектурой
Если я правильно понял, то вы говорите об оригинальных фреймах, с которых снимали плёнку, но это скорее абстрактное рассуждение, ибо все они либо лежат в архивах под семью печатями, либо уже давно утеряны/сгорели/испортились. Например, у MGM раза 2 с лишним горели архивы».
Зависит от вашей видеокарты) По теме можете у меня почитать эти 2 материала: О выборе ПО и о том как вкатится в домашний апскейлинг
хм. Ну хорошо, я постараюсь опубликовать имеющиеся материалы через некоторое время, когда освободится график.
Хах, я ни под чьим крылом без полной свободы действий работать не собираюсь) только хобби и те задачи, которые мне интересны
Спасибо за добрые слова!
Русская озвучка не имеет версии без смеха, так что она и использовалась. Утерянный SFX не брался из старых американских ТВ записей из-за низкого качества звука(vhs запись определенно хуже чем запись на диск в нулевых-десятых через более современные стандарты форматы хранения медиа и вещания) и потому что это банально значительно дольше чем погуглить в гугл и порезать частоты и покрутить эквалайзер.
Сначала бралась английская и русская дорожка, обое со смехом:
Подгонка под нужную развёртку кадров у русскую дорожки
Нарезка сегментов где должна была быть реклама в русской дорожке и помещение по соответствующим позициям от англ дорожки с свежей реставрации
Индивидуальная подгонка каждого из 5-6 сегментов под соответствующие сегменты
Далее работа с софтом на основе полученной русской дорожки:
Прокатка через UVR для создания версии только с аранжировкой
То же самое через Izotope RX 10/11
Прогон полной русской аудиодорожки через spectralayers через 2 инструмент, которые выдают только голоса персонажей и экспорт по отдельности.
То же самое в Izotope RX через их инструменты.
Ещё был задействован какой-то аналогичной софт но по тому же самому алгоритму действий.
И теперь стол муксинга:
Оригинальная русская дорожка без изменений
Русская дорожка с UVR только включена аранжировка
2-4 дорожки которые должны содержать исключительно голоса персонажей
Русская дорожка с Izotope Rx только включена аранжировка
Ещё какие-либо дорожки в случае утери всеми инструментами звуковых SFX эффектов.
Далее уже работа только с ними. Чем больше опыта и набита рука, тем быстрее должен идти процесс.
Да, спасибо, я не совсем верно понял изначальный вопрос от YMA.