В плане развития - действительно, не заметить гигантский рост практически каждые полгода, - невозможно. Но и статья не является сугубо критикой, а описанием моего опыта и мыслей в текущей фазе развития ИИ, так что на пьедестал "технократа" я не претендую, как и вы)
Так gpt 5.3 codex который использовался к поздним этапам, и вовсе удивлял меня тем, насколько быстро и умно, он работал в любой сфере разработки данной программы. Да даже новый Composer удивляет (или что там на режиме auto в Cursor стоит) - уровень от предыдущей итерации вырос с "ну ладно, можешь цифорки в виджет кнопки подправить, чтобы верстка крупнее стала" до "ты очень долго думаешь, но твои решения действительно работают в ~70% случаев, даже в ядре проекта и краевых случаях".
А это кстати, один из парадоксальных моментов - начал я с имеющегося примера MVP архитектуры, где уже реализованы механизмы смены тем, языка, логика создания стилей , но не сильно это помогло. По итогу архитектуру пришлось докручивать где-то в середине разработки
Да, согласен. У меня в основном все вайбкод проекты как раз таки сталкивались с проблемой, из-за такого "простого" запроса на какую-то фичу. В Improve-ImgSLI основной движок рендера картинки пережил больше 3х этапов полного переосмысления, когда естественным образом хотелось добавить новую функциональность или улучшить существующую.
Как по мне, в случае вайбкодинга, ещё больше больше обостряется потребность, думать на 3 шага вперёд, чтобы не утонуть в переделках "под корень". Промпт не как: "я хочу, чтобы между картинками был слайдер", а "мне нужен механизм отрисовки схожий с GIMP, мы накладываем сплиттер следующим слоем, а картинки делаем текстурами. Используем относительные координаты чтобы, это было масштабируемо, а также по возможности логируем все объекты на сцене"
Не могу не согласиться, что косяк с мощностью нейросети есть, но если посмотреть с другой стороны - после проделанной работы осталась программа для генерации датасетов, которая не зависит от текущих ограничений, так что может когда-нибудь в другой раз, но у меня выйдет обучить что-то на уровне больших решений) А так самые главные результаты, которые для меня здесь есть - Antilines и RGB модели
Хоть я и не являюсь сторонником зерна на видео, но объективно детализация страдает по нынешним результатам
Тогда речь скорее идёт о диффузионных апскейлерах и кластер-апскейлерах, как, например, Starlight от Topaz. На словах - это, конечно, интересно, но на деле для этого нужен просто огромный R&D отдел плюс копаться в разработках китайцев на arXiv
Да, но обучение такой модели - это кратно сложнее, нежели то, с чем я уже был знаком (ESRGAN compact). И я бы хотел всё же, чтобы мой эксперимент получил некоторую распространенность, и ESRGAN для этого отлично подходит, так как абсолютное большинство GUI умеет работать с данной архитектурой
Для целлулоидной анимации, как мне кажется, надо искать путь отделять фон от нарисованного на целлулоиде и применять разные фильтры к ним соответственно
Если я правильно понял, то вы говорите об оригинальных фреймах, с которых снимали плёнку, но это скорее абстрактное рассуждение, ибо все они либо лежат в архивах под семью печатями, либо уже давно утеряны/сгорели/испортились. Например, у MGM раза 2 с лишним горели архивы».
Русская озвучка не имеет версии без смеха, так что она и использовалась. Утерянный SFX не брался из старых американских ТВ записей из-за низкого качества звука(vhs запись определенно хуже чем запись на диск в нулевых-десятых через более современные стандарты форматы хранения медиа и вещания) и потому что это банально значительно дольше чем погуглить в гугл и порезать частоты и покрутить эквалайзер.
Сначала бралась английская и русская дорожка, обое со смехом:
Подгонка под нужную развёртку кадров у русскую дорожки
Нарезка сегментов где должна была быть реклама в русской дорожке и помещение по соответствующим позициям от англ дорожки с свежей реставрации
Индивидуальная подгонка каждого из 5-6 сегментов под соответствующие сегменты
Далее работа с софтом на основе полученной русской дорожки:
Прокатка через UVR для создания версии только с аранжировкой
То же самое через Izotope RX 10/11
Прогон полной русской аудиодорожки через spectralayers через 2 инструмент, которые выдают только голоса персонажей и экспорт по отдельности.
То же самое в Izotope RX через их инструменты.
Ещё был задействован какой-то аналогичной софт но по тому же самому алгоритму действий.
И теперь стол муксинга:
Оригинальная русская дорожка без изменений
Русская дорожка с UVR только включена аранжировка
2-4 дорожки которые должны содержать исключительно голоса персонажей
Русская дорожка с Izotope Rx только включена аранжировка
Ещё какие-либо дорожки в случае утери всеми инструментами звуковых SFX эффектов.
Далее уже работа только с ними. Чем больше опыта и набита рука, тем быстрее должен идти процесс.
В основном это gui интерфейс, но сам процесс до смешного прост - использовать функцию в программе, такую как crowd noise , напримрер, сохранить в нужном аудио формате и засунуть в аудиоредактор к остальным дорожкам. Всего их, как я и рассказывал, около 5-6 дорожек в итоговом файле. Так что я считаю гайд излишним, но если кому-то понадобится, то буду не против ответить в ЛС. Сам процесс в целом настолько трудоёмок и монотоннен, что этим вряд-ли больше 1-2 человек ещё когда-либо занялись бы, а я же пишу не просто так, а для развития этой сферы ремастеров среди энтузиастов, так что столь частные случаи разбирать для всех, никак не приблизит нас к точке когда общая планка качества повысится у большинства.
Получившейся же результат бы я выложил, но там даже не полный 1 сезон выходит по итогу, а я перфекционист и считаю такое выкладывать - кочунством)
Нет, зачастую это наложение из нескольких "эффектов" разом, до 5-6, насколько я знаю. И соответственно, что даже при наличии всего 5 записей статистов, комбинаций становится очень много
Здравствуйте, вы кстати не первый, кто имеет подобное мнение - мой знакомый точно такой же) Перемонтаж мультиков был бы действительно интересной задачкой для кого-нибудь. Но пока это лишь только мечты - ворнер броз, спустя кучу десятилетий владения франшизой Том и Джерри, до сих пор не все серии отреставрировала в адекватном качестве, что уж там говорить об столь фундаментальной работе. Но её определенно было бы очень интересно увидеть!
Дорого, да и уже реализовано :)
В плане развития - действительно, не заметить гигантский рост практически каждые полгода, - невозможно. Но и статья не является сугубо критикой, а описанием моего опыта и мыслей в текущей фазе развития ИИ, так что на пьедестал "технократа" я не претендую, как и вы)
Так gpt 5.3 codex который использовался к поздним этапам, и вовсе удивлял меня тем, насколько быстро и умно, он работал в любой сфере разработки данной программы. Да даже новый Composer удивляет (или что там на режиме auto в Cursor стоит) - уровень от предыдущей итерации вырос с "ну ладно, можешь цифорки в виджет кнопки подправить, чтобы верстка крупнее стала" до "ты очень долго думаешь, но твои решения действительно работают в ~70% случаев, даже в ядре проекта и краевых случаях".
А это кстати, один из парадоксальных моментов - начал я с имеющегося примера MVP архитектуры, где уже реализованы механизмы смены тем, языка, логика создания стилей , но не сильно это помогло. По итогу архитектуру пришлось докручивать где-то в середине разработки
Да, согласен. У меня в основном все вайбкод проекты как раз таки сталкивались с проблемой, из-за такого "простого" запроса на какую-то фичу. В Improve-ImgSLI основной движок рендера картинки пережил больше 3х этапов полного переосмысления, когда естественным образом хотелось добавить новую функциональность или улучшить существующую.
Как по мне, в случае вайбкодинга, ещё больше больше обостряется потребность, думать на 3 шага вперёд, чтобы не утонуть в переделках "под корень". Промпт не как: "я хочу, чтобы между картинками был слайдер", а "мне нужен механизм отрисовки схожий с GIMP, мы накладываем сплиттер следующим слоем, а картинки делаем текстурами. Используем относительные координаты чтобы, это было масштабируемо, а также по возможности логируем все объекты на сцене"
Corne MX, покупал у Oumae
готово
Интересная концепция) Не знал, что через фотошоп можно и такое проворачивать
Не могу не согласиться, что косяк с мощностью нейросети есть, но если посмотреть с другой стороны - после проделанной работы осталась программа для генерации датасетов, которая не зависит от текущих ограничений, так что может когда-нибудь в другой раз, но у меня выйдет обучить что-то на уровне больших решений) А так самые главные результаты, которые для меня здесь есть - Antilines и RGB модели
Хоть я и не являюсь сторонником зерна на видео, но объективно детализация страдает по нынешним результатам
Тогда речь скорее идёт о диффузионных апскейлерах и кластер-апскейлерах, как, например, Starlight от Topaz. На словах - это, конечно, интересно, но на деле для этого нужен просто огромный R&D отдел плюс копаться в разработках китайцев на arXiv
Да, но обучение такой модели - это кратно сложнее, нежели то, с чем я уже был знаком (ESRGAN compact). И я бы хотел всё же, чтобы мой эксперимент получил некоторую распространенность, и ESRGAN для этого отлично подходит, так как абсолютное большинство GUI умеет работать с данной архитектурой
Если я правильно понял, то вы говорите об оригинальных фреймах, с которых снимали плёнку, но это скорее абстрактное рассуждение, ибо все они либо лежат в архивах под семью печатями, либо уже давно утеряны/сгорели/испортились. Например, у MGM раза 2 с лишним горели архивы».
Зависит от вашей видеокарты) По теме можете у меня почитать эти 2 материала: О выборе ПО и о том как вкатится в домашний апскейлинг
хм. Ну хорошо, я постараюсь опубликовать имеющиеся материалы через некоторое время, когда освободится график.
Хах, я ни под чьим крылом без полной свободы действий работать не собираюсь) только хобби и те задачи, которые мне интересны
Спасибо за добрые слова!
Русская озвучка не имеет версии без смеха, так что она и использовалась. Утерянный SFX не брался из старых американских ТВ записей из-за низкого качества звука(vhs запись определенно хуже чем запись на диск в нулевых-десятых через более современные стандарты форматы хранения медиа и вещания) и потому что это банально значительно дольше чем погуглить в гугл и порезать частоты и покрутить эквалайзер.
Сначала бралась английская и русская дорожка, обое со смехом:
Подгонка под нужную развёртку кадров у русскую дорожки
Нарезка сегментов где должна была быть реклама в русской дорожке и помещение по соответствующим позициям от англ дорожки с свежей реставрации
Индивидуальная подгонка каждого из 5-6 сегментов под соответствующие сегменты
Далее работа с софтом на основе полученной русской дорожки:
Прокатка через UVR для создания версии только с аранжировкой
То же самое через Izotope RX 10/11
Прогон полной русской аудиодорожки через spectralayers через 2 инструмент, которые выдают только голоса персонажей и экспорт по отдельности.
То же самое в Izotope RX через их инструменты.
Ещё был задействован какой-то аналогичной софт но по тому же самому алгоритму действий.
И теперь стол муксинга:
Оригинальная русская дорожка без изменений
Русская дорожка с UVR только включена аранжировка
2-4 дорожки которые должны содержать исключительно голоса персонажей
Русская дорожка с Izotope Rx только включена аранжировка
Ещё какие-либо дорожки в случае утери всеми инструментами звуковых SFX эффектов.
Далее уже работа только с ними. Чем больше опыта и набита рука, тем быстрее должен идти процесс.
Да, спасибо, я не совсем верно понял изначальный вопрос от YMA.
Да, в целом при таком грамотном мастеринге как у меня, подмену заметить очень сложно, но и занимает это гораздо больше времени ((
В основном это gui интерфейс, но сам процесс до смешного прост - использовать функцию в программе, такую как crowd noise , напримрер, сохранить в нужном аудио формате и засунуть в аудиоредактор к остальным дорожкам. Всего их, как я и рассказывал, около 5-6 дорожек в итоговом файле. Так что я считаю гайд излишним, но если кому-то понадобится, то буду не против ответить в ЛС. Сам процесс в целом настолько трудоёмок и монотоннен, что этим вряд-ли больше 1-2 человек ещё когда-либо занялись бы, а я же пишу не просто так, а для развития этой сферы ремастеров среди энтузиастов, так что столь частные случаи разбирать для всех, никак не приблизит нас к точке когда общая планка качества повысится у большинства.
Получившейся же результат бы я выложил, но там даже не полный 1 сезон выходит по итогу, а я перфекционист и считаю такое выкладывать - кочунством)
Нет, зачастую это наложение из нескольких "эффектов" разом, до 5-6, насколько я знаю. И соответственно, что даже при наличии всего 5 записей статистов, комбинаций становится очень много
Здравствуйте, вы кстати не первый, кто имеет подобное мнение - мой знакомый точно такой же) Перемонтаж мультиков был бы действительно интересной задачкой для кого-нибудь. Но пока это лишь только мечты - ворнер броз, спустя кучу десятилетий владения франшизой Том и Джерри, до сих пор не все серии отреставрировала в адекватном качестве, что уж там говорить об столь фундаментальной работе. Но её определенно было бы очень интересно увидеть!