Comments 10
бред сумасшедшего какой то ! Что вы там курите? Внутренние законы визуальных композиций форм, цветов, пространственных положений имеют совершенно отличную от звука и музыки природу. Генерация звука должна опираться на кластеризацию и статистику векторных представлений эмбеддингов звучания голосов лучших певцов, музыкальных инструментов, синтезаторов. Удачным расположением формант, спектров. Получить эти данные можно из оценок композиций музыкантами, звукорежиссерами, любителями музыки. Плюс совершенно необходимо подставлять на вход сети не случайные значения векторов, а осмысленные в плане знаний различных музыкальных гармоний, ритмов: классика, джаз, авангард, .. В противном случае вы получите на выходе какофонию не имеющую никакого эстетического значения, смысла и ценности. Я сам занимаюсь эпизодически этой темой для генерации новых голосов и звуковых эффектов. Но все мои работы базируются исключительно на модификациях, объединении лучших образцов, а не на генераторах случайных чисел.
Вы описываете классический пайплайн для коммерческого продакшена (в духе Suno или Udio). Если бы мы делали коммерческий продукт — шли бы именно этим путем, через кластеризацию и форманты.
Но цель этой статьи — чистый R&D и Generative Art. Мы намеренно ломаем архитектуру (Circuit Bending) и используем случайные тензоры как аналог белого шума или сырого сигнала в модульном синтезаторе. Мы не ищем классическую гармонию, мы ищем управляемый хаос и новые глитч-текстуры через PyTorch Hooks. Для генерации «правильных» скрипок есть другие инструменты
Ну вы блин даете. Как же вы, точнее ваша сеть, научится генерировать действительно интересные вещи? Кто и как будет отличать (управлять) хаосом ? Я как раз предлагаю не генерацию классических скрипок, синтов, а разумное развитие звуковых форм на базе внутренних законов гармонии самих звуков, а не случайных чисел. Так можно искать 1000 лет и ничего не найти, да кто конкретно будет искать, Любой музыкант или любитель услышит хаос и уйдет с вашего сайта. Еще немного другой момент по архитектуре сервиса. Я использую генерацию на стороне клиента при помощи расширений браузера, а сервер только помнит и обменивается между пользователями настройками нейросетей. Это более масштабируемая и гибкая схема.
По поводу управления хаосом: куратором здесь выступает сам человек (саунд-дизайнер). Наша задача — дать ему необычную текстуру (сырье), которую он засемплирует. В экспериментальной и электронной музыке именно такие контролируемые «ошибки» часто становятся основой уникального саунда.
А вот за мысль про архитектуру — отдельное спасибо! Клиентская генерация (через WebAssembly/WebGPU в браузере) — это действительно изящный подход, который шикарно масштабируется и экономит серверный бюджет.
Однако в нашем случае (размещение на Hugging Face Spaces) приоритетом был принцип Zero-setup (ноль настроек для юзера). Наша архитектура позволяет любому человеку запустить тяжелую PyTorch-модель даже с телефона в метро, без установки расширений и без привязки к мощности его видеокарты. Обе схемы хороши, просто они решают разные бизнес-задачи 🤝
Ну это понятно, что обучающей стороной должен быть человек. Но почему вы думаете, что много людей будет готово тестировать ваш сервис, который ВСЕГДА будет генерировать только хаос ? Я сильно сомневаюсь в этом. По моему порочна сама концепция вашей идеи, создавать совершено случайные паттерны звук в надежде что когда-нибудь, кому-нибудь удастся получить интересный результат, а если нет? Что тогда? И почему не заменить эмбеддинги изображений на случайные вектора? В чем здесь драйв идеи?
Так разве это не само творчество получить результат, услышать в этом смыс и после воспользоваться?не думаю что любой из существующих инструментов в прошлом и будущем давал гармонию звука в любую из эпох,насчёт много из людей я веду виртуального артиста , убейте в поиске Livadies,, я не генерирую смыслы для своего виртуального артиста только используя доступными ИИ инструментам , я создаю и воплоща в жизнь для своего виртуального артиста новые инструменты и опубликованные это одини из них
нет, это не творчество, а просто бросание костей на удачу, вдруг выпадет счастье. От человека ничего не зависит и реально творческие люди в такие игры не играют. Нужен механизм когда реальные, осмысленные, направленные на улучшение старания людей будут давать результат. Почитайте с о работе нейросетей с подкреплением. Возможно вам удастся найти механизм, когда модель сама станет генерировать звук лучше, чем был вчера (эволюционировать) и пользователь сможет тонко управлять этим процессом в меру своих талантов, знаний, музыкально чутья, интуиции.
По поводу центрального сайта для сервиса это очень важно! Допустим человек найдет интересное решение. Как он опубликует его для оценки другими людьми? Конечной целью возможно будет монетизация идеи. Должен существовать механизм показа возможностей и покупки результатов как продукта. Для таких дел я обычно использую ПО электронного магазина Magento 2. Там можно дать право пользователям стать менеджерами своих виртуальных складов товаров. Оформит рекламу, назначить цену, ввести счёт для получения денег, следить за динамикой продаж и вам надо иметь процент от сделок. Не так ли? Всё-таки генерация только случайных паттернов это не метод. ИИ как раз должен быть заточен делать что-то лучше людей, а не увеличивать хаос на земле. :-) Удачи!
Я делаю бесплатные продукты , понимаю что статус который даёт Magento 2 может в Ваших глазах цениться выше чем находки частного инженера не безразличного к искусству, но все же я за Опенсор и развитие технологий
Я не против открытого ПО. Magento, тоже имеет открытый исходный код и право использовать его бесплатно. Но людьми движет не только абстрактная любовь к искусству. Если бы Бах, Моцарт или Страдивари не получали деньги за свой труд, то никогда бы не достигли таких высот. Людям нужно что то есть, им необходимо признание, не просто лайки на форуме, а реальная монетизация.
Как мы перестали писать промпты и превратили ИИ в аналоговый синтезатор через PyTorch Hooks