Нужен или не нужен?
Нужен или не нужен?

За пару минут GenAI может сгенерировать целую симфонию. Означает ли это что музыканты останутся не у дел и скрипач уже действительно не нужен? Разбираемся в вопросе.

Пока, Морриконе

Музыканты эмоционально пострадали не меньше, чем все остальные творцы, когда на горизонте замаячил GenAI. Писать музыку — труд тяжелый, порой каторжный и к тому же часто плохо вознаграждаемый. Весть о том, что какие-то там умные алгоритмы справляются с этим за минуту и вот-вот отберут хлеб, не могла не перекроить музыкальный рынок.

Но все ли действительно так безнадежно? Как и с другими сферами, где обитают музы (программирование сюда тоже относится), ситуация возникла двоякая.

Где музыкальный ИИ победил

Почти сразу безоговорочную победу GenAI одерживает в сфере “производственной музыки”. Иными словами джинглы, какие-то блеклые саундтреки для Ютуба, звуковые ассеты и прочие музыкальные обои он уже подмял под себя, при чем основательно.

Если верить прессе, то меньше десяти лет назад музыканты в онлайне зарабатывали сравнительно неплохие деньги. Например один манчестерский композитор, работая с Shutterstock, получал до 30к фунтов роялти в год, поставляя незамысловатые мелодии для промышленных нужд. И это только с одного стока!

Перемотать время на 2024 и тут уже совсем другая история: пришла Suno, доход муз. индустрийщиков начал заметно проседать, похудев на 1/4. И, вероятно, такая грустная динамика продолжится в обозримом будущем.

Иоган Брамс писал свою симфонию № 1 до минор больше 20 лет. Каждая нота в брамсовском magnum opus была буквально выстрадана. За период написания композитор успел потерять своего лучшего друга Роберта Шумана, сошедшего с ума, затем влюбиться в жену лучшего друга и лишится матери — эти события отразились на психологической игре “мрака и света” в финальной редакции симфонии. Токенизация так сможет?

Причина здесь одна. Это максимально однотипная музыка — будь то эмбиент со звуками цейлонского дождя или очередной гимн корпоративной безвкусице под бренчащее укулеле. 

Она построена на рекуррентных паттернах, которые заметит даже далекий от музицирования человек, не то что умная модель: предсказуемые гармонические переходы, уныло плетущаяся за ними мелодия, однотипные ритмы и все такое прочее. Музыкальный слоп существовал еще до нейронок. (“Ласковый Май” не даст соврать).

Также ИИ неплохо справляется и с другими типовыми задачами. Например, может набросать “страшный” саундтрек для игровой демки или слепить эффект взлетающего НЛО. А то и выдать несколько вариантов сразу, благодаря силе не детерминированной генерации.

Да, это будет звучать и даже неплохо, за исключением артефактов. Да, это можно использовать для прототипирования, а то и финализации проекта для релиза. Да, это стоит копейки или обходится вовсе бесплатно.

Штат Теннесси первым ввел законодательное уложение — “Акт ЭЛВИС” — защищающий оригинальную музыку от несанкционированного копирования ИИ. ELVIS в данном случае означает Ensuring Likeness Voice and Image Security — Обеспечение защищенности голоса и изображения от копирования.

Но проблема в том, что штамповка работает только до определенного, рокового момента. Если проект — будь то игра, фильм, какой-то интерактивный опыт — потребует дальнейшего развития, то и подход к продакшену понадобится посерьезней. Это как если бы огромная компания со штаб-квартирой на каждом континенте продолжала использовать Ucoz для своего сайта по сей день.

Эдвин Вотей изобрел механическое пианино или пианолу в 1895, которая играла роль магнитофона на Диком Западе (и не только). Пианола умела играть популярные регтаймовские пьески, записанные на съемные перфорированные валики. Однако ее появление не лишило работы пианистов — пианола не умела ни импровизировать, ни цеплять эмоциями. В итоге, люди шли на концерты Скотта Джоплина с еще большим удовольствием.

Источник: izi.travel
Источник: izi.travel

Где ИИ проигрывает на музыкальном ринге

В последнее время прослеживается один интересный тренд находить совершенство в недостатках. Эта идея не нова и, например, адепты дзэн-буддизма знакомы с японской философией wabi-sabi, которая учит наслаждаться трещинками в фарфоре или выцветшей краской на стене чайного домика. 

ИИ, который постепенно водружает свое медиа-иго на каждом шагу, чересчур прилизан и стерилен. А стерильности место в хирургическом кабинете, но никак не в человеческой душе. 

Треснувшая чаша, эстетика ваби-саби. Иcточник: www.tofu.
Треснувшая чаша, эстетика ваби-саби. Иcточник: www.tofu.

И мысль о том, что ugly is the new beauty — “уродство новая красота” — озвучивается все чаще, например в рекламе и вебдизайне. К жизни даже возвращается эстетика anarchist advertising с ядовитой палитрой цветов и вырвиглазными панк-коллажами.

Пример anarchist advertising.
Пример anarchist advertising.

Музыка не исключение. Если математическая модель может собрать какое угодно созвучие в любом стиле и сделает это безупречно, значит нужно привнести толику несовершенства в свое творчество, которая будет сигнализировать слушателю “Я живой. Я непостоянный. Прямо как и вы.

Мат-рок дуэт Angine de Poitrine как раз доказывает, что непредсказуемость как в подаче, так и самой музыке прерогатива сугубо человеческая. Неординарность звука и образа, помноженная на энергичные 20-минутные сеты — это не по силам всем музыкальным генераторам вместе взятым.

Нейронка не сможет накопать личный смысл из террикона душевных терзаний для депрессивной баллады и перевести его в нервозный вокал Paranoid Android. Она не способна передать интимную атмосферу лесной хижины, где в десяти маленьких актах разворачивается драмы борьбы с соственным душевным мраком, как в Bon Iver

И даже разухабистость шнуровкой “В Питере пить” в балканских тонах она воссоздать не сумеет — ну нет у нее чувств, нет уникальной эмпирики скитания от одной рюмочной к другой.

Стартап HarmonyCloak придумал как защитить живую музыку от копирования ИИ. Он добавляет в музыку не слышимый шум, который маскируется психоакустическими эффектами (частотное и временное маскирование), незаметными для человеческого уха, однако это делает трек непригодным для обучения ИИ. Его алгоритм:

Система разбивает один такт музыки на окна, определяет доминирующую частоту νm,tνm,t​ для трека m и окна t по скорости нот. Шум δm,tδm,t​ оптимизируется по bi-level задаче. Добавляется ограничением H(TH(ν))≤δm≤xmH(TH(ν))≤δm​≤xm​, где TH — порог слуха, H — преобразование в динамику.  

То, что доступно нам — для ИИ терра инкогнита, куда он вряд ли причалит по причине эмоциональной слепоты. 

Так что музыканты, делающие ставку на непредсказуемость, психологичность, личный опыт и “живизну” записи с необычной подачей как раз-таки способны оказаться в ощутимом плюсе. А все потому что настоящее и хаотичное станет глотком свежего воздуха на фоне ИИшной пластмассовой серости. 

Выходит, скрипач нужен. Самое время склеить скрипку.