Как стать автором
Обновить
158.34
SberDevices
Создаём умные устройства

Live SymFormer Show. Музыкальное шоу с использованием AI-технологий

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров302

Салют, Хабр! На связи Алексей Минин. В SberDevices наша команда занимается созданием и развитием решений в области генеративной музыки. В этой статье хочу рассказать о том, как мы реализовали музыкальное шоу с применением технологий AI на прошедшей в апреле конференции GIGA RnD Day. В тот день на сцене вживую импровизировали музыканты и вместе с ними наша нейросетевая модель для генерации музыкальных произведений — SymFormer. В результате симбиоза живого исполнения и технологий на сцене создавалась уникальная музыкальная композиция в режиме реального времени.

Идея

Идея провести такое лайв-шоу родилась в процессе общения с нашими друзьями, участниками музыкального творческого сообщества Svoboda Zvuka — Андреем Попеску, Валентином Головачёвым и Тимуром Некрасовым.

У нас уже был опыт участия в музыкальных представлениях в режиме «живой» генерации — в сентябре 2023 г. наша SymFormer импровизировала с Большим симфоническим оркестром на Приморской сцене Мариинского театра в рамках культурной программы ВЭФ. Тогда была исполнена написанная Петром Дранга «Симфония № 1 для искусственного интеллекта с Большим симфоническим оркестром».  В процессе исполнения в нее включались части с импровизациями нейросети. Соответственно, какую-то часть ранее разработанного пайплайна мы переиспользовали, но многое пришлось дополнительно придумать и разработать для того, чтобы нейросеть SymFormer импровизировала в синхроне с музыкантами.

Итоговый сетап для выступления можно представить в виде следующей схемы:  

Управление генерациями и озвучка (NI Reaktor)

Для управления генерациями и создания конечного микса мы использовали несколько сцен, настроили синхронизацию, буферизацию, связь с SymFormer. Для этого использовали известное среди музыкантов и специалистов по звукорежиссуре программное обеспечение от Native Instruments — Reaktor. Он представляет собой модульную среду для создания собственных инструментов синтеза и обработки аудио. Далее кратко расскажем про каждый из этапов.

Несколько сцен

Сцена представляет собой настроенную комбинацию аудиопараметров воспроизведения синтезатора, эффект-процессора и мастер-секции.
Всего мы использовали 10 сцен, каждая из которых соответствовала музыкальной композиции из сета наших музыкантов. Основы сцен были собраны заранее и вызывались в режиме реального времени во время живого выступления. При этом в процессе выступления многие параметры аудиосинтезатора менялись вживую при помощи MIDI-контроллера.

Синхронизация (Ableton Link)

Синхронизация была реализована при помощи DAW Ableton Live, из которого в одном темпе и единой музыкальной размерности совместно с аудиосинтезатором воспроизводились лупы и сэмплы. DAW выступал в роли мастер-клока, а музыканты, SymFormer и аудиосинтезатор подстраивались под него. Изменение темпа или размерности в DAW сразу же передавались в MIDI-плеер и аудиосинтезатор, где эти параметры очень важны, особенно для линий задержки (стерео эхо) и скорости LFO (Low Frequency Oscillator).

Буферизация

В нашем случае буферизация — это генерация нескольких нот (всего 1 такт,  около 2-х секунд) после запроса к нейросетевой модели SymFormer. Она обеспечивает стабильную работу всего пайплайна генерации в целом. В начале воспроизведения каждого такта отправляется запрос в SymFormer, и пока такт проигрывается при помощи аудиосинтезатора, следующий такт генерируется и отправляется в MIDI-буфер синтезатора.

Связь с SymFormer

Для того, чтобы связать наш SymFormer со всем сетапом, был использован сетевой протокол OSC (Open Sound Control). Использование этого протокола позволило нам передавать MIDI-сообщения и различные управляющие команды между нейросетью SymFormer и аудиосинтезатором.

Воспроизведение (аудиосинтезатор)

Для воспроизведения мы использовали аудиосинтезатор нашей собственной разработки, также как эффект-процессор и мастер-секцию. Всё это было собрано в среде Native Instruments Reaktor, о которой писали ранее. 

Тон-генератор представлял собой классический субтрактивный синтезатор с тремя осцилляторами, шэйпером, резонансным фильтром, генераторами огибающей и т.п.

Эффект секция — стерео эхо с интегрированным в цепь обратной связи ревербератором. 

Мастер-секция — 4-х полосный компрессор-лимитер, который позволяет делать независимые настройки компрессии в каждом из частотных диапазонов.

Генерации в режиме реалтайм (SymFormer)

Во многом реализовать идею нам помогла доступная в SymFormer 2.0 управляемая генерация. Обновленный SymFormer принципиально отличается от предыдущей версии тем, что он доучен на большем датасете, а также поддерживает инструменты управляемой генерации. Он способен генерировать функциональные элементы композиции (мелодия, аккомпанемент, бас, аккорды), а также создавать эти партии, опираясь на изменяемые в каждом такте параметры генерации (интенсивность, полифоничность, количество нот). В данном проекте мы использовали генерацию именно аккомпанемента, а изменяемые параметры брали из реальных композиций. Мы генерировали аккомпанемент, так как его можно было легко трансформировать в бас или квази-мелодию путем транспонирования на 1-2 октавы вверх/вниз, одновременно переключая синтезатор из режима poly в режим mono. Мы приняли такое решение для увеличения гибкости исполнения без изменения параметров генерации на ходу, так как на стороне синтезатора ее можно менять в любой момент, независимо от необходимости попадания в начало лупа. 

Пожалуй, одним из самых интересных этапов была непосредственно генерация музыки в реалтайм-режиме. Мы проанализировали мелодическую составляющую лайва и определили, какая и в каких его частях есть гармоническая основа. Затем «сняли» гармонию этих частей. Всего было выделено 8 гармонических лупов, каждый из которых состоял из 4 или 8 тактов. Кроме гармонической основы, нужно было решить вопрос с ритмикой и ее развитием внутри музыкальных построений. Для этого мы обратились к классической музыке (произведения Бетховена, Э. Грига и других классиков, составляющие творческое музыкальное наследие), и определили музыкальные атрибуты для создания в импровизации состояния/настроения, соотнесенного с остальным музыкальным материалом выступления. Этими атрибутами стали параметры, характеризующие интенсивность развития, регистровый охват, гармонические альтерации, степень полифонической плотности и звуковысотная наполненность.

Вышеописанная гармоническая основа подавалась в качестве/виде векторов, задающих звучание такта в целом. Мы соотнесли все это в виде пресетов для SymFormer с соответствующими сценами в Reaktor, то есть фактически подавали из «реактора» в SymFormer переключение заранее подготовленных в нем пресетов. 

В процессе тестирования микса были замечены некоторые особенности генерации, которые необходимо было учесть. Формат лайва предполагает, что переключение между сценами происходит в режиме реального времени и длительность частей определена заранее весьма условно, поэтому генерации должны быть условно бесконечными. Но генерации становились неинтересными или странными примерно к 80-100 такту. Эту проблему мы решили, сделав обнуление генераций каждые 64 такта, чтобы соблюдались квадраты построений.

После того как весь сетап был собран, настроен и протестирован, оставалось выступить.)

Выступление

Выступление продлилось чуть менее часа и включало в себя исполнение на синтезаторе (SymFormer), флейте, саксофоне, перкуссионной установке, а также миксинг с семплами мелодической основы, барабанных партий, вокала.

Музыкантам и слушателям результат понравился, мы тоже остались довольны! )

Этот интересный эксперимент показал, что ИИ может быть участником живых выступлений, а также выступать в роли дополнительного «умного» инструмента для творчества.

Использование генеративной музыки в миксе с «живыми» инструментами открывает много возможностей как в творчестве, так и в коммерческом использовании подобных решений.

А если вы еще не знаете, что такое SymFormer, по ссылке можно познакомиться с нашей моделью и совсем скоро оценить её возможности на практике.

Ну и напоследок поделимся записью нашего живого выступления:

Теги:
Хабы:
+17
Комментарии0

Публикации

Информация

Сайт
sberdevices.ru
Дата регистрации
Дата основания
2019
Численность
501–1 000 человек
Местоположение
Россия
Представитель
Дмитрий Головин