Создаем музыку: когда простые решения превосходят по эффективности глубокое обучение

Автор оригинала: Haebichan Jung
  • Перевод
Представляю вашему вниманию перевод статьи «Создаем музыку: когда простые решения превосходят по эффективности глубокое обучение» о том, как искусственный интеллект применяется для создания музыки. Автор не использует нейронные сети для генерации музыки, а подходит к задаче, исходя из знания теории музыки, на основе мелодии и гармонии. Другой особенностью статьи является метод сравнения музыкальных произведений на основе матриц самоподобия. Такой подход, конечно, не является исчерпывающим, но он полезен как промежуточный шаг для генерации качественной музыки методами машинного обучения.


Использование искусственного интеллекта в творчестве сегодня стало встречаться все чаще и в развлекательных целях, и в коммерческих и уже перестало удивлять публику. С одной стороны — это  инструменты смены стиля изображения типа Prizma. С другой — нейронная сеть, продукт работы которой был продан в виде картины на аукционе Christieʼs за 432,5 тысячи долларов. Нельзя не вспомнить нашего отечественного специалиста по генерации музыки с помощью машинного обучения Ивана Ямщикова, несколько лет назад представившего проект «Нейронная оборона» (подробнее можно прочитать здесь, а это интервью Ивана на Хабре). Другим хорошим примером использования нейронных сетей для генерации музыки может быть статья «Мечтают ли андроиды об электропанке? Как я учил нейронную сеть писать музыку» эксперта Artezio.

Помимо понимания теории машинного обучения, использование искусственного интеллекта для решения творческих задач предполагает также наличие экспертизы в доменной области искусства. Это делает проект на стыке двух областей особенно многогранным и интересным, но и уязвимым для критики с двух сторон, т. к. проект может попасть под перекрестный огонь замечаний и от искусствоведов, и от data scientist-ов.

Расширяя свой кругозор в рамках темы использования искусственного интеллекта в музыке, я встретил статью «Создаем музыку: когда простые решения превосходят по эффективности глубокое обучение», перевод которой хотел бы представить сообществу Хабра. Одним  из достоинств этой статьи для меня стало то, что автор не использует нейронные сети как черный ящик, а подходит к задаче генерации музыки, исходя из знания теории музыки, на основе мелодии и гармонии. В представленной статье не используются ни рекуррентные нейронные сети (RNN, LSTM), ни генеративные состязательные сети (GAN), — все эти методы дают поразительные результаты (например, в статье «Мечтают ли андроиды об электропанке? Как я учил нейронную сеть писать музыку»), и мы активно их используем в решении наших задач в компании CleverData. Автор сделал упор на модели на основе марковских цепей, дающих возможность работать с  вероятностями перехода от текущего состояния музыкального произведения в последующее. В используемых автором методах есть дополнительное достоинство: автору не пришлось жертвовать интерпретируемостью  результата в угоду использования модного и популярного алгоритма.

Другой особенностью статьи, привлекшей мое внимание, стал интересный метод сравнения музыкальных произведений на основе матриц самоподобия. Если структуру песни можно представить в виде матрицы самоподобия, то появляется еще одна количественная мера сравнения песен.


* * *


Краткое содержание: как я столкнулся с проблемой, используя глубокое обучение для создания музыки, и как я её решил, придумав собственное решение.

План


Задача: как я столкнулся с проблемами при использовании техник глубокого обучения для создания поп-музыки.
Решение: как я создал собственную машину для создания музыки, которая могла бы конкурировать с глубоким обучением, но на основе более простых решений.
Оценка: как я создал оценочную метрику, которая могла бы математически доказать, что моя музыка «больше похожа на поп», чем та, что создана при помощи глубокого обучения.
Обобщение: как я нашёл способ применять своё решение к проблемам, не связанным с созданием музыки.


Вишенка на торте


Я создал простую вероятностную модель, генерирующую поп-музыку. Также, используя объективную метрику, я могу с уверенностью сказать, что музыка, созданная моей моделью, больше похожа на поп-музыку, чем та, что была создана с применением техник глубокого обучения. Как я это сделал? Частично, я достиг этого, сфокусировавшись на том, что для меня – суть поп-музыки: на статистической взаимосвязи между гармонией и мелодией.

Мелодия — это вокал, мотив. Гармония — это аккорды, последовательность аккордов. На рояле мелодия играется правой рукой, а гармония — левой.

Задача


Прежде чем углубиться в их отношения, позвольте мне сначала очертить проблему. Проект начался с моего желания попробовать создать музыку при помощи глубокого обучения – ИИ, как называют это непрофессионалы. Довольно быстро я пришёл к LSTM (долгая краткосрочная память, long short-term memory), одной из версий рекуррентной нейронной сети (RNN), очень популярной при генерировании текстов и создании музыки.

Но чем больше я вчитывался в предмет, тем больше я стал сомневаться в логике применения RNN и их вариаций для создания поп-музыки. Эта логика, казалось, основывалась на нескольких предположениях о внутренней структуре (поп) музыки, с которой я не мог полностью согласиться.

Одно конкретное предположение — это независимая связь между гармонией и мелодией (определение этих двух см. выше).

Например, рассмотрим публикацию Университета Торонто от 2017 года «Song from Pi: A Musically Plausible Network for Pop Music Generation» (Хан Чу и др.). В этой статье авторы явно «предполагают… аккорды не зависимы от мелодии» (курсив мой). Основываясь на этом предположении, авторы построили сложную многослойную RNN-модель. Для мелодии выделен отдельный слой, где создаются ноты (слой key, слой press), не зависимый от слоя аккордов (Chord Layer). Помимо независимости, эта конкретная модель предполагает, что гармония опирается на мелодию. Другими словами, гармония зависит от мелодии при генерации нот.

RNN-модель, предложенная Хан Чу. Каждый слой отвечает за отдельный аспект музыки.

Такой способ моделирования кажется мне очень странным, поскольку это совсем не похоже на то, как люди подходят к написанию поп-музыки. Будучи пианистом классической школы, я никогда не рассматривал сочинение мелодии без того, чтобы сначала обозначить гармонию. Гармония определяет и ограняет мелодию. Axis of Awesome в своём когда-то вирусном видео давно уже продемонстрировали правдивость этой идеи.


Это видео демонстрирует главное свойство западной поп-музыки: эта гармония, эти четыре аккорда сильно влияют на то, какой в итоге будет мелодия. Говоря языком Data Science, условная вероятность регулирует и определяет статистическую связь между гармонией и мелодией. Так происходит, потому что ноты мелодии, естественно, зависят от нот гармонии. Таким образом, можно утверждать, что ноты гармонии по своей сути указывают, какие мелодические ноты могут быть выбраны в конкретной песне.

Решение


Мне нравится находить оригинальные решения для сложных проблем. Поэтому я решил построить свою собственную модель, которая могла бы по-своему отражать богатую структуру музыкальных данных. Я начал с того, что сосредоточился на предопределенной вероятностной силе, регулирующей отношения между различными видами музыкальных нот. Например, выше я уже упоминал «вертикальные» отношения между гармонией и мелодией.

(Обработка) данных


В качестве данных я использовал 20 разнообразных западных поп-песен в midi формате (полный список песен можно найти здесь).

Используя библиотеку music21 python, я проанализировал midi-файлы при помощи цепи Маркова. Это позволило мне выделить статистические взаимоотношения между разными типами нот в моих входящих данных. В частности, я рассчитал вероятности перехода моих музыкальных нот. По сути, это означает, что наблюдая переход нот от одной к другой, мы можем вычислить вероятность того, что этот переход произойдет. (Более подробное объяснение ниже)

Midi: диджитал-версия песни

Сначала я извлек «вертикальные» вероятности перехода между нотами гармонии и нотами мелодии. Я также рассчитал все «горизонтальные» вероятности перехода между нотами мелодии в соответствии с набором данных. Я провел эту процедуру и для нот гармонии. Таблица ниже демонстрирует пример трех разных переходных матриц между различными типами нот в музыкальных данных.

Варианты перехода, варианты. Верхняя – между нотами гармонии и мелодии. Средняя – между нотами мелодии. Нижняя – между нотами гармонии.

Модель


Опираясь на эти три модели вероятностей, моя модель будет действовать следующим образом:

  1. Выбирает произвольную доступную ноту гармонии;
  2. Выбирает ноту мелодии, основываясь на ноте гармонии, используя первую вероятностную матрицу;
  3. Выбирает ноту мелодии, опираясь на предыдущую ноту мелодии, согласно второй матрице вероятности;
  4. Повторяет шаг 3, пока не достигнет определённого завершения;
  5. Выбирает новую ноту гармонии, опираясь на предыдущую ноту гармонии, используя третью матрицу вероятности;
  6. Повторяет шаги 1-4, пока не достигнет завершения.



Конкретный пример применения алгоритма:

  1. Программа выбрала гармоническую ноту ( F ).
  2. У этой ноты есть 4 варианта нот мелодии. Используя первую матрицу переходов, система выбирает ноту ( C ), учитывая высокую вероятность её использования (24,5%).
  3. Эта нота ( C ) переходит ко второй матрице перехода, останавливая выбор на ноте мелодии (A), основываясь на её частотности (88%).
  4. Шаг 3 будет повторяться, пока процесс не достигнет предустановленной точки завершения;
  5. Нота гармонии (F), обратившись к третьей вероятностной матрице, выберёт следующую гармоническую ноту. Это будет либо ( F ), либо ( C ), учитывая их схожесть.
  6. Шаги 1-4 будут повторяться, пока процесс не завершится.

Здесь можно послушать пример поп-музыки, созданной подобным образом:



Оценка


Здесь начинается сложная часть – как оценить разные модели. В конце концов моя статья предполагает, что простые вероятности могут быть полезнее нейронных сетей. Но как нам оценить отличие моей модели от модели, построенной нейронной сетью? Как мы можем объективно заявить, что моя музыка больше похожа на поп, чем музыка, написанная ИИ?

Чтобы ответить на этот вопрос, мы должны прежде всего определить, что же такое поп-музыка. Первое определение я уже озвучил: статистическое соотношение между гармонией и мелодией. Но есть и другой определяющий фактор поп-музыки – это чётко выделенные начало, середина, конец песни (интро, куплет, бридж, припев, завершение и т.д.), повторяющиеся в течение песни.

Например, строчка «Let it go, let it go, can’t hold it back anymore…» скорее встретится в серединной части, чем в конце или начале. И трижды повторится в течение песни.

Держа это в уме, мы можем прибегнуть к так называемой матрице самоподобия. Говоря проще, матрица самоподобия математически выражает начало, середину, конец песни. Ниже представлена матрица для песни Falling Slowly из фильма «Однажды».


Каждый маленький сегмент представляет ноту. Каждый большой блок на 45 градусов представляет какую-то часть песни.

Первый темный кластер представляет начало песни, следующий жёлтый – следующий сегмент песни. Первый и третий кластеры похожи по цвету, так как они схожи друг с другом, равно как и второй и четвёртый.

Я проверил таким образом двадцать поп-песен, после чего создал машинную копию (насколько это возможно) их структур.

Результаты


Результаты говорят сами за себя. До использования матрицы самоподобия моя программа выдала звуки без повторяющейся внутренней структуры. Однако после копирования структуры исходных данных моя музыка стала выглядеть следующим образом:

До и после применения матрицы самоподобия

Сравните с матрицей самоподобия музыки, созданной нейронной сетью в Университете Торонто:


Именно таким образом можно сравнивать и оценивать разные модели – основываясь на их матрицах самоподобия!


Обобщение


Последней частью задачи, которую я перед собой ставил, было обобщение. Под этим словом я имею в виду: как мы можем сделать универсальной мою модель, опирающуюся на входящие данные, чтобы её можно было применить к другим ситуациям, не связанным с генерацией поп-музыки? Другими словами, есть ли что-то ещё, структурно похожее на мой генератор поп-музыки?

После долгих размышлений я понял, что есть ещё одно изобретение человечества, схожее по структуре – тексты поп-песен!

Например, вот отрывок из I’ll Be Эдварда МакКейна:

I’ll be your cryin’ shoulder
I’ll be love suicide
I’ll be better when I’m older
I’ll be the greatest fan of your life


Разберём по косточкам текст, используя те же самые приёмы машинного обучения. Мы можем засчитать ‘I’ll be’ как первое исходное слово в языковой модели. Оно будет использовано для генерации ‘your’, из которого выходит ‘crying’, откуда уже появляется ‘shoulder’.


Далее возникает очень важный вопрос: зависит ли первое слово следующего предложения от последнего слова предыдущего? Другими словами, если ли зависимость между последним словом одного предложения и первым следующего?

Я считаю, что ответ – нет. Предложение заканчивается на ‘shoulder’, следующее начинается с повторения первого — ‘I’ll be’. Это связано с тем, что первые слова каждого предложения намеренно повторяются, что означает, что между первыми словами каждого предложения существует аналогичная условная связь. Эти первые слова становятся триггерной точкой для последовательности следующих слов.



Мне кажется, это потрясающее открытие. Похоже, что и поп-музыка, и тексты поп-песен имеют внутреннюю структуру, зависящую от содержания. Правда, здорово?

Смотреть проект на github

* * *


Безусловно, предлагаемый в статье подход нельзя считать исчерпывающим. Отдельно стоит заметить, что методы работы с текстами сейчас претерпевают подъем и активно развиваются, поэтому взгляд автора на тексты песен не удивит специалистов NLP (Natural Language Processing). Тем не менее, оригинальная статья автора выглядит как полезный промежуточный шаг для генерации качественной музыки методами машинного обучения.

За последнее время широкой публике был предложен ряд приложений на основе нейронных сетей, генерирующих музыку. Например, есть возможность генерировать техно музыку на сайте: eternal-flow.ru. Автор решения предлагает и мобильное приложение для генерации музыки. Известно и другое приложение для генерации музыки на мобильных устройствах: mubert.com. Любопытное решение посвящено более динамичному жанру death metal. Его создатели DadaBots стримят на youtube непрерывный поток музыки, генерируемой нейронной сетью. При том DadaBots на этом не останавливаются и открывают публике искусственные музыкальные произведения в стиле панк и прогрессив рок. И конечно нельзя обойти вниманием результаты от OpenAI, предлагающей всем желающим эксперименты с музыкой в широких жанровых рамках от Моцарта до The Beatles. На сайте openai.com можно послушать, как выглядело бы развитие темы Гарри Поттера в стиле Фрэнка Синатры или Петра Ильича Чайковского.

Успехи современных нейронных сетей в генерации музыки дают надежду на то, что в скором времени искусственный интеллект сможет сразиться на равных с человеком в еще одной области, помимо Го и Dota2. Возможно, нам повезет дожить до того момента, когда на Евровидении сможет выступить претендент от нейронных сетей и побороться с кожаными участниками за победу.

Вакансии ГК ЛАНИТ можно посмотреть здесь.
ГК ЛАНИТ
539,93
Ведущая многопрофильная группа ИТ-компаний в РФ
Поделиться публикацией

Комментарии 38

    0
    Послушал результат — очень похоже на мои наигрыши на ф-но, хотя нет — у меня пожалуй лучше получается. Если что, я не умею играть на фортепиано.
    • НЛО прилетело и опубликовало эту надпись здесь
        +2
        Я ответственно заявляю. Теорией там и не пахнет. Там первобытные представления о музыке, основанные на простейшей попсе.
        Музыкальные примеры — полная ахинея, ни формы, ничего вообще. Средне сымитирована фактура.
          +3
          Цитата из Элементарной Теории Музыки:
          Слушая или исполняя музыкальное произведение, мы наблюдаем, что образующие его звуки находятся между собой в определенном соотношении. Это выражается прежде всего в том, что в процессе развития музыки, в частности мелодии, некоторые звуки, выделяясь из общей массы, приобретают характер опорных звуков.
          Один из устойчивых звуков обычно выделяется больше, чем другие. Он является как бы главной опорой. Такой устойчивый звук называется тоникой.
          В противоположность устойчивым звукам, другие звуки, участвующие в образовании мелодии, называются неустойчивыми. Неустойчивым звукам свойственно состояние тяготения к устойчивым звукам.
          Система взаимоотношений между устойчивыми и неустойчивыми звуками называется ладом. В основе отдельной мелодии и музыкального произведения в целом всегда лежит определенный лад. Лад является организующим началом высотного соотношения звуков в музыке. Лад придает музыке, совместно с другими выразительными средствами, определенный характер, соответствующий ее содержанию.


          Музыканту странно было бы отрицать описанную выше связь между звуками в произведении, и именно на исследование этой связи с точки зрения вероятностей перехода от одного устойчивого звука к другому, работает авторский подход. То, что мелодия в примере стала состоять из устойчивых звуков, сложно отрицать, а на большее пример и не рассчитан.

          Если говорить на языке аналогий, то перед тем, как учить ребенка сочинять поэмы, надо научить его языку и лексике. Среднестатистический взрослый человек способен сочинять поэмы лучше среднестатистического ребенка из ясельной группы. В такой же степени не удивительна способность музыканта (использующего порядка 100 миллиардов нейронов) лучше играть, чем видевший 20 мелодий алгоритм.
            0
            Как бы так это объяснить. С другими аналогиями. То, что вы привели, является «Цитата из Элементарной Теории Музыки». Но там есть чуть дальше, поверьте. Элементарная теория музыки позволяет вам сделать пять аккордов (ну как же без DD:). Дальше идёт ещё чуть-чуть учебников и курсов. 17 лет учатся инструменталисты и 17+3 дирижёры. Композиторы обычно учатся чуть больше. Это только начало.
            Есть ещё «средства музыкальной выразительности».
            Среднестатистический взрослый человек способен сочинять поэмы лучше среднестатистического ребенка из ясельной группы.
            Это неверная лемма. Никто без обучения не способен сочинять поэмы.
            с точки зрения вероятностей перехода от одного устойчивого звука к другому, работает авторский подход

            Абсолютная чушь. Можно, конечно, вспомнить, когда была запрещена даже септима в доминантаккорде в церковной музыке, но сейчас (да и с начала 20го века) это не так.
            На самом деле всё очень сильно сложнее, чем просто
            описанную выше связь между звуками в произведении
            .
            Там этих связей тысячи.
              0
              Очень рад, что мы сходимся в том, что понимаем сложность задачи. Надеюсь следствие этого наблюдения достаточно очевидно: сложные задачи надо разделять на простые и решать их, постепенно двигаясь к основному результату.
              Сейчас мы на том этапе, когда подопечный начинает произносить слова и мы радуемся, что слова у него получаются. Можно говорить, что выучить слова не значит — выучить язык, однако это постепенное приближение и промежуточные успехи. Здесь же уместно следующее наблюдение: учиться лучше на простых словах, постепенно внося усложнения. Сразу учить замечательные и прекрасные многобуквенные слова, пока не освоены односложные — забегание вперед. Конечно, все намного сложнее, но путь в тысячу ли начинается с одного шага. Перед нами еще один шаг, пусть отметка в тысячу ли еще за горизонтом.
                0
                Чтобы понимать сложность задачи, для начала, неплохо было бы иметь знания в предметной области. Например, гармония, анализ форм, ИИИ (история исполнительского искусства, да это нужно, не спрашивайте почему, поверьте на слово) и ещё с десяток.
                А если учить подопечного примитивной попсе, то он и будет выдавать примитивную попсу (причём, даже без формы, а это то, что делает музыку музыкой, которую могут воспринимать люди). Даже если подсунуть подопечному фактуру Шопена (это, кстати, про openai.com/blog/musenet), на выходе будет примитивная попса без формы с фактурой Шопена.
                Постановка задачи изначально неверная. Нет ТЗ результат хз.

                подопечный начинает произносить слова и мы радуемся, что слова у него получаются
                Даже не близко. Неразборчивое мычание максимум.
                или позволить сетям самостоятельно открывать эти свойства на основе больших массивов данных

                Я боюсь представить себе необходимую для этого вычислительную мощь. Разве что запретить порно и котиков и направить все освободившиеся 90% мировых вычислительных ресурсов на эту задачу. А потом окажется, что её сформулировали люди, которые разбираются в музыке на уровне примитивной попсы. Упппсс.

                P.S. Попса бывает же и не примитивная, чего бы на квинов не натравить? Страшно за результат? :)
                Длинный разбор статьи
                Одним из достоинств этой статьи для меня стало то, что автор не использует нейронные сети как черный ящик, а подходит к задаче генерации музыки, исходя из знания теории музыки, на основе мелодии и гармонии.
                Нет, даже и близко. Гениальная догадка о том, что мелодия зависит от аккомпанемента и наоборот, как бы помягче выразиться… Для этого даже в ДМШ необязательно заходить.
                Я создал простую вероятностную модель, генерирующую поп-музыку.

                Нет, не создал. Не генерирует.
                Также, используя объективную метрику, я могу с уверенностью сказать, что музыка, созданная моей моделью, больше похожа на поп-музыку, чем та, что была создана с применением техник глубокого обучения.

                И не больше и не меньше. Это даже отдалённо не похоже на музыку вообще. Музыка != набор нот (хотя многие современные нам композиторы… да блин, каюсь, иногда даже эти нейросети лучше пишут).
                Таким образом, можно утверждать, что ноты гармонии по своей сути указывают, какие мелодические ноты могут быть выбраны в конкретной песне.

                Или наоборот. Называется гармонизация. Да, представьте, у этого всего есть даже термины.
                В качестве данных я использовал 20 разнообразных западных поп-песен в midi формате (полный список песен можно найти здесь).

                Во-первых, ссылка не открывается (Mozilla 67, IE 10). Во-вторых, 20 песен это вообще ничтожно мало и непонятно, какая исследовательская задача ставилась. Просто поприкалываться? Получилось. Как подбирались песни? По настроению, тональнастям, количеству отклонений (модуляций там нету, только секвенционные изменения тональностей), размеру (ой, там же только 4/4), ещё сотни (не преувеличиваю) параметров.

                В частности, я рассчитал вероятности перехода моих музыкальных нот. По сути, это означает, что наблюдая переход нот от одной к другой, мы можем вычислить вероятность того, что этот переход произойдет.

                Это даже для примитивной попсы достаточно сложная задача. Переходы нот подчиняются некоторым законам, с которыми желательно хотя бы поверхностно ознакомиться ДО постановки ТЗ.

                Резюме.
                Переходы нот, строение и изменение гармонии (гармонический план) — это не вероятности, а строгие законы. Я пытался это алгоритмизировать (поверьте, за решение задачек по гармонии теоретики (не педагоги) дерут большие деньги, нет я не пользовался, решал сам, хотел помочь некоторым несчастным духовикам :).
                Тут желателен состоявшийся математик, который пройдёт полный курс теории музыки. Наоборот, к сожалению, не выйдет. Энштейн мог играть на скрипке, а Ойстрах не был мастером над по шахматам.



                  0
                  Мне кажется вы сильно переоцениваете сложность [поп]музыки и ее сочинения. Равно как и необходимость математического образования для этого процесса. Собственно, математизация и излишне глубокое знание теории музыки будет скорее вредить.
                  Нет нужды думать о процессе написания музыки как о комбинировании нот по определенным формальным правилам. Это может быть тупое натаскивание подходящей нейронной сети (в машине ли, в голове) на примерах. К примеру, ни Леннон ни Заппа не имели формального музыкального образования, однако создали достаточно красивые запоминающиеся мелодии.
                  Хотя, им конечно далеко до композиторов с математическим образованием типа Пьера нашего, Булеза или Эдисона Денисова.
                    0
                    Мне кажется вы сильно переоцениваете сложность [поп]музыки и ее сочинения.

                    Хм. Посадку и взлёт самолёта алгоритмизировали, а простейшую попсу — нет.
                    Нет нужды думать о процессе написания музыки как о комбинировании нот по определенным формальным правилам.

                    Но это так, именно по определённым формальным правилам. Вы иначе слушать её не сможете. Честно. Вообще. Попробуйте Вагнера с его бесконечной гармонией. А это он только одно из правил даже не изменил, а модифицировал. Увертюр, кстати, не касается, там всё строго классично.
                    Это может быть тупое натаскивание подходящей нейронной сети (в машине ли, в голове) на примерах.

                    На данный момент — нет, не может. Или примеры в студию.
                    К примеру, ни Леннон ни Заппа не имели формального музыкального образования

                    А вообще-то имели. Но не формальное. Почитайте, сколько труда вложено. Есть перевод на русский язык.
                    Кстати, Edison Denisov: Piano Concerto Adagio начло вполне. Дайте знать, когда хотя бы нечто подобное сочинит алгоритм или нейросеть. Я, кстати, ставлю на алгоритм.
                    Сложность сочинения простой поп-музыки
                    1) Форма AAB или, чаще, ABAB. Восьмитакт без кадансового оборота (часто).
                    2) 4/4 подавляющее большинство случаев (просто попробуйте вспомнить сходу хотя бы 3/4)
                    3) Гармония TSD функционально вся, кроме отсылок к блюзу. (Там есть обороты TDS). Иногда, как краска, встречаются мажорные субдоминовые функцие в миноре или, наоборот, минорные доминантовые в мажоре).
                    4) Мелодия проста и, часто, строится на опеваниях гармонических нот. Или задержания. Или предыкты.
                    5) Ритмический рисунок разный максимум в частях A и B. Редко.
                    6) Динамика и фактура одинаковая на всей песне в основном.
                    7) Фактура (рифф, звукоизвлечение, штрихи и т.д.) имеет часто большее значение, чем всё остальное.
                    8) Подача «пения» имеет часто большее значение, чем всё остальное.
                    9) Пункты 7 и 8 не противоречат друг другу, они крайне редко совпадают
                    10)Это только совсем в общих чертах. Тысячи нюансов я физически в комментарий не смогу вместить. Но попробуйте представить, как это алгоритмизировать или сколько входных параметров должно быть у нейросети.
                    *Тоника, субдоминанта и доминанта — это функции. Например, II ступень в основном субдоминантовая функция.


                      +1
                      Сначала выскажусь на тему «пока не может». Да, это верно — не может.
                      Но, думаю, не потому что это ой как сложно, а скорее потому, что это неуловимый Джо. Возьмем недавний пример — компьютер давно обыгрывал человека в шахматы, но вот в го «не мог». И что? Несколько групп плотно занялись этой игрой — и вуаля, через несколько лет порвали Ли Седоля. Теперь вот говорят — ой, сложно в Доту играть. Да нет, не особо, просто мало кому нужно. Так, думаю, будет и с музыкой. Когда-нибудь, пусть не теперь, но через тридцать-сорок зим.

                      Далее, насчет сочинения с правилами и без. Тут эксперимент на одном человеке (и даже на миллионах) не показателен. Например, я не воспринимаю атональную музыку. Мне сложно слушать практически все, что было сочинено после Шёнберга.
                      Скажу больше, IMHO, — если случайной выборке из тысячи человек поставить музыку Хиндемита, Шнитке, Губайдулиной, <вставьте имя> — 99% скажет что это какофония а не музыка.
                      Но можем ли мы на этом основании скинуть их с корабля современности? Не думаю.
                      Впрочем, все это работает и в другую сторону. Помнится, когда Рудольф Зарипов ставил свои эксперименты (аж на машине Урал!) — несколько «машинных» творений передали в эфир, и просили слушателей сказать, могла ли машина сочинить такое? Простые люди писали что такую красивую и душевную музыку машина уж никак сочинить не может.

                      Какой отсюда следует вывод? Чтобы объявить что-то [поп]музыкой/какофонией надо сначала найти некий (желательно объективный) критерий. Не привязанный к вашему/моему музыкальному вкусу.
                        0
                        Впрочем, все это работает и в другую сторону. Помнится, когда Рудольф Зарипов ставил свои эксперименты (аж на машине Урал!) — несколько «машинных» творений передали в эфир, и просили слушателей сказать, могла ли машина сочинить такое?

                        Пруфы бы, я не верю.
                        Далее, насчет сочинения с правилами и без. Тут эксперимент на одном человеке (и даже на миллионах) не показателен.

                        Абсолютная чушь. Люди с музыкальным образованием сочиняют то, что вы слушаете.
                        Какой отсюда следует вывод? Чтобы объявить что-то [поп]музыкой/какофонией надо сначала найти некий (желательно объективный) критерий. Не привязанный к вашему/моему музыкальному вкусу.

                        Да сходите вы хотя бы в элементарную теорию музыки. Критериев там тонны. (Там они описаны, но специально для вас могу их скопипастить, если нужно). Просто хотя бы поверхностно изучите предметную область.
                        Да, сонатная форма сложнее песенной. Да, полифония сложнее гомофонии. Да, эти термины вам незнакомы и вы считаете, что это какая-то ненужная чушь, что музыка пишется сидя с гитарой за бутылкой водки на столе.
                        И ещё раз.
                        Нет, компьютер не может выйти даже на уровень примитивного Цоя.
                        Чайковского послушайте, сравните.
                          0
                          стоп-стоп, не надо так про Цоя :)
                          Если примитивные дворовые гитаристы подбирали и играли Цоевские септаккорды простыми трезвучиями — это не значит что у Цоя все примитивно. По крайней мере не примитивнее любой другой популярной музыки
                            0
                            Вижу много эмоции и голословных утверждений. Аргументации пока нет. Ну, скопируйте пару-тройку критериев, чтобы было о чем говорить.
                              0
                              Понимаете, вы можете даже попросить «ну, выложи скан диплома, а то я не верю, что ты аргументируешь не сгенерированным набором слов, а на основе каких-то знаний».
                              Я достаточно подробно, с цитатами разобрал ваш ответ, выше разобрал статью. С аргументами и примерами, какие у музыкального произведения есть характеристики.
                              Что это сложно.
                              А вы говорите «вы сильно переоцениваете сложность [поп]музыки и ее сочинения».
                              Но вы не можете оценивать сложность сочинения любой музыки, так как не знаете, по каким правилам это происходит и, вероятно, думаете, что этих правил совсем немного и они просты.
                              Ознакомьтесь хотя бы с этой статьёй.
                              Без формы не существует музыки, которую может слушать человек. Просто слушать, не говоря о «нравится/не нравится». Пруфы? Пожалуйста. Абсолютно вся музыка на вашем личном компе, которую вы слушаете, имеет форму. Совпадение? Вы так думаете?
                              Алгоритмические программы для сочинения музыки кое-как в простейшие формы умеют. Нейросетки — нет.
                              И, пожалуйста, примеры «голословных утверждений».
                                0
                                Cначала о сложности. Какую сложность вы имеете ввиду, говоря «это сложно»? Колмогоровскую, какую-то еще?
                                Далее, о форме — это слишком расплывчатое понятие. Все фрукты имеют форму, но банан по форме отличен от апельсина. Нужно больше конкретики.
                                Ну, и наконец о вкусах. Сможете ли вы сами, прослушивая, к примеру, минутные отрывки музыки сказать:
                                — отрывок сочинен великим композитором
                                — отрывок сочинен каким-то лохом
                                — отрывок сгенерирован машинной
                                  0
                                  Конечно. Минутные даже много, мне, скорее всего, хватит одного предложения (8 тактов).
                                  Я более того скажу, в минутном отрывке и вы и 95% людей с крайне высокой вероятностью дадут верный ответ.
                                  Про больше конкретики я дал ссылку. Там не так уж и много, некоторые основы и понятия.
                                  А вот чего вы не можете, а я могу, это в реалтайме слышать фактически всё (буквально по голосам), что сейчас происходит в музыке и в реалтайме это анализировать. Это, кстати, очень сильно мешает просто наслаждаться музыкой. Нет, коечно, для более-менее подробного анализа симфоний Брамса мне понадобится партитура. А ещё лучше я прочитаю разбор профессионального теоретика, исследователя конкретно Брамса. Для подробнейшего анализа классического скрипичного произведения мне партитура не нужна, да и переиграл я больше половины самых исполняемых. Анализировать поп-музыку — это не напрягаясь услышать несколько простейших вещей, понять, что за фишка в конкретной песне (причину её популярности) и выдать разбор. Хотя, например, Мадонну или Queen анализировать уже напрягаться нужно.
                                  Любой, даже самый средненький теоретик сможет в разы, если не в десятки раз больше услышать музыкальных характеристик и их значительно подробнее проанализировать. Ну, зато он на скрипке ничего не может :)
                                  Это к слову о сложности. У музыки есть сотни вполне измеряемых и неплохо определённых характеристик. И поп-музыка сознательно упрощена, сознательно откидывая множество средств музыкальной выразительности. Пруфы? Они выше под спойлером «Сложность сочинения простой поп-музыки». Или накатать, чего в поп-музыке часто отсутствует? Это будет сильно посложнее и подольше. Разнообразие темпов и ритмов (ритмический рисунок любого голоса крайне часто одинаков на протяжении всей части песни или вообще всей песни). Ну, и так далее, это всё уже в лекцию превращается.
                                  И всё-таки, очень хотелось бы примеры «голословных утверждений».

                                  P.S. Вы же знаете, что, например, музыка к фильмам создаёт не просто фон, а определённое настроение. Это же явно не случайно получилось. Стоит ли предположить, что существует множество разнообразных, но вполне определённых приёмов, правил, чтобы достичь задуманного эффекта?
                                    0
                                    Ок, начну с голословных утверждений:
                                    — сонатная форма сложнее песенной.
                                    — полифония сложнее гомофонии.
                                    — вы считаете, что музыка пишется сидя с гитарой за бутылкой водки на столе.
                                    — Нет, компьютер не может выйти даже на уровень примитивного Цоя

                                    Первые два абсолютно голословны пока мы не определили что такое сложность. Третье очевидно голословно, ибо откуда вам знать, что я считаю? А вдруг я сочинял большие рондо, и дирижировал К-мерным окрестром когда вы еще ходили пешком под стол?
                                    Ну и последнее голословно вдвойне. Потому что надо еще показать примитивность Цоя, а уж потом говорить о том, что может компьютер.
                                      0
                                      Вы меня троллите, что ли?
                                      Вам ссылок на вики накидать опять?
                                      Сона́тная фо́рма — музыкальная форма, состоящая из трёх основных разделов, где в первом разделе (экспозиции) противопоставляются главная и побочная партии, во втором (разработке) эти темы развиваются, в третьем (репризе) повторяется экспозиция.
                                      vs
                                      Куплет — припев.

                                      Самостоятельное развитие всех голосов по фантастически строгим правилам
                                      vs
                                      Мелодия — аккомпанемент (крайне упрощённо, но по сути верно).

                                      А вдруг я сочинял большие рондо, и дирижировал К-мерным окрестром когда вы еще ходили пешком под стол?

                                      Нет. Абсолютно точно нет. Или действительно просто развлекаетесь и троллите.
                                      Про Цоя я могу провести сравнительный анализ да хоть с кем из ЛенРокКлуба, но меня же тут затопчут.
                                        0
                                        Этот комментарий написан как ответ пользователюю dimaviolinist, однако адресован всем интересующимся музыкой. Возможно, в дальнейшем он будет выделен в отдельный пост.
                                        Playlist по ссылке (https://soundcloud.com/user-749636376/sets/ai-vs-people) содержит 18 коротких фрагментов. Среди них есть сочиненные машиной, но исполненные людьми, и наоборот — сочиненные людьми, но исполненные машиной.
                                        Это музыка разных авторов, направлений и жанров. От великих композиторов до обычных людей и просто железок. Есть там и мои эксперименты.
                                        Единственное, что пожалуй, объединяет все композиции — они созданы относительно недавно. Понятно, что вашей музыкальной эрудиции скорее всего не хватит для того, чтобы узнать все эти отрывки.
                                        Однако, постарайтесь держать себя в руках и не пользоваться автоматическими распознавателями музыки, прежде чем составите свое собственное мнение об авторстве. Удачи.
                                      0
                                      Ок, музыкальные фрагменты я подготовлю (не быстро).
                                      Вы пока можете почитать что писали умные люди про машинное моделирование музыки в 1973 году:
                                      dml.cz/bitstream/handle/10338.dmlcz/124736/Kybernetika_09-1973-5_7.pdf

                                      И главное: задумайтесь над понятием сложность. Конкретно — о ее численном выражении.
                                      Пусть вам дан массив нот произведения, нужна функция, которая скажет, насколько оно сложно.
                                      Типа: complexity(«BACH»)=4.
                                        0
                                        Простейшую мысль пытаюсь донести. Сложность в количестве средств музыкальной выразительности (сотни), взаимосвязях между ними (десятки тысяч), правилах этих взаимосвязей (тысячи).
                                        Простой пример. Композитору через некоторое время показалось, что тут лучше будет не гобой, а флейта. И то и другое — деревянные духовые. Диапозон совпадает, у флейты даже больше (условный, попробуйте находиться с флейтистом, когда он свистит двойным передувом в третьей октаве, гарантирую незабываемые впечатления). Так вот, композитор будет переписывать почти весь кусок, связанный с этой партией, как минимум половину партитуры.
                                        Про машинное моделирование музыки в 1973 году
                                        1) Подход, как с шахматами с музыкой не сработает. Он уже не сработал. Мой телефон обыграет как минимум мастера международного класса, а музыку, даже самую простую, не сочиняет.
                                        2) «Приведем примеры элементарных преобразований» и их всего 8? Правда, что ли? Или другие не важны? «Изменение ритма с сохранением ритмических акцентов.» Вот я бы посмотрел на алгоритм. Это огого прорыв стал бы.
                                        3) «Орнаментальная вариация — наиболее простой вид вариаций» и это то, чего добился автор. Про сочинение музыки даже речи не идёт.
                                        4) «Были заданы тема К0 и песенный ритм Кв» и сделана, по сути, машинная аранжировка. Уже давно существует. Кстати, алгоритмическим способом.
                                        А вообще, шикарно. Вот бы мне это попалось 25 лет назад, когда я с этой же задачей тыкался на ТурбоПаскале 5.5.
                                        Як буде час і натхнення, нужно будет развить идею, человек явно консультировался с Дунаевским, просто потому, что применяет «Потактовый способ».
                                          0
                                          Тут вы отвечаете на другой вопрос. Я же спрашивал, как вы будете измерять сложность одной, конкретно взятой композиции. В отрыве от ее генезиса.
              +3
              Полностью согласен, подгонка теории под результат ненаучна. В статье упрощенная модель на основе марковских цепей строится на фрагменте элементарной теории музыки, а после обучения на 20 песнях алгоритм дает пусть наивные, но результаты. Вопрос не в том, хорошие результаты получаются, или наивные. Вопрос скорее в том, стоит ли акцентировано закладывать эти фрагменты теории музыки в нейронные сети для улучшения их результатов, или позволить сетям самостоятельно открывать эти свойства на основе больших массивов данных. Ответ на этот вопрос нам даст время: рано или поздно алгоритмы научатся сочинять музыку, которая будет нравиться людям.
              +5
              У ИИ неплохо black metal получается сочинять
                +1
                а где на сайте Ланита вакансии по данной специальности?
                  0
                  вакансию видят только роботы, не способные пройти тест на капчу :)
                    0
                    я имел в виду эту ссылку, где я не нашел ничего по поводу машинного обучения
                      0
                      Спасибо за интерес! Даже если и нет вакансий в открытом доступе сейчас, мы будем рады познакомиться с Вами и возможно мы сможем сотрудничать в будущем. Можете писать на почту a.prosvetov@cleverdata.ru, буду рад.
                    0
                    Добрый день, в данный момент в группе компаний ЛАНИТ нет открытых вакансий по данной специальности. На нашем карьерном портале job.lanit.ru Вы можете ознакомиться с другими вакансиями компании. Также Вы можете направить нам свое резюме и мы с радостью рассмотрим его при появлении вакансий в этой области. Адрес для резюме job@lanit.ru.
                    0
                    Все это круто, но только копаете не туда.

                    Во-первых на дворе уже 21 век, а не конец 19го (с акустическими инструментами, издающими простые тональные звуки), обычная музыкальная теория это только малая часть современной поп-музыки. Большое значение имеют сэмплы и шумы, которые являясь некими отсылками к слышанному ранее (пережитому жизненному опыту) — создают нужное настроение в песне (например телефонный разговор, шумы аэропорта, райзы и дропы или небольшой сэмпл старой песни). Никаких нот не хватит чтобы это описать.

                    Во-вторых поп-музыка это отнюдь не какое-то там высокое искусство, это просто аккомпанемент к брачным танцам высокоразвитых приматов и ее задача — быть максимально простой, запоминающейся, создающей нужное настроение, (в т.ч. и с помощью текста про любовь-морковь). Золотое правило хорошего хука — не более 3-4 нот, иначе он не будет прилипчивый.
                    Также важной частью этого аккомпанемента к брачным танцам является видеоряд. Показанная в нужный момент в этом видеоряде упругая задница может дать большее преимущество этой композиции в хит-парадах, нежели какие-либо там композиторские ходы и исполнительское мастерство :)

                    Может нейросети/алгоритмы и смогут что-то сгенерировать в мудреных жанрах вроде блек/дет/прог металла, классики и тп, но до секса в поп-музыке им еще очень далеко.
                      +2
                      Машинное обучение наступает широким фронтом. Отчасти роль в формировании пикантных изображений на себя взял Deepfake и судя по широкому резонансу, успехи нейронок продолжат нас радовать. Кроме того, в этой задаче есть место и для обучения с подкреплением: чем больше слушают синтезированный трек, тем больше может быть за него награда синтетическому автору. Таким образом, только вопрос времени, когда появится подходящий рецепт смеси слоев и лоссов для нейронки, чтобы нужный эффект был достигнут.
                        0
                        Даже лучшие из пикантных картинок дипфейка выглядят крипово, об остальном вообще молчу, тем более что пикантные картинки — это не сексуальность и харизма фронтмена, а только картинки.
                        Понятно что мощности систем растут и однажды получится закидать шапками любую задачу, но это все какой-то экстенсивный путь.
                        Что касается видео мне кажется правильнее будет построить 3д модель (а не генерить картинку нейросетью) и научить стильным модным жестам и движениям, тем более что и 3д модели сейчас есть с успехом в инстаграме и с жестами все хорошо получается.
                      0
                      «Машины» лишены творческой составляющей
                      Пока что сгенеренные композиции слишком примитивны — невозможно слушать.
                      В музыку должен закладываться смысл, философия...сейчас это похоже на набор бессмысленных слов, которые просто рифмуются… и то не очень.
                      Уверен, в недалёком будущем результаты будут намного лучше.
                        0

                        Вот пример того, что могут соченить современные нейросети
                        https://youtu.be/pgTQIXTqbXY


                        Здесь есть и повторяемая тема, и логические части произведения


                        А вот лекция на TED от авторов
                        https://youtu.be/wYb3Wimn01s

                          0
                          Я попробовал AIVA. Лютая чушь на выходе. Есть вероятность, что это не музыкальная мистификация, но в таком случае, определённо есть люди, которые прослушивают тонну лютой чуши, отбирают нечто средненькое и отдают профессиональным композиторам на обработку. Что выглядит диковато, проще со старту написать то, что требуется. Есть вероятность, что free версия aiva ai специально урезана (обучена?) писать полную ерунду. Может и так. Но мне сложно поверить, что с 2016 года никто не повторил даже малой доли этого успеха. Всё это сильно смахивает на бизнес Элизабет Холмс.
                          Но если это на самом деле машинное творчество (то, что выставлено в рекламных целях на ютубе), то симфонические произведения — это фоновая музыка для фильма, фортепианные — неуклюжие стилизации студента-композитора на первом-втором курсе. Струнный ансамбль похож на задачку по гармонии :) Кстати, если они научат aiva по фотке онлайн решать задачки по гармонии, то стоимость подобной услуги могут ставить даже больше полной месячной подписки.
                          Кстати, в презентации только общие фразы, красивые картинки и никакой конкретики.
                          Музыка — это очень странная сфера. Одна нота не на том месте сводит всю остальную художественную ценность произведения фактически в ноль. Несколько фальшивых нот у исполнителя на одном концерте могут сломать карьеру (слегка преувеличиваю, но и такие случаи бывали). И тут AI, который по определению выдаёт вероятности, пишет хорошо прилизанные стилизации? И никто кроме aiva не смог, все слишком тупые?
                          Из презентации as a musician and an engineer, в линкендине ни слова о музыкальном образовании.
                          Учитывая тонны невостребованных, но профессиональных композиторов и теоретиков, которых можно поманить весьма средней денежкой…
                            0
                            если отслушивать тонны шлака, то это ничем не лучше, а то и хуже технологии KARMA из конца 90х (karma-lab.com)
                          0

                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                          Самое читаемое