Articles / Profile of AlexHanguery / Habr

Алексей Устинов @AlexHanguery

Радиоинженер, разработчик, музыкант, преподаватель

ProfileArticles8PostsNewsComments24

AlexHanguery Sep 18 at 08:56

Suno, Cover: «На свободу с чистой...»

Medium

10 min

661

Artificial IntelligenceSoundThe future is here

Opinion

Как обычно, не претендую на полноту освещения вопроса, но надеюсь, что информация будет полезной.

Кажется, критическую точку внедрения музыкального ИИ в жизнь мы уже прошли: за пару дней, похоже, создается музыки больше, чем 10 лет назад за год. Ведущие музыкальные ИИ‑сервисы уверенно обрастают функционалом DAW, а DAW включают все больше инструментов ИИ. Музыканты уже не всегда отличают генерации от живого (впрочем, и до ИИ в музыке с каждым днем живого становилось все меньше). Профессионалы, хоть и с упреками, приняли и применяют разделение (Split) и работу со стемами. Аранжировщики не гнушаются заимствовать идеи у ИИ. Вслед за детекторами ИИ появились сервисы «гуманизации» и «отмывки прав». Даже наши знаменитости, как и западные артисты, если на словах в большинстве еще и остаются приверженцами «настоящего», то в жизни ищут способы использования ИИ — бизнес!

В области финансов и права три группы крупных игроков: обладатели прав, стриминговые сервисы (и др. продажники) и представители генеративного ИИ. Все ИИ‑сервисы используют известную музыку для обучения: одни по лицензии, другие — без спроса. Да, это главная претензия (зацепка), но причина, как всегда, в том, что кто‑то теряет доходы.

Какая разница, на чем учился ИИ? Тут лукавство изначально: мелодию ведь ИИ не повторяет! Вот как было и есть с людьми: «А» заявляет, что «Б» украл у него мелодию. Суд, знатные эксперты (композитор, музыковед, звукорежиссер), материальные доказательства (партитуры, диски, флешки в конвертах с почтовыми печатями, свидетельства регистрации, проекты DAW с ПК и т. п.), проверяют сходство мелодий у «А» и «Б», смотрят на даты — кто раньше сочинил — отсюда решение.

AlexHanguery Oct 17 2024 at 09:47

Suno: "… если бы я так мог, ..."

Medium

8 min

5.1K

The future is hereSoundArtificial Intelligence

Interview

Mark Shiloh, Влад - наш бывший соотечественник, более 20 лет живущий в Новой Зеландии (Окленд ), профессиональный музыкант, мульти-инструменталист с большим практическим опытом, ныне преподаватель и директор музыкальной школы... Более 30 лет назад мы вместе работали в Новосибирской консерватории. Когда в моей команде разрабатывали программу морфинга параметров синтеза для Yamaha DX7, Влад приобрел редкий и крутой SY99. Этот одаренный и энергичный парень поражал меня тем, что до мельчайших деталей штудировал толстенную инструкцию SY99 и задавал такие вопросы, которых я никогда больше не слышал ни от одного музыканта. Я бы сказал, что он, благодаря своему пытливому характеру, к профессии музыканта добавил квалификацию sound-инженера...

Сейчас мы в контакте и я, как и другим знакомым, периодически посылаю ему примеры, которые сгенерил в Suno... Две песни Влада "зацепили". У меня, честно говоря, отношение к генерациям более спокойное, особенно, когда их 50 в неделю и больше... Вот, пишет: "Сколько стоят эти твои песни?" ( Странная девушка v2.1 и Бледно-розовый оттенок v2.1 ). Я ему: "У меня нет на них прав, т.к. аккаунт Free" ... Потом, раз в неделю он писал/говорил о каких-то фишках во 2-й: "Посмотри, как здесь пропето ..., а вот здесь гитара" и т.п. Ну, на самом деле, мне не до этих нюансов - слишком много текущей работы... и я предложил ему записать наш разговор - получится что-то вроде интервью ^1,2, наверное, кому-то будет интересно. Он сказал "окей" и мы созвонились 14 октября 2024 г.

+10

AlexHanguery Oct 12 2024 at 07:53

Suno как аранжировщик etc

Medium

14 min

14K

Artificial IntelligenceSoundThe future is here

Opinion

Доброго времени всем пользователям Suno и тем, кто интересуется технологиями ИИ в музыке. Как и ранее не претендую на полноту освещения вопроса, но надеюсь, что информация будет полезной

Под аранжировкой обычно понимают создание инструментального трека (минусовки, backing track) на основе мелодии или мелодии + гармонии, с определенным стилем, темпом, формой/структурой. Suno генерирует песни (и инструментал) целиком с задаваемыми (относительно) стилем и формой. Показалось интересным протестировать систему на возможность создания нужной аранжировки. Особенно после своих экспериментов с Audio Input (см. статью), когда эта функция Suno стала очевидной. Да и читатели обращались с подобным вопросом. Так я затеял серию экспериментов, результаты которых представил в пяти тестах. (Все звуковые примеры и детали у меня на сайте).

За последние пару месяцев я сделал более 80 DS (dataset, исходников), как с вокалом, так и инструментальных. Причем, чаще это была не просто отрезка фрагмента до 60 сек. из готового трека, а его препарация или сборка фрагмента c нужным содержанием (вокал, аккорды, Hi-Hat Loop и т.п.).

Тест #1 / от спетой мелодии, текста... ("По-Гру-Гла-Но ...") *.

Отталкиваясь от удачного опыта с генерацией аранжировок в разных стилях на а капеллу Воробей я решил провести более детальный эксперимент: на входе спетая мелодия + текст (Lyrics) и задание Style. Классно же спеть свою мелодию, скормить Suno и получить готовую песню в нужном стиле...

Написал простую мелодию, сочинил шуточный текст, включающий Bridge, Verse и Chorus и пропел все это на простую гармонию. Сначала в темпе 90 bpm - тогда пришлось сделать 2 разных DS: Bridge+Verse и Bridge+Chorus, иначе нельзя было уложиться в ограничение в 60 сек. Затем - в темпе 102 bpm: Bridge+Chorus, здесь Bridge уже не пропевался.

+14

AlexHanguery Aug 8 2024 at 10:12

Suno prompt (стиль) = рыбалка. Альтернатива?

Medium

12 min

The future is hereSoundArtificial Intelligence

Opinion

Как всегда, не претендую на полноту и надеюсь, что кому-то поможет. (Предыдущие мои статьи о Suno 1, 2.)

Да, важная, непростая и "больная тема". Многие жаловались на непредсказуемость генерации, о сложности получить то, что хочется. Еще в первой статье о Suno я пытался разобраться как работает система, дать определение стиля в музыке, понять как составлять Promt - набор ключевых параметров генерации... Прошло 3,5 мес., 9 июля Suno support поздравил с преодолением порога в 500 генераций ... стала ли мне понятнее система?

До ИИ систем все было проще - почти на всех устройствах значения параметров определяли результат. И, естественно, мы ожидали аналогичного или даже большего "понимания" от ИИ сервисов - там же "интеллект". Для преодоления эффекта новизны и принятия этого свойства ИИ алгоритмов, мне кажется, полезно потренироваться в создании картинок по тексту.

Вот, пишу, по шагам подбираю prompt (лучше на английском):

AlexHanguery Jul 8 2024 at 11:10

Suno споёт моим голосом? Ну, … да

Medium

10 min

53K

Artificial IntelligenceSoundThe future is here

Opinion

Доброго дня/вечера! Статья по использованию в Suno опции Audio Input (в продолжение предыдущей статьи о Suno).

Кратко. Вы загружаете короткий (6-60 сек) фрагмент аудио, задаете Стиль, текст (если песня) или нет (если Instrumental), а Suno его "дописывает", доигрывает. С опцией "Get Whole Song", как и ранее, можно объединить исходное и новое в одну композицию.

Суть (как я понимаю) в том, что алгоритм пытается распознать закономерности в загруженном фрагменте, я бы даже сказал "музыкальное содержание" не в эмоциональном человеческом понимании - грустно, весело, трагично и т.п., а в формальном смысле - какая ритмическая структура, какая гармоническая последовательность, где мелодические линии, какие штрихи, тембры, какая форма. Хотя это тоже "человеческое", робот, скорее, ищет закономерности в графическом (спектральном) представлении всего этого. В итоге это берется за основу, чтобы продолжить "рисовать".

Кажется есть одна близкая аналогия: если вам дадут обрывок картинки и попросят дорисовать, что получится? Чем больший фрагмент вам выдан, тем меньше будет ошибок, "произвола" в дорисовке. Также и Suno. Я пробовал и 6 сек., и 60. В первом случае было мало чего "повторять", а при максимальной длине у системы есть что анализировать - по хорошему, в 1 минуту можно вложить короткий инструментальный проигрыш, куплет и припев - т.е. почти весь значимый материал песни.

Важный момент: чужие фрагменты подгружать нельзя (т.е. те, на которые у вас нет прав) - появляется Pop-Up окошко. А как хочется "скормить" 60 сек. что-то вроде "Stairway To Heaven" / Led Zeppelin - и "доиграть" уже со своими словами!

AlexHanguery Apr 24 2024 at 14:51

Suno есть, скрипач не нужен!?

Medium

19 min

17K

Artificial IntelligenceThe future is here

Opinion

Я еще не совсем отошел от шока полугодичной давности, когда познакомился с RVC ... а тут новый прорыв - Suno. Думаю, многие если и не знакомы с самим сервисом, то слышали результаты - саундтреки с вокалом, полностью сгенерированные ИИ, по сути, не отличимые от живого исполнения. Хотя, конечно, еще до ИИ в музыке стало так много синтетики, что теперь и музыкант не всегда определит, как именно она была сделана.

В общем, то, о чём мечтают многие сочинители текстов - положить свои стихи на музыку, стало невероятно простым и доступным. Именно невероятно - 3 клика и Suno за 30 сек выдает 2 варианта песни на ваш текст в выбранном вами стиле.

Я не первый, кто взялся написать об этом удивительном сервисе, но мне кажется, что у меня есть некоторые догадки, позволяющие предположить, как эта система устроена внутри. А понимать принцип работы, значит меньше совершать ошибок и быстрее достигать желаемого результата. Пока, к сожалению, работа с Suno похожа на управление "пищевым конвейером инопланетян" - на выходе в целом правильная и даже вкусная еда, но не совсем то, что ты ожидал получить, делая заказ. Правда, этому есть и объективные причины.

Сначала пару строк о качестве. Это ведь важно?

Suno генерирует, правильную, качественную, профессионально звучащую музыку, которую вы слушаете как-бы через некачественные колонки. Т.е. музыкальное качество высокое, а звуковое - не всегда, но ... Вот отзыв Сергея Кокорина, руководителя и дирижера сочинского Биг-Бенда, на один из первых примеров Suno, который я ему показал: "... поразительно точно соблюдены все правила штрихов, нюансов, аранжировки... Удивительно верное инструментальное произношение свинга! У вокалистов чудесный порядок, и в сольном произношении, и аккордовом! Огромное количество подробностей учтено!!! Поразительная железяка, хорошо это слышно, но не верится...". И согласитесь, живой джаз - очень непростая музыка для имитации, это не клубный трек.

+22

AlexHanguery Dec 25 2023 at 19:09

NVM+RVC = вокал профи?

Medium

17 min

22K

Artificial IntelligenceThe future is here

Opinion

Да, теперь, благодаря ИИ, любой, даже не поющий может отлично петь на любом языке. Как это работает и к чему может привести?

NVM (Neural Voice Model) — нейронная голосовая модель

RVC (Retrieval-Based Voice Conversion) — преобразование голоса на основе поиска

Я не претендую на полноту раскрытия темы — она емкая и стремительно развивается, в ней каждую неделю, месяц появляется что-то новое. Но надеюсь, что мой опыт поможет интересующимся войти в неё быстрее.

Да, еще. Обычно профессионалом считают того, кто навыку обучался, им владеет или того, кто этим зарабатывает. Но все мы знакомы с людьми, которые прекрасно поют, но они не заканчивали ДМШ, колледж, консерваторию, не учились вокалу и не зарабатывают пением. К слову, вокальное отделение — единственное в консерватории, в приеме на которое не требуется аттестат музыкального колледжа, а возрастной порог 35 лет (по крайней мере, так было 20 лет назад).

+18

AlexHanguery Mar 18 2020 at 11:41

Генератор музыки. Web Audio API. Опыт новичка

12 min

12K

JavaScript *

From sandbox

Контекст и предыстория

Мне 62. Года три назад решил попробовать написать достаточно сложную систему, до этого было только 20 строк на бэйсике в 1981 г., когда нам на 5 курсе радио-факультета (НГТУ, ранее НЭТИ) воткнули 3 месяца информатики. Профессионалом принято считать того, кто предметом владеет и на нем зарабатывает, так что по факту я — новичок.

С другой стороны, я почти всю жизнь занимался относящимися к музыке алгоритмами, застал процесс развития и железа, и ПО и по мере сил участвовал в нем. В 1978 разработал и собрал синтезатор а-ля Mini-Moog (полагаю, 1-й за Уралом), разработал и выпускал 1-ю в СССР звуковую карту с синтезатором для Агат7(9) — советский аналог Apple II, проектировал модуль FM-синтеза для одного из заводов, сотрудничал с Cakewalk (США), PGMusic (Канада), PowerFX (Швеция) — чаще по схеме: «идеи и воплощение от нас, бюджет — от них», участвовал в международных музыкальных выставках MusikMesse (Германия), NAMM (США) и пр.

Читать дальше →

+22