Как создать песню с помощью нейросети: пошаговый гайд по созданию музыки в ИИ онлайн / Хабр

Всем привет! Мы команда era2.ai (разработчики музыкального ИИ‑сервиса). Мы не пишем теорию из статей, а построили собственный продукт на базе API Suno, протестировали, без преувеличений, тысячи промптов, изучили механику модели изнутри и видели немало. От треков, которые звучат как телефон на вибрации в жестяной банке, до настоящих хитов, которые хочется слушать снова.

Эта статья представляет собой концентрат того, что мы узнали, и пошаговый гайд, как сделать песню в ИИ без опыта.

Сразу о главном: для нашего ГЕО сегодня СУНО недоступна! Поэтому мы создали свою AI‑студию на их API, и решили показать в чем разница. При этом расскажем, как использовать и тот, и другой сервис, а Вы сами решите, что удобнее для Вас.

Использовать Suno напрямую — нужно зарегистрироваться виртуальную карту иностранного банка и обзавестись хорошим сервисом для смены IP, разобраться в настройках, о чем мы расскажем.

Использовать Era2.ai на API Suno без карты и смены IP. Попробовать сделать песню с помощью нейросети.

Как создать создать свою первую песню нейросетью?

Теория без практики всего лишь пустой звук. Поэтому покажем весь процесс, как сделать песню через нейросеть Suno на живом примере.

Задача: создать трек в духе Imagine Dragons «Natural» на русский текст. Хотя бы приблизиться к этому, ведь в Suno есть цензура, которую мы обошли в music.era2.ai. Сначала разложим стиль в GPT или Claud. Текст нам напишет GPT.

Вот текст, с которым мы работаем:

Иду вперёд, хотя нет сил,
Как будто кто-то отпустил.
Но всё равно держу шаги,
Хоть в голове одни долги.
Дорога жмёт, но я в пути,
Назад уже не перейти.
И каждый вдох как будто бой,
Но он всегда идёт со мной.
Пусть ломит плечи, тянет вниз,
Но я не слушаю каприз.
Не ради цели, не наград —
Просто не шагнуть назад.
И если рухну — встану вновь,
Так держит что-то вместо слов.
Идти вперёд — не выбор мой,
А то, что стало мной самой.

Просим разобрать на атомы «Natural» в Claud.

Теперь мы знаем, что темп около 108 BPM, оркестровые перкуссии с тяжёлым ударом, дисторшн гитара, мощный нарастающий вокал с хрипотцой, cinematic ощущение, стиль 2010-х arena rock.

Собираем промпт по формуле:

ЖАНР — Anthemic cinematic rock
ТЕМП — 108 BPM
НАСТРОЕНИЕ — defiant and raw
ИНСТРУМЕНТ — orchestral percussion, distorted electric guitar
ВОКАЛ — raspy powerful male vocal
ЭРА — 2010s arena rock
РЕФЕРЕНС — stadium anthem style

Все семь элементов на месте. Можно приступать!

Вот наш промпт:

Anthemic cinematic rock, 108 BPM, defiant and raw mood, orchestral percussion, distorted electric guitar, driving synth bass, raspy powerful male vocal, 2010s arena rock, stadium anthem style

Шаг 1: Открываем Suno и переключаемся в Advanced

Заходим на suno.com, нажимаем Create. В верхней части экрана видим два переключателя: Simple и Advanced. Нажимаем Advanced, ведь именно здесь открывается полный контроль над треком. В Simple режиме нет ни ручного ввода текста, ни тонких настроек, там только одно поле и надежда на удачу, что и ломает большинство хороших композиций.

В случае с music.era2.ai все гораздо проще. Достаточно просто выбрать нужный режим, и загрузить свой текст. Также учтите, что наша модель уже взаимодействует с API от GPT, поэтому можно ограничиться простым мотивом без сложного текста.

Шаг 2: Настраиваем More Options — это важнее, чем, кажется

Прокручиваем вниз до раздела More Options. Здесь четыре параметра, которые большинство новичков Suni AI игнорируют, а именно поэтому генерация песни с вокалом дает не то, что представляли у себя в голове. Сразу обозначим, что эта инструкция — на будущее, ведь часть полей не работает в бесплатной версии.

Vocal Gender → Male. Кликаем на Male. Без этого модель сама выберет пол вокала, и угадает не всегда. Для нашего трека в духе Imagine Dragons мужской голос обязателен.
Lyrics Mode → Manual. Переключаем на Manual. Это говорит модели, что Вы сами датите текст, и ей не надо ничего выдумывать. Auto это автогенерация лирики, шаблонная и безликая.
Weirdness — снижаем до 25%. Этот параметр отвечает за эксперименты, что создает непредсказуемость звука. По умолчанию стоит 50%. На мой взгляд, слишком много для коммерческого трека в жанре rock. Снижаем до 25–30%. Нам нужен узнаваемый, структурированный стиль, а не авангардный эксперимент.
Style Influence — поднимаем до 75%. Это сила влияния вашего промпта из поля Styles на итоговый результат. Чем выше — тем точнее модель следует вашим жанровым параметрам. Поднимаем до 75%.
Song Title → «Иду вперёд». Необязательное поле, но заполняем. Название помогает модели держать общий контекст и тему.

Наша экосистема уже оптимизирована. Чтобы сгенерировать песню на русском в era2.ai Вам достаточно выбрать стиль или даже исполнителя/группу, и все.

Итоговые настройки More Options для нашего трека:

Vocal Gender → Male
Lyrics Mode → Manual
Weirdness → 25%
Style Influence → 75%
Song Title → Иду вперёд

Результат настроенного More Options в Suno:

А теперь тот же результат в Era2.ai без сложных настроек.

Шаг 3: Вставляем промпт в поле Styles

Копируем наш промпт целиком в поле Styles (не в Lyrics). Если хотите, чтобы эта нейросеть для создания песен отработала идеально, пишите промпты в Claud.

Шаг 4: Вставляем текст в поле Lyrics с разметкой структуры

Теги структуры — это ещё один язык, который Suno понимает. Они говорят модели, как строить трек, то есть, где нарастать, где взрываться, где отступить.

[Intro - slow build]

[Verse]
Иду вперёд, хотя нет сил,
Как будто кто-то отпустил.
Но всё равно держу шаги,
Хоть в голове одни долги.

[Pre-Chorus]
Дорога жмёт, но я в пути,
Назад уже не перейти.

[Chorus - powerful]
И каждый вдох как будто бой,
Но он всегда идёт со мной.
Пусть ломит плечи, тянет вниз —
Я не слушаю каприз.

[Verse 2]
Не ради цели, не наград —
Просто не шагнуть назад.
И если рухну — встану вновь,
Так держит что-то вместо слов.

[Bridge - stripped back]
Идти вперёд — не выбор мой,

[Outro - full power]
А то, что стало мной самой.

Почему именно такая структура?

Чтобы сгенерировать песню по описанию, и получить хороший результат Pre‑Chorus критически важен, потому что без него хор «отлетает» без подготовки, теряется нарастание. Bridge stripped back — это момент тишины перед финальным взрывом, классический приём Imagine Dragons. Outro full power — явная инструкция для модели, чтобы выдавала максимум энергии, не гасилась.

Шаг 5: Генерируем

Нажимаем Create. Suno в бесплатном режиме выдаёт два варианта (в платном еще два, которые всегда звучат лучше). Слушаем оба, и выбираем. Для большинства задач этого достаточно, и Вы уже знаете, как создать песню с помощью нейросети без траты лишнего времени.

Что проверяем сразу:

Вокал мужской и с хрипотцой?
Есть нарастание к хору — или всё ровно?
Перкуссия тяжёлая, оркестровая?
Синтезаторный бас тянет под гитарой?

Если что‑то не так, то повторяем. Это нормально. Норма — 3–5 попыток. Модель предсказывает паттерны, а не выполняет команды. Иногда чтобы создать песню нейросетью нужно больше попыток. Регенерация — часть рабочего процесса, не признак ошибки.

Как вы понимаете, мы показываем первую попытку без регенераций. Кстати вот Второй трек, который получили. Он слабее, но все же для бесплатной версии неплохо. К тому же, с первого раза.

Естественно, music.era2.ai тоже выдает 4 варианта трека.

Сильные и слабые стороны SUNO AI

На практике Suno — это очень мощный инструмент с очень конкретными правилами работы. Однако, сервис не безупречен. В частности, цензура не имена артистов приводит к тому, что повторить стиль очень сложно — почти нереально. Эта проблема как раз и послужила одной из причин, почему мы сделали music.era2.ai.

Что Suno умеет хорошо делать? Создавать полноценные треки за 30 секунд. Генерировать музыку в десятках жанров. Писать лирику автоматически. Работать с кастомными текстами. Наращивать трек по частям (куплет за куплетом) до полноценной 3–4 минутной песни.

Что Suno не умеет? Здесь начинается самое важное. Suno не понимает имена артистов. Попросите его сделать трек «в стиле Imagine Dragons», и модель либо проигнорирует запрос, либо выдаст что‑то абстрактно похожее на рок. Сервис работает в условиях жёстких авторских ограничений. То есть никаких прямых референсов на реальных исполнителей, никакого клонирования голосов, никакого воспроизведения существующих песен в другом жанре.

Именно здесь у большинства начинающих пользователей Suno и начинаются проблемы. Они хотят конкретный звук, но не знают, как его описать без имени исполнителя.

Главная ошибка, которую делают все новички

Мы видели тысячи промптов. И 90% неудачных генераций объясняются одной причиной, у них запрос слишком размытый.

Вот типичные примеры того, что люди пишут:

«Сделай весёлую поп‑песню про лето»
«Грустная баллада с гитарой»
«Хип‑хоп с хорошим вайбом»

Suno не ищет вдохновение в вашем запросе. Он ищет параметры. Чем точнее параметры — тем точнее результат. Эту проблему мы тоже учли и решили в нашем сервисе. Там уже интегрирован ГПТ, который позволит Вам вводить такие простые вещи и получать профессиональный результат.

Формула промпта из 7 элементов

После анализа сотен треков и тысяч промптов мы выявили структуру, которая стабильно даёт качественный результат. Она выглядит так:

[ЖАНР] + [ТЕМП] + [НАСТРОЕНИЕ] + [ИНСТРУМЕНТ] + [ВОКАЛЬНЫЙ СТИЛЬ] + [ЭРА] + [РЕФЕРЕНС ЗВУКА]

Разберём каждый элемент инструкции для СУНО подробно, потому что в деталях и скрывается разница между пластиком и живым звуком.

Элемент 1: Жанр

«Рок» или другой стиль — это не просто жанр для промпта. Это континент.

Suno работает с узкими поджанрами, потому что именно они несут конкретную звуковую информацию, включая характерные инструменты, типичное звучание, привычные структуры.

Сравните:

Rock
Melancholic indie folk
Anthemic cinematic rock
Progressive synth‑pop
Dark alternative R&B

Чем точнее жанровое определение, тем меньше модель додумывает за вас.

Элемент 2: Темп

Слова «медленный», «умеренный», «энергичный» и другие прилагательные для Suno почти бессмысленны. Они субъективны. У каждого своё «быстро», и не стоит давать нейронке размышлять вместо Вас.

BPM — это язык, который модель понимает точно:

70–85 BPM → медитативно, задумчиво, меланхолично
90–110 BPM → баллада с пульсом, mid‑tempo anthems
120–130 BPM → энергично, танцевально
140+ BPM → агрессивно, интенсивно

Элемент 3: Настроение

Базовые эмоции типа «грустный», «весёлый», «злой», как и в случае с темпом СУНО понимает по‑своему.

Используйте кинематографические подсказки:

Melancholic (меланхоличный — не просто грустный, а с горьковатой красотой)
Defiant (упрямый, непокорный — злость без истерики)
Euphoric (эйфоричный — не просто весёлый, а приподнятый до предела)
Haunting (преследующий, с ощущением тайны)
Bittersweet (горько‑сладкий, ностальгический)
Triumphant (торжествующий, победный)

Настроение влияет на гармонию, мелодику и динамику трека.

Элемент 4: Инструмент

Типичная ошибка начинающих пользователей СУНО в том, что они перечисляют все подряд, включая гитару, пианино, барабаны и бас. Это даёт модели слишком много свободы.

Выберите один ключевой инструмент, который олицетворяет идентичность трека:

Fingerstyle acoustic guitar → камерность, интимность
Analog synth → ретро‑тепло, 80-е
Grand piano → классика, эмоциональный якорь
Distorted electric guitar → рок‑энергия, сила
Trap hi‑hats → современный хип‑хоп, городской ритм

Один сильный звуковой образ лучше, чем пять посредственных намеков.

Элемент 5: Вокальный стиль

Большинство пользователей вообще не указывают вокальный стиль, и именно поэтому получают непрогнозируемый результат.

Вокал это, по сути, визитная карточка трека. Его характер определяет всё восприятие. Будьте точны:

Raspy powerful male vocal — хриплый, сильный мужской голос
Whispered female harmonies — шёпотные женские гармонии
Operatic soprano — оперное сопрано
Spoken word narration — речитатив без пения
Layered falsetto — многослойный фальцет

«Просто вокал» — это не инструкция, а лотерея.

Элемент 6: Эра

Период истории это не про хронологию. По‑своему, это звуковая эстетика, которую модель понимает как базовый алгоритм:

1970s → аналоговое тепло, рок‑классика, hammond organs
1980s → синтезаторы, reverb, gate drums, neon‑эстетика
1990s → сырость, гранж, альтернативный рок, lo‑fi
2000s → поп‑панк, эмо, большие хоры
2010s → indie polish, минимализм, bedroom pop
2020s → hyperpop, experimental, trap elements

Одно слово с десятилетием экономит вам 50 символов описания.

Элемент 7: Звуковой референс

Suno не принимает имена артистов, так как срабатывает цензура. Но это не значит, что вы не можете описать звук.

Переводите артиста в характеристики с помощью ГПТ:

Вместо «Imagine Dragons» → «stadium anthem style, anthemic cinematic rock, powerful crescendo»
Вместо «Billie Eilish» → «whispery intimate vocals, dark minimalist pop, sparse instrumentation»
Вместо «The Weeknd» → «dark R&B, 80s synth references, falsetto male vocal, cinematic atmosphere»

Это и есть настоящее мастерство промптинга.

Как писать тексты для музыки, чтобы создать хорошую песню с помощью нейросети?

Чтобы сгенерировать интересную песню по описанию мы намеренно взяли для примера сильный текст. Не случайный, ведь над его генерацией работал и GPT и Claud. Это позволило показать вам первые результаты генерации в СУНО.

И вот почему это важно.

Suno в режиме Simple пишет лирику сам. Она рабочая, часто, ритмически корректная. Она попадает в структуру, но это «не то»…

Автоматическая лирика представляет собой какой‑то средний паттерн из миллионов песен. В ней нет конкретики, нет образа, нет момента, который цепляет.

Разница между треком, который проходит мимо, и треком, который остаётся в тексте. Во всяком случае, я так считаю в период развития ИИ.

Именно поэтому при разработке music.era2.ai мы встроили GPT прямо в интерфейс. Вы описываете мотив или ощущение, которое хотите передать, и получаете готовый текст, который уже заточен под музыкальную структуру. Не нужно быть поэтом. Нужно знать, что хочешь сказать.

Как создать песню с помощью нейросети: пошаговый гайд по созданию музыки в ИИ онлайн