Свободная музыка со словами, созданная нейронными сетями в «Бесконечном нейронном радио» / Habr

Привет, поклонники музыки! Думали ли вы о том, что наступит день, когда нейронные сети начнут генерировать музыкальные композиции в различных жанрах, начиная от Heavy Metal и заканчивая 80-ми? Недавно я выпустил большой апдейт для своего проекта с открытым исходным кодом «Нейронное радио», где музыка и подкасты созданы нейронными сетями. Однако в первых релизах музыка была без слов, и, мягко говоря, слабая. Но сегодня все изменилось. Качество музыки улучшилось, и появилась музыка со словами и голосами под жанры.

Если вас интересует, как развивалось «Нейронное радио» и что использовалось ранее, вы можете прочитать статью на Хабре.

Сервис «Нейронное радио» изначально я создавал для себя, но летом этого года решил открыть его для других людей. Чем больше слушателей, тем лучше сервис становится согласно отзывам и комментариям. Вот как он выглядел в первых релизах.

Я экспериментировал с музыкой, дорабатывал AudioCraft, экспериментировал с so-vits-svc-5.0 и DiffSinger, чтобы извлечь интересные звуки.

Что изменилось? Давайте начнем с основного. Теперь есть музыка как с текстами, так и без. Я генерирую и публикую композиции в таких жанрах, как Neural Metal (музыка в стиле Heavy Metal), Neural 80s (музыка в стиле GTA Vice City), Neural Techno, Neural Lofi и, в преддверии праздников, Neural Christmas.

Музыка играет non-stop, но я также создал плейлист на YouTube, где вы можете найти и сохранить то, что вам понравится. Поскольку музыкальные треки я создавал нейронными сетями с идеей всеобщей доступности, они доступны для использования на YouTube в ваших видеороликах и проектах.

На данный момент у меня есть два видео. Первое — Neural Synthwave Music — это музыка со словами, сочетающая в себе холодные биты, неоновую атмосферу и ностальгию по 80-м, подобно GTA Vice City. Послушайте, не скажете, что голос синтезирован.

Второе — Neural Christmas, музыка без слов. Я добавил укулеле и саксофон, в рождественский ритм, пытаясь узнать, что из этого выйдет. Только послушайте...

Больше жанров уже доступно на Нейронном радио. Если у вас есть предложения относительно жанров и треков, которые можно создать с помощью нейронных сетей, пишите, я их добавлю.

Кроме того, я создаю анимацию с использованием нейронных сетей. Сначала я генерирую изображение в Stable Diffusion в нужном мне стиле, затем анимирую его в Gen-2. Для обеспечения единого стиля для всех кадров я использую свое приложение Wunjo AI, так как Gen-2 отходит от стиля, в котором я рисую. Модель в Stable Diffusion и Wunjo AI одна и та же — SD1.5 Ghibli Animation.

Мне особенно нравится жанр Neural Metal со словами. Чтобы переключиться с музыки без слов на композиции со словами, необходимо нажать кнопку 2D. Это включит режим 3D, что означает новый звуковой канал.

Вся анимация в режиме 3D создается нейронными сетями. В будущем я планирую пересоздать всю пиксельную анимацию 2D также с помощью нейронных сетей, создав плавный переход из 2D в 3D и обратно.

Недавно я выложил в открытый доступ два подкаста: на русском и английском, созданных с использованием нейронных сетей, и добавил уже человеческий подкаст, со смыслом, который сам слушаю. Про стартапы и их секреты.

Также на сервисе есть Нейронная игра «кликер», просто для релаксации в пиксельном стиле. Нажимайте и расслабляйтесь, снимая стресс. Вот и все!

Пожелания по музыке вы можете написать в комментариях телеграм-канала, посвященного моим проектам. Сам код Нейронного радио открыт, так проект полностью с открытым исходным кодом, и вы можете использовать его у себя или дорабатывать под свои нужды.