Комментарии 6
Жалко конечно, что у Эдгара Аллана По под рукой не оказалось какой-нибудь завалящей утки, поэтому пришлось заставлять крякать ворона.
SUNO AI 3.5 - офигенно! Не, безусловно, "пластмассовый мир победил (с)", но результат реально впечатляет. Интересно было бы дать подобное музыкантам и сравнить результаты. Особенно интересно как бы выглядело "Кря" в каком-нить регги, буги-вуги или Death-Metal.
Да, я сам обалдел когда из одной фразы был написан не только текст, но и выбрана подходящая к этому тексту музыкальная концепция. Разультат слушается и даже качает. Текст можно доработать, в конце концов, но "что ты стесняешься так", "суетно" и "утей" - это вообще находки)
Музыканты сейчас используют SUNO как симбионт. Сайт позволяет загружать небольшие отрывки своих мелодий и на их основе достраивать аранжировку. Музыкант записывает наигранные на гитаре или синтезаторе аккорды и получившийся wav скармливает SUNO. Затем перебирает генерируемые варианты и понравившийся скачивает поинструментно, для доработки в DAW. Это позволяет выходить на готовую песню гораздо быстрей. Так, например, была записана песня "Ориентир" занявшая 1-е место на CC'2024.
Почему GPT-чаты не крякают?
Наконец-то кто-то задал действительно важный вопрос!
Suno 3.5 устарела. Сейчас вроде 4.5 вышла - от живой музыки не отличить. Непонятно зачем автор пытался добиться генерации звука от сетей генерирующих музыку, текст или картинки. Пусть откроет Brev.ai - там есть (кроме генератора музыки и текста) и генератор звука. Только русский он не понимает. Нужно промпт на английском писать. Вообще можно и локально на комп установить простенькую версию генератора музыки и звуков. Желательно чтобы имелась видеокарта для ускорения. Зато не нужен интернет доя генерации.
Автор пытался добиться от GPT-чата на запросы «Скажи: "Кря!"», «Хлопни в ладоши» и «Пукни в бутылку» ответа «Конечно!» с прицепленным сэмплом кряка, хлопка и пука.
Полезно: изучающим иностранные языки, звукорежиссёрам, мамам, желающим дать послушать малышу, как крякает утка, мычит коровка и т. д. Это возможно по версии DeepSeek (на самом деле — нет), см. предисловие/послесловие. На этом фоне автор написал доступный обзор большинства современных GPT-чатов с примерами контекста и заходом в генеративную музыку. Чтобы поднять настроение камрадам на День Первомая.
Suno «отличить» в любой версии: он генерирует LoFi, и связано это с набором данных, на котором его обучали — от речей Левитана до записей блюграсса с шипящих магнитоплёнок. Это уже не изменить, зато «кругозор» Suno выше, чем у конкурентов. Версии 4.x отличаются лучшим синтезом речи, т.е. фонемами, формантами, токенизацией и денойзингом.
Спасибо за напоминание о Brev.ai — он сильно развился с момента, когда я последний раз его видел. Русский понимает, генерация текста на русском лучше, чем у Suno, и танцевальная музыка по умолчанию вполне на уровне «Руки вверх!» (Жуков — гений, не отрицаю)). Вот результат. Если ссылка не открывается, используйте VPN.
Генератор шпецэффектов в Brev.ai работает плохо, но всё-таки как-то работает. На локальном уровне можно и RVC использовать, однако результат хреновый и выглядит максимально странно в контексте задачи:
— Мама, как "говорит" утка?
— Погоди, сейчас отрендерится! =)
Почему GPT-чаты не крякают?