Разработчики ACE-Step совместно со StepFun выпустили обновление открытой модели ACE-Step для генерации музыки локально. Для запуска младшей версии нейросети надо менее 6 ГБ VRAM.

Модель ACE-Step перешла на гибридную архитектуру. Теперь есть отдельный LM-модуль, который берёт на себя роль планирования музыкальной композиции. Он из короткого запроса создаёт структуру трека, слова и метаданные. После в дело вступает DiT (Diffusion Transformer) для синтеза аудио.

ACE-Step может создавать композиции продолжительностью от 10 секунд до 10 минут. Одновременно модель обрабатывать до 8 треков. Среди сценариев использования есть не только режим text-to-music. Например, модель генерирует каверы, редактирует отдельные фрагменты, создаёт аккомпанемент под вокал и управляет тональностью произведения.

Разработчики опубликовали сразу семейство моделей под разное железо:

Объём VRAM

Рекомендуемый LM-модуль

Бэкенд

Примечание

до 6 ГБ

Только DiT

LM-модуль по умолчанию отключён

6-8 ГБ

acestep-5Hz-lm-0.6B

pt

Легковесный LM-модуль с бэкендом на PyTorch

8-16 ГБ

acestep-5Hz-lm-0.6B или acestep-5Hz-lm-1.7B

vllm

Для 8-12 ГБ — модель на 0.6B параметров, для 12-16 ГБ — 1.7B параметров

16-24 ГБ

acestep-5Hz-lm-1.7B

vllm

Модель 4B доступна для 20 ГБ и более

более 24 ГБ

acestep-5Hz-lm-4B

vllm

Лучшее качество

Модели доступны на Hugging Face и GitHub. Примеры сгенерированных треков опубликовали на официальной странице проекта. Протестировать нейросеть можно на сайте ACEMusic.