Разработчики ACE-Step совместно со StepFun выпустили обновление открытой модели ACE-Step для генерации музыки локально. Для запуска младшей версии нейросети надо менее 6 ГБ VRAM.

Модель ACE-Step перешла на гибридную архитектуру. Теперь есть отдельный LM-модуль, который берёт на себя роль планирования музыкальной композиции. Он из короткого запроса создаёт структуру трека, слова и метаданные. После в дело вступает DiT (Diffusion Transformer) для синтеза аудио.

ACE-Step может создавать композиции продолжительностью от 10 секунд до 10 минут. Одновременно модель обрабатывать до 8 треков. Среди сценариев использования есть не только режим text-to-music. Например, модель генерирует каверы, редактирует отдельные фрагменты, создаёт аккомпанемент под вокал и управляет тональностью произведения.

Разработчики опубликовали сразу семейство моделей под разное железо:
Объём VRAM | Рекомендуемый LM-модуль | Бэкенд | Примечание |
до 6 ГБ | Только DiT | — | LM-модуль по умолчанию отключён |
6-8 ГБ |
|
| Легковесный LM-модуль с бэкендом на PyTorch |
8-16 ГБ |
|
| Для 8-12 ГБ — модель на 0.6B параметров, для 12-16 ГБ — 1.7B параметров |
16-24 ГБ |
|
| Модель 4B доступна для 20 ГБ и более |
более 24 ГБ |
|
| Лучшее качество |
Модели доступны на Hugging Face и GitHub. Примеры сгенерированных треков опубликовали на официальной странице проекта. Протестировать нейросеть можно на сайте ACEMusic.
