Вышла ACE-Step 1.5 — обновлённая модель для локальной генерации музыки / Хабр

Разработчики ACE-Step совместно со StepFun выпустили обновление открытой модели ACE-Step для генерации музыки локально. Для запуска младшей версии нейросети надо менее 6 ГБ VRAM.

Модель ACE-Step перешла на гибридную архитектуру. Теперь есть отдельный LM-модуль, который берёт на себя роль планирования музыкальной композиции. Он из короткого запроса создаёт структуру трека, слова и метаданные. После в дело вступает DiT (Diffusion Transformer) для синтеза аудио.

ACE-Step может создавать композиции продолжительностью от 10 секунд до 10 минут. Одновременно модель обрабатывать до 8 треков. Среди сценариев использования есть не только режим text-to-music. Например, модель генерирует каверы, редактирует отдельные фрагменты, создаёт аккомпанемент под вокал и управляет тональностью произведения.

Разработчики опубликовали сразу семейство моделей под разное железо:

Объём VRAM	Рекомендуемый LM-модуль	Бэкенд	Примечание
до 6 ГБ	Только DiT	—	LM-модуль по умолчанию отключён
6-8 ГБ	`acestep-5Hz-lm-0.6B`	`pt`	Легковесный LM-модуль с бэкендом на PyTorch
8-16 ГБ	`acestep-5Hz-lm-0.6B` или `acestep-5Hz-lm-1.7B`	`vllm`	Для 8-12 ГБ — модель на 0.6B параметров, для 12-16 ГБ — 1.7B параметров
16-24 ГБ	`acestep-5Hz-lm-1.7B`	`vllm`	Модель 4B доступна для 20 ГБ и более
более 24 ГБ	`acestep-5Hz-lm-4B`	`vllm`	Лучшее качество

Модели доступны на Hugging Face и GitHub. Примеры сгенерированных треков опубликовали на официальной странице проекта. Протестировать нейросеть можно на сайте ACEMusic.