и 1.7b либо 4b для lyrics (текст песни), я юзаю qwen_4b_ace15.safetensors
Модель по желанию (мне больше зашла acestep_v1.5_xl_sft_bf16.safetensors)
vae 1 файл - ace_1.5_vae.safetensors
Куда распихивать их: ComfyUI_windows_portable\ComfyUI\models идём сюда
1.5 vae в папку vae (логично)
Текстовые модели (text_encoders) все в папку text_encoders
Диффузионные модели в папку unet
Если каких-то папок нету из коробки - создать.
4) Когда всё готово, запускаем через батник в корневой папке ComfyUI_windows_portable (я юзаю run_amd_gpu_disable_smart_memory.bat)
Сразу уточню момент драйвер обновляем до последнего, т.к. поддержка pytorch вроде как с какой-то 25.9 версии появилась, у меня 26.3 стоит.
Запустились, идем в левом меню находим пункт Шаблоны (Templates), тыкаем, выбираем в списке Аудио (Audio) и выбираем Ace-Step 1.5XL SFT: Текст в музыку
Откроется шаблон подготовленных нод
В sft изначально стоит в ноде KSampler 50 шагов, cfg 7.0
Если хотим добиться максимального качественного звучания, рекомендую выставить:
шаги - 120
cfg - 2.5
сэмплер - er_sde
scheduler - linear_quadratic
Шумодав по умолчанию - 1.00
С длительностью играем по скольку железо позволять будет. Сама модель умеет выдавать и 8 минут (проверял). Для поиграться пойдет значение по умолчанию
Если хотим фиксировать результат то здесь ничего не трогаем, если хотим генерировать постоянно уникальный трек - выбираем randomize
По основной ноде с тегами и текстом все достаточно понятно, но можно поиграться с полем CFG (мне понравились результаты на 4.0)
В целом для базы хватит, но могу еще рассказать как засейвиться во flac
Справа вверху есть кнопочка Manager
Жмакаем, вызываем Custom Node Manager
В поиске вводим ComfyUI-EdgeTTS качаем и перезапускаем (он сам напишет)
Дальше делаем кастомный выход:
Надо будет добавить ноду Save Audio от AILabs
Вбить output (можно как у меня audio/ComfyUI) и протянуть выход аудио на обычную стоковую ноду
Соответственно, на выходе будем получать полновесный flac
В общем вроде всё, если будут вопросы пишите постараюсь помочь
И некоторые наблюдения: если падает скорость по генерации - перезапустить батник. Я так понимаю видяха по памяти перегружается и разгружается только в момент перезапуска) Честно - не пытался бороть этот момент т.к. перезапуск занимает буквально менее 10 секунд.
О нюансах:
Если запуск через обычный run_amd_gpu.bat - не могу использовать KSampler _sde, а они творят магию по улучшению качества звучания
После первой генерации на _sde - зачастую отвал, перезапускаем (но актуально для многошаговых генерациях)
Если использовать в KSampler euler + 9-10 шагов можно примерно представить какой будет трек (если мы не трогаем ничего в остальных блоках, а seed стоит fixed), то потом можем сделать в хорошем качестве просто поменяв на _sde + linear quadratic как я описывал выше.
В целом играться и играться :) Через пару вечеров начнет получаться заметно лучше. Огромное внимание на промт и текст, нейронка хорошо принимает в условиях [chorus] допустим всякие [chorus-rage] [chorus-melodic] и так далее, пробуйте.
У меня одна карточка :) Нету возможности проверить эту теорию. На comfy эти модели куда удачнее работают, но там функционал урезанный в плане возможностей самого Ace-Step, либо я пока не нашел вариантов (сохранить flac, сделать cover). Могу гайдец запилить как на comfy под AMD поднять ace-step 1.5 xl
Надо еще копаться. 16 гб vram мало. Постоянный упор по памяти и выгрузка в ОЗУ. Соответственно, ни о какой быстрой генерации речи не идёт. Ремарку сделаю: на длинных треках. На коротких (+/- 60 секунд) генерация занимает около 2 минут. Есть ощущение что он модели всей пачкой загружает когда начинает работать.
Вариант работы через ComfyUI пока остается самым стабильным (выборка и загрузка моделей поэтапно от ноды к ноде).
На CPU успешно завелось. Кавернул под instrumental версию, мне понравилось! Особенно что можно сохраниться во flac. Улучшение промта (как и написание) - да, туповатое. Но, видимо, из-за модели которая там юзается (там же qwen какой-то урезанный). Поэтому лучше ручками писать. А вот качество на выходе зачетное, я на ComfyUI не смог добиться генерации чего-то отличимого от mp3 - 320kbps, может плохо смотрел конечно.
Еще понравился спам в cmd'шку "‘nvidia-smi’ is not recognized as an internal or external command, operable program or batch file." =) Просто в покое спамит.
Но в целом - играться и играться. Инструмент годный. Попробую как-нибудь свою видюшку завести еще. Автор - Спасибо!
Извиняюсь за скромный вопрос. А для AMD планируется поддержка? Конкретно эту нейронку (1.5xl) смог завести через ComfyUI с билдом зависимостей под красную карточку. А так лайк, уже скачиваю тестить :)
Про comfyui-manager не уточнил, извиняюсь, он отдельно ставится отсюда
Из папки custom_nodes вызвать git и вписать
git clonehttps://github.com/ltdrdata/ComfyUI-Managercomfyui-managerЧто-то типа такого на выходе.
В общем:
Скрытый текст
1) Скачивает портативку comfyui отсюда - https://github.com/Comfy-Org/ComfyUI/releases
2) Обязательно запускаем ComfyUI_windows_portable\update\update_comfyui_and_python_dependencies.bat
Скачает и обновит все зависимости
3) Здесь лежат модели, lm и vae - https://huggingface.co/Comfy-Org/ace_step_1.5_ComfyUI_files/tree/main/split_files
Скачиваем text_encoders:
qwen_0.6b_ace15.safetensors // для тегов
и 1.7b либо 4b для lyrics (текст песни), я юзаю qwen_4b_ace15.safetensors
Модель по желанию (мне больше зашла acestep_v1.5_xl_sft_bf16.safetensors)
vae 1 файл - ace_1.5_vae.safetensors
Куда распихивать их: ComfyUI_windows_portable\ComfyUI\models идём сюда
1.5 vae в папку vae (логично)
Текстовые модели (text_encoders) все в папку text_encoders
Диффузионные модели в папку unet
Если каких-то папок нету из коробки - создать.
4) Когда всё готово, запускаем через батник в корневой папке ComfyUI_windows_portable (я юзаю run_amd_gpu_disable_smart_memory.bat)
Сразу уточню момент драйвер обновляем до последнего, т.к. поддержка pytorch вроде как с какой-то 25.9 версии появилась, у меня 26.3 стоит.
Запустились, идем в левом меню находим пункт Шаблоны (Templates), тыкаем, выбираем в списке Аудио (Audio) и выбираем Ace-Step 1.5XL SFT: Текст в музыку
Откроется шаблон подготовленных нод
В sft изначально стоит в ноде KSampler 50 шагов, cfg 7.0
Если хотим добиться максимального качественного звучания, рекомендую выставить:
шаги - 120
cfg - 2.5
сэмплер - er_sde
scheduler - linear_quadratic
Шумодав по умолчанию - 1.00
С длительностью играем по скольку железо позволять будет. Сама модель умеет выдавать и 8 минут (проверял). Для поиграться пойдет значение по умолчанию
Если хотим фиксировать результат то здесь ничего не трогаем, если хотим генерировать постоянно уникальный трек - выбираем randomize
По основной ноде с тегами и текстом все достаточно понятно, но можно поиграться с полем CFG (мне понравились результаты на 4.0)
В целом для базы хватит, но могу еще рассказать как засейвиться во flac
Справа вверху есть кнопочка Manager
Жмакаем, вызываем Custom Node Manager
В поиске вводим ComfyUI-EdgeTTS качаем и перезапускаем (он сам напишет)
Дальше делаем кастомный выход:
Надо будет добавить ноду Save Audio от AILabs
Вбить output (можно как у меня audio/ComfyUI) и протянуть выход аудио на обычную стоковую ноду
Соответственно, на выходе будем получать полновесный flac
В общем вроде всё, если будут вопросы пишите постараюсь помочь
И некоторые наблюдения: если падает скорость по генерации - перезапустить батник. Я так понимаю видяха по памяти перегружается и разгружается только в момент перезапуска) Честно - не пытался бороть этот момент т.к. перезапуск занимает буквально менее 10 секунд.
О нюансах:
Если запуск через обычный run_amd_gpu.bat - не могу использовать KSampler _sde, а они творят магию по улучшению качества звучания
После первой генерации на _sde - зачастую отвал, перезапускаем (но актуально для многошаговых генерациях)
Если использовать в KSampler euler + 9-10 шагов можно примерно представить какой будет трек (если мы не трогаем ничего в остальных блоках, а seed стоит fixed), то потом можем сделать в хорошем качестве просто поменяв на _sde + linear quadratic как я описывал выше.
В целом играться и играться :) Через пару вечеров начнет получаться заметно лучше. Огромное внимание на промт и текст, нейронка хорошо принимает в условиях [chorus] допустим всякие [chorus-rage] [chorus-melodic] и так далее, пробуйте.
У меня одна карточка :) Нету возможности проверить эту теорию. На comfy эти модели куда удачнее работают, но там функционал урезанный в плане возможностей самого Ace-Step, либо я пока не нашел вариантов (сохранить flac, сделать cover). Могу гайдец запилить как на comfy под AMD поднять ace-step 1.5 xl
Отвечу сам себе. Запустил на рыксе.
Дикий пердолинг + обходы, но смог сгенерировать трек.
Кому интересно - почитайте https://github.com/ace-step/ACE-Step/discussions/404
Надо еще копаться. 16 гб vram мало. Постоянный упор по памяти и выгрузка в ОЗУ. Соответственно, ни о какой быстрой генерации речи не идёт.
Ремарку сделаю: на длинных треках. На коротких (+/- 60 секунд) генерация занимает около 2 минут.
Есть ощущение что он модели всей пачкой загружает когда начинает работать.
Вариант работы через ComfyUI пока остается самым стабильным (выборка и загрузка моделей поэтапно от ноды к ноде).
На CPU успешно завелось. Кавернул под instrumental версию, мне понравилось! Особенно что можно сохраниться во flac. Улучшение промта (как и написание) - да, туповатое. Но, видимо, из-за модели которая там юзается (там же qwen какой-то урезанный). Поэтому лучше ручками писать. А вот качество на выходе зачетное, я на ComfyUI не смог добиться генерации чего-то отличимого от mp3 - 320kbps, может плохо смотрел конечно.
Еще понравился спам в cmd'шку "‘nvidia-smi’ is not recognized as an internal or external command, operable program or batch file." =) Просто в покое спамит.
Но в целом - играться и играться. Инструмент годный. Попробую как-нибудь свою видюшку завести еще. Автор - Спасибо!
Извиняюсь за скромный вопрос. А для AMD планируется поддержка? Конкретно эту нейронку (1.5xl) смог завести через ComfyUI с билдом зависимостей под красную карточку. А так лайк, уже скачиваю тестить :)