Обновить
1

Пользователь

Отправить сообщение

Про comfyui-manager не уточнил, извиняюсь, он отдельно ставится отсюда

Из папки custom_nodes вызвать git и вписать git clone https://github.com/ltdrdata/ComfyUI-Manager comfyui-manager

В общем:

Скрытый текст

1) Скачивает портативку comfyui отсюда - https://github.com/Comfy-Org/ComfyUI/releases

Ну понятно, zip распаковать в удобное место
Ну понятно, zip распаковать в удобное место


2) Обязательно запускаем ComfyUI_windows_portable\update\update_comfyui_and_python_dependencies.bat

Тыкаем и ждём, если будет просить - жмакаем кнопку на клавиатуре
Тыкаем и ждём, если будет просить - жмакаем кнопку на клавиатуре

Скачает и обновит все зависимости

3) Здесь лежат модели, lm и vae - https://huggingface.co/Comfy-Org/ace_step_1.5_ComfyUI_files/tree/main/split_files

Поочередно скачиваем и раскидываем по папкам
Поочередно скачиваем и раскидываем по папкам

Скачиваем text_encoders:

qwen_0.6b_ace15.safetensors // для тегов

и 1.7b либо 4b для lyrics (текст песни), я юзаю qwen_4b_ace15.safetensors

Модель по желанию (мне больше зашла acestep_v1.5_xl_sft_bf16.safetensors)

vae 1 файл - ace_1.5_vae.safetensors

Куда распихивать их: ComfyUI_windows_portable\ComfyUI\models идём сюда

1.5 vae в папку vae (логично)

Текстовые модели (text_encoders) все в папку text_encoders

Диффузионные модели в папку unet

Если каких-то папок нету из коробки - создать.

4) Когда всё готово, запускаем через батник в корневой папке ComfyUI_windows_portable (я юзаю run_amd_gpu_disable_smart_memory.bat)

Сразу уточню момент драйвер обновляем до последнего, т.к. поддержка pytorch вроде как с какой-то 25.9 версии появилась, у меня 26.3 стоит.

Запустились, идем в левом меню находим пункт Шаблоны (Templates), тыкаем, выбираем в списке Аудио (Audio) и выбираем Ace-Step 1.5XL SFT: Текст в музыку

Откроется шаблон подготовленных нод

В sft изначально стоит в ноде KSampler 50 шагов, cfg 7.0

Если хотим добиться максимального качественного звучания, рекомендую выставить:

  • шаги - 120

  • cfg - 2.5

  • сэмплер - er_sde

  • scheduler - linear_quadratic

  • Шумодав по умолчанию - 1.00

С длительностью играем по скольку железо позволять будет. Сама модель умеет выдавать и 8 минут (проверял). Для поиграться пойдет значение по умолчанию

Если хотим фиксировать результат то здесь ничего не трогаем, если хотим генерировать постоянно уникальный трек - выбираем randomize

По основной ноде с тегами и текстом все достаточно понятно, но можно поиграться с полем CFG (мне понравились результаты на 4.0)

В целом для базы хватит, но могу еще рассказать как засейвиться во flac

Справа вверху есть кнопочка Manager

Жмакаем, вызываем Custom Node Manager

В поиске вводим ComfyUI-EdgeTTS качаем и перезапускаем (он сам напишет)

Дальше делаем кастомный выход:

Надо будет добавить ноду Save Audio от AILabs

Вбить output (можно как у меня audio/ComfyUI) и протянуть выход аудио на обычную стоковую ноду

Соответственно, на выходе будем получать полновесный flac

В общем вроде всё, если будут вопросы пишите постараюсь помочь

И некоторые наблюдения: если падает скорость по генерации - перезапустить батник. Я так понимаю видяха по памяти перегружается и разгружается только в момент перезапуска) Честно - не пытался бороть этот момент т.к. перезапуск занимает буквально менее 10 секунд.

О нюансах:

  • Если запуск через обычный run_amd_gpu.bat - не могу использовать KSampler _sde, а они творят магию по улучшению качества звучания

  • После первой генерации на _sde - зачастую отвал, перезапускаем (но актуально для многошаговых генерациях)

  • Если использовать в KSampler euler + 9-10 шагов можно примерно представить какой будет трек (если мы не трогаем ничего в остальных блоках, а seed стоит fixed), то потом можем сделать в хорошем качестве просто поменяв на _sde + linear quadratic как я описывал выше.

В целом играться и играться :) Через пару вечеров начнет получаться заметно лучше. Огромное внимание на промт и текст, нейронка хорошо принимает в условиях [chorus] допустим всякие [chorus-rage] [chorus-melodic] и так далее, пробуйте.

У меня одна карточка :) Нету возможности проверить эту теорию. На comfy эти модели куда удачнее работают, но там функционал урезанный в плане возможностей самого Ace-Step, либо я пока не нашел вариантов (сохранить flac, сделать cover). Могу гайдец запилить как на comfy под AMD поднять ace-step 1.5 xl

Отвечу сам себе. Запустил на рыксе.

Дикий пердолинг + обходы, но смог сгенерировать трек.
Кому интересно - почитайте https://github.com/ace-step/ACE-Step/discussions/404

Надо еще копаться. 16 гб vram мало. Постоянный упор по памяти и выгрузка в ОЗУ. Соответственно, ни о какой быстрой генерации речи не идёт.
Ремарку сделаю: на длинных треках. На коротких (+/- 60 секунд) генерация занимает около 2 минут.
Есть ощущение что он модели всей пачкой загружает когда начинает работать.

Вариант работы через ComfyUI пока остается самым стабильным (выборка и загрузка моделей поэтапно от ноды к ноде).

На CPU успешно завелось. Кавернул под instrumental версию, мне понравилось! Особенно что можно сохраниться во flac. Улучшение промта (как и написание) - да, туповатое. Но, видимо, из-за модели которая там юзается (там же qwen какой-то урезанный). Поэтому лучше ручками писать. А вот качество на выходе зачетное, я на ComfyUI не смог добиться генерации чего-то отличимого от mp3 - 320kbps, может плохо смотрел конечно.

Еще понравился спам в cmd'шку "‘nvidia-smi’ is not recognized as an internal or external command, operable program or batch file." =) Просто в покое спамит.

Но в целом - играться и играться. Инструмент годный. Попробую как-нибудь свою видюшку завести еще. Автор - Спасибо!

Извиняюсь за скромный вопрос. А для AMD планируется поддержка? Конкретно эту нейронку (1.5xl) смог завести через ComfyUI с билдом зависимостей под красную карточку. А так лайк, уже скачиваю тестить :)

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Бэкенд разработчик, Фронтенд разработчик
Средний
PHP
MySQL
SQL
Nginx
JavaScript
HTML
CSS