Тандем Модемов выпустил вторую часть кибер-панк частушек, которой я спешу поделиться с вами.
В этот раз аудио было сгенерено в Suno, после того, как Udio показал себя совершенно ужасно. Видимо, они что-то поломали в своей сетке, потому что раньше он был лучше, чем конкурент. Теперь же - просто не сравнить, небо и земля.
Suno же сходу выдал так любимые мной ирландские мотивы в сочетании с нашими, исконными частушечными, этот проигрыш заставил меня сразу позабыть про эксперименты в Udio и перейти на Suno окончательно)
Графика - в основном Flux (запущенный локально) со вкраплениями Midjourney (Dall-e эту гонку проиграл).
Хорошего вам пятничного вечера и приятного просмотра!
Наш небольшой творческий коллектив "Тандем Модемов" выпустил новую песню и музыкальное видео к ней.
Аудио было по-прежнему сгенерировано при помощи Udio. Что интересно, исполнение получилось ну очень похоже на нейронного Бориса Борисовича Гребенщикова, несмотря на то, что сеть никто об этом отдельно не просил - так на нее действует сочетание стиля Irish Folk с текстом на русском языке. И, на мой взгляд, это исполнение отлично подошло к новой песне.
Кадры были сгенерированы при помощи опенсорсной сети Flux, и я просто поражен качеством генерации - как мне кажется, Flux обгоняет не только опенсорсную Stable Diffusion, но и платные решения вроде Dall-E и Midjourney, при этом его легко можно развернуть на своей машине. Всем, кто до сих пор с ним не знаком - очень рекомендую.
Я думаю, многие уже слышали о том, что в общий доступ выложили Stable Diffusion 3.
Скачать ее можно, например, на Hugging Face. Мое внимание привлект тот факт, что SD3 во-первых достаточно скромная по требованиям к железу - версия Medium влезает в мою старую GTX 1080 с 8 GB памяти, а во-вторых, она наконец-то может рисовать сносный пиксель-арт, который никак не получался у прошлых версий.
Sunset over a tranquil lake, pixel art with adventure game influences
Я не мог пройти мимо такой возможности, по-быстрому набросал телеграм-бота, который пинает мою локальную SD3 Medium и постит получившеся в группу Pixel Diffusion в телеграме. Генерация на моей древней видеокарте занимает минут 15, соответственно, постит он примерно каждые 15 минут. Я не думаю, что буду в таком режиме крутить его неделями, но пока пусть поработает и поисследует пространство состояний. Кто любит пиксель-арт - добро пожаловать!
Код, который это все делает - предельно простой. Достаточно установить библиотеку diffusers из pip, а дальше дело техники.
from diffusers import StableDiffusion3Pipeline
from PIL import Image
# отключаем тяжеловесный текстовый энкодер и токенайзер, которые не влезут в 8 GB видеопамяти
pipeline = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", text_encoder_3=None, tokenizer_3=None, torch_dtype=torch.float16).to('cuda')
# prompt собирается из двух кусков, взятых рандомно из больших списков, сгенеренных ChatGPT
image = pipeline(prompt, width=1024, height=1024).images[0]
image.save(f_name)