Posts / Profile of Ariman / Habr

Роман@Ariman

ML-исследователь

254

Subscribers

ProfileArticles25Posts3NewsComments2.4K

Ariman

Nov 29 2024 at 14:247.5K

CyberpunkArtificial IntelligenceSound

Добрый вечер, уважаемые хабровчане!

Тандем Модемов выпустил вторую часть кибер-панк частушек, которой я спешу поделиться с вами.

В этот раз аудио было сгенерено в Suno, после того, как Udio показал себя совершенно ужасно. Видимо, они что-то поломали в своей сетке, потому что раньше он был лучше, чем конкурент. Теперь же - просто не сравнить, небо и земля.

Suno же сходу выдал так любимые мной ирландские мотивы в сочетании с нашими, исконными частушечными, этот проигрыш заставил меня сразу позабыть про эксперименты в Udio и перейти на Suno окончательно)

Графика - в основном Flux (запущенный локально) со вкраплениями Midjourney (Dall-e эту гонку проиграл).

Хорошего вам пятничного вечера и приятного просмотра!

Ariman

Oct 5 2024 at 19:1029

CyberpunkArtificial IntelligenceSound

Добрый день, уважаемые хабровчане!

Наш небольшой творческий коллектив "Тандем Модемов" выпустил новую песню и музыкальное видео к ней.

Аудио было по-прежнему сгенерировано при помощи Udio. Что интересно, исполнение получилось ну очень похоже на нейронного Бориса Борисовича Гребенщикова, несмотря на то, что сеть никто об этом отдельно не просил - так на нее действует сочетание стиля Irish Folk с текстом на русском языке. И, на мой взгляд, это исполнение отлично подошло к новой песне.

Кадры были сгенерированы при помощи опенсорсной сети Flux, и я просто поражен качеством генерации - как мне кажется, Flux обгоняет не только опенсорсную Stable Diffusion, но и платные решения вроде Dall-E и Midjourney, при этом его легко можно развернуть на своей машине. Всем, кто до сих пор с ним не знаком - очень рекомендую.

Видео из кадров сгенерировано при помощи Luma.

А вот тут можно почитать (и послушать) про наш прошлый релиз: Новый Век или Парадокс Моравека

Приятного просмотра!

Ariman

Jun 13 2024 at 17:19162

Machine learning * Artificial Intelligence

Я думаю, многие уже слышали о том, что в общий доступ выложили Stable Diffusion 3.

Скачать ее можно, например, на Hugging Face. Мое внимание привлект тот факт, что SD3 во-первых достаточно скромная по требованиям к железу - версия Medium влезает в мою старую GTX 1080 с 8 GB памяти, а во-вторых, она наконец-то может рисовать сносный пиксель-арт, который никак не получался у прошлых версий.

Sunset over a tranquil lake, pixel art with adventure game influences

Я не мог пройти мимо такой возможности, по-быстрому набросал телеграм-бота, который пинает мою локальную SD3 Medium и постит получившеся в группу Pixel Diffusion в телеграме. Генерация на моей древней видеокарте занимает минут 15, соответственно, постит он примерно каждые 15 минут. Я не думаю, что буду в таком режиме крутить его неделями, но пока пусть поработает и поисследует пространство состояний. Кто любит пиксель-арт - добро пожаловать!

Код, который это все делает - предельно простой. Достаточно установить библиотеку diffusers из pip, а дальше дело техники.

from diffusers import StableDiffusion3Pipeline
from PIL import Image

# отключаем тяжеловесный текстовый энкодер и токенайзер, которые не влезут в 8 GB видеопамяти
pipeline = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", text_encoder_3=None, tokenizer_3=None,  torch_dtype=torch.float16).to('cuda')

# prompt собирается из двух кусков, взятых рандомно из больших списков, сгенеренных ChatGPT

image = pipeline(prompt, width=1024, height=1024).images[0]
image.save(f_name)