Я думаю, многие уже слышали о том, что в общий доступ выложили Stable Diffusion 3.
Скачать ее можно, например, на Hugging Face. Мое внимание привлект тот факт, что SD3 во-первых достаточно скромная по требованиям к железу - версия Medium влезает в мою старую GTX 1080 с 8 GB памяти, а во-вторых, она наконец-то может рисовать сносный пиксель-арт, который никак не получался у прошлых версий.
Я не мог пройти мимо такой возможности, по-быстрому набросал телеграм-бота, который пинает мою локальную SD3 Medium и постит получившеся в группу Pixel Diffusion в телеграме. Генерация на моей древней видеокарте занимает минут 15, соответственно, постит он примерно каждые 15 минут. Я не думаю, что буду в таком режиме крутить его неделями, но пока пусть поработает и поисследует пространство состояний. Кто любит пиксель-арт - добро пожаловать!
Код, который это все делает - предельно простой. Достаточно установить библиотеку diffusers из pip, а дальше дело техники.
from diffusers import StableDiffusion3Pipeline
from PIL import Image
# отключаем тяжеловесный текстовый энкодер и токенайзер, которые не влезут в 8 GB видеопамяти
pipeline = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", text_encoder_3=None, tokenizer_3=None, torch_dtype=torch.float16).to('cuda')
# prompt собирается из двух кусков, взятых рандомно из больших списков, сгенеренных ChatGPT
image = pipeline(prompt, width=1024, height=1024).images[0]
image.save(f_name)