honyaki Aug 30 2022 at 21:44

Stable Diffusion — важнейшая нейросеть за всю историю генеративного искусства

7 min

48K

Skillfactory corporate blogOpen source*Artificial IntelligenceImage processing*

Translation

+28

Comments 39

VitalySh Aug 30 2022 at 21:58

Stable diffusion - как завораживающая игра. Можно поставить генерацию на ночь, а потом искать среди тысяч картин что-то достойное и интересное. А потом дорабатывать и преобразовывать.

Один из моих последних экспериментов в ней (все картины - результат прямой генерации Stable Diffusion, без пост обработки):

Портреты

dyadyaSerezha Aug 30 2022 at 23:11

С последней познакомишь?)

Lsh Aug 31 2022 at 12:16

На чём запускаете?

VitalySh Aug 31 2022 at 12:51

запускаю модифицированную версию https://github.com/basujindal/stable-diffusion на RTX 3080 10GB VRAM

EugeneH Sep 1 2022 at 09:19

Подскажите, пожалуйта, 2я и 3я картинки это img2img на основе первой или инпэинт? Или и то, и другое вместе?

Используете GFPGAN?

У меня пока не выходят нормальные портреты, но пейзажи сети определенно удаются.

DistortNeo Aug 30 2022 at 23:40

Тем, кто хочет скачать эту нейросеть и запустить её с жёсткого диска, нужно учесть, что это потребует 6,9 Гб VRAM, а это соответствует высококлассному GPU под заказ.

Эмм? Это же обычная игровая видеокарта.

Astus Aug 31 2022 at 01:03

Более того, умельцы уже научились генерить на картах с 4 Гб. Главное, чтобы карта была от зелёных.

ainu Aug 31 2022 at 15:05

28 августа появился гайд и для красных карт.

Kristaller486 Sep 3 2022 at 13:18

Есть скрипт для запуска через openvino на CPU с приемлемой скоростью генерации, как я понял, вообще без использования GPU

gxcreator Aug 31 2022 at 01:49

For those of you who want to download it and run it on their computers, you should know that it takes 6.9Gb of VRAM — which fits in a high-end consumer GPU

МГИМО финишд

stranger777 Aug 31 2022 at 09:26

Поправили, спасибо.

stranger777 Aug 31 2022 at 09:33

И нет, это не "МГИМО" переводчика. Это моя ошибка, возникшая от усталости при редактировании, когда в сознании перепутались consumer и custom.

gxcreator Aug 31 2022 at 09:59

Как-то уже привык к такому в переводах в корпоративных блогах.

stranger777 Aug 31 2022 at 10:51

Делаем всё возможное, чтобы избегать таких ошибок (перед глазами первым встал Git с его blame и diff, но есть, конечно, решения намного проще и лучше). Отсюда, на самом деле, эта самая усталость и такая большая пауза в публикациях: ставим блог на качественно новые рельсы. Ещё раз спасибо :)

mrise Sep 2 2022 at 14:04

Вот да. Когда текстовые нейросетки из арсенала Kobold AI начинаются с 8 гигов VRAMы, а заканчиваются переполнением гугловских TPU в colab-e при использовании слишком щедрых настроек, эти 7 гигов VRAMы выглядят довольно скромно.

amazed Aug 31 2022 at 08:11

Стиль статьи:

Мы на пороге, это великое событие, сейчас вас просто разорвет....
Бла-бла-бла... этика.... бла-бла-бла .. авторские права...
... бесплатно!...

Как читаются статьи подобного стиля итоге: "ага, кто-то сделал очередную ненужную хрень и хочет сорвать куш на хайпе".

В общем не лучший стиль для изложения материала.

Tiendil Aug 31 2022 at 09:44

Слишком много воды. Но открытая сеть - хорошо.

Lsh Aug 31 2022 at 12:17

— Ты всего лишь машина. Только имитация жизни. Робот сочинит симфонию? Робот превратит кусок холста в шедевр искусства?

— А Вы?

Я, робот

vconst Aug 31 2022 at 14:29

С возрастом не уменьшаются глаза и черты лица — а увеличивается череп

badimao Aug 31 2022 at 14:34

В недалеком будущем.

Игра имеет лишь очертания сюжета. И это даже не сюжет, это внутренний голос игрока.

Игрок познает игру, а игра познает игрока.

И на основе его реакций, психотипа, желаний и представлений, рендерит мир который полностью соотвествует представлению игрока, историю для игрока про игрока.

И вот в этот момент, возникает подозрение, а не обстоят ли уже дела на самом деле так...

ainu Aug 31 2022 at 14:57

Тем, кто хочет скачать эту нейросеть и запустить её с жёсткого диска, нужно учесть, что это потребует 6,9 Гб VRAM, а это соответствует высококлассному GPU под заказ.

На самом деле, можно запустить и на 1050ti (4 гигабайт), и на 1070 (8 гигабайт), я и там и там запускаю. На 1070 в режиме "турбо" (ест дополнительный гигабайт), на одну картинку в 50 шагов уходит 39 секунд.

Также на днях появилась версия для CPU, генерация занимает три минуты.

DROS Sep 1 2022 at 10:31

@ainu , а можно линки на репы? А то в многообразии зеркал ничего толкового не ищется.

ainu Sep 1 2022 at 11:30

Я долгое время пользовался вот этим https://github.com/basujindal/stable-diffusion, это форк оригинальной версии, который делит на кусочки сетку, и по очереди засовывает в видеопамять - в десять раз дольше, но можно запустить даже на 1050ti. Самый нормальный способ - запуска - python optimizedSD\txt2img_gradio.py - вебинтерфейс, чтобы между генерациями не грузить модель в память каждый раз.

Но начиная с сегодняшнего вечера хочу перейти на https://github.com/AUTOMATIC1111/stable-diffusion-webui, пост на реддите, больно красиво выглядит, и есть новые крутые киллер-фичи, которые запрашиваются сообществом. Там же есть гайд, где получить файл ckpt версии 1-4 (я магнет-ссылкой качал).

Для запуска на процессорах, AMD и прочих необычностях, советую глянуть вот такую подборку https://www.reddit.com/r/StableDiffusion/comments/wqaizj/list_of_stable_diffusion_systems/

На реддите есть еще и несколько exe файлов, для тех, кто не умеет ставить питон, и вообще много чего есть.

Также часть пользователей используют телеграм-ботов (ссылок не дам, но они существуют, хабраэффект их сломает), а также многочисленные коллабы. Благодаря оптимизированной версии программы, SD может быть запущена в обычной бесплатной версии гугл-коллаба, я пользовался вот этим https://colab.research.google.com/github/pharmapsychotic/ai-notebooks/blob/main/pharmapsychotic_Stable_Diffusion.ipynb. Вообще коллабов полно, есть и для анимации, и для инпейтинга, и чего только нет.

DROS Sep 1 2022 at 19:58

Благодарю за развернутый ответ

sinefag Aug 31 2022 at 16:46

попробовал в онлайне. что-то пошло не так...

naff Aug 31 2022 at 21:17

Выставка резиновых кукол, не иначе. Особенно те что справа

denis-isaev Aug 31 2022 at 21:46

Самая правая еще и чью-то отрубленную кисть держит в руке. Триллер ))

denis-isaev Aug 31 2022 at 21:54

vconst Sep 2 2022 at 09:40

Очень странные дела, кастинг пятого сезона

habropaul Aug 31 2022 at 22:33

Что уважаемые хабровчане думают про апскейл аудиотреков в низком разрешении (раз уж аудио было упомянуто автором оригинальной статьи в конце)?

Я однажды немного поинтересовался темой, вот что мне удалось обнаружить.

На сайте энтузиастов в мире аудио (проводят измерения громкоговорителей и периферии), в теме посвященной апскейлу выяснилось, что пока данная тема скудна на соответствующие исследования. Пока среди посетителей сайта не нашёлся юзер, попытавшийся самолично произвести код для подобной махинации.

Вот что он пишет:

«Привет ребята! После нескольких часов тестирования различных моделей (GAN, RNN, CNN, DNN) я пришел к выводу, почему никто на самом деле этого не сделал.

Это невероятно сложно для последовательных данных!

Обработка и масштабирование изображений на самом деле не проблема, поскольку каждое обрабатываемое изображение замкнуто само на себя и не имеет отношения к другим изображениям. Однако музыка или звук в целом подобны одной непрерывной линии, потоку данных, сигналу. Проблема со звуком заключается в том, что если вы обрабатываете отдельные сегменты звукового файла, программа не знает другие сегменты, и поэтому возникает проблема хлопков и щелчков, поскольку первое и последнее значение отдельных сегментов редко совпадают. Вы можете исправить это с помощью некоторого сглаживания после обработки, но это просто уродливое решение…

Я думаю, что лучше всего передать весь аудиофайл; не только сегменты, а действительно весь файл в нейронную сеть. Но для этого требуется безумное количество вычислительной мощности и оперативной памяти. Это как если бы вы пытались накормить белку целой машиной мороженого вместо одной чайной ложки.

Я пытался. Независимо от того, насколько «маленькой» я пытался сделать песню, как только ты пытаешься отправить 3 минуты аудио через сеть, она становится эквивалентом данных из нескольких музыкальных альбомов. Даже моя RTX 3090 подняла белый флаг.

Так что либо вы арендуете суперкомпьютер или, по крайней мере, чрезвычайно дорогой облачный сервер для обучения ИИ, либо нам просто нужно подождать, пока кто-нибудь не подготовит очень хорошую статью по этому поводу. Глядя на ход развития искусственного интеллекта, это не должно занять много времени.»

Refridgerator Sep 1 2022 at 06:05

Этот юзер потерпел неудачу, потому что забыл о том, что нейросеть — это не ИИ. Нейросеть по сути — это база данных со сжатием и потерей информации, и данные для неё надо подготавливать. В случае аудио для этого потребуется как минимум FFT, (M)DCT или вейвлет-преобразование, а также манипуляции с каналами и кепстрами. Вейвлет-преобразование как раз и переводит аудио в изображение и наоборот — так что нет никаких преград для апскейла аудио, кроме необходимости овладевать матаном. И даже нет необходимости в нейросетях.

habropaul Sep 1 2022 at 09:56

Я недавно подумал о том, что данная область развития может являться бесперспективной в связи с утратой аудио-треками в эпоху масс-медиа субъективной ценности. Проще говоря, по меркам индустрии (которая и является главным аккумулятором всей творческой энергии наличествующей у людей, аналогично с Академией и знанием) — проще написать новый трек чем улучшать старый.

Апскейл аудио — это из разряда мечтаний ретроградов, которые хотят улучшить любимую пианинку, записанную в пятидесятых, или для рэперов с минусами в 192 kbps.

UFO just landed and posted this here

myhambr Sep 1 2022 at 19:46

Столько нейросетей постоянно выходит, сплошной прогресс каждый месяц.

Известите, когда наконец появится плагин к Photoshop или Lightroom, который наконец научится открывать закрытые глаза. Автоматически, без ручного вырезания. Можно с использование второго опорного кадра с открытыми глазами.

Про Akvis Chameleon знаю, но это долго и нудно, а хочет быстро, качественно, молодёжно и с нейросеткой за 1 клик.

vconst Sep 2 2022 at 09:52

Глаза — фик бы с ними. А вот апскейл нейросетью меня по настоящему удивил и порадовал. Кадр с дрона, ночью, шумноватый — увеличивается реально в два раза, с адекватным изменением деталей, элементы становятся тоньше, как будто реально камера имеет в два раза более высокое разрешение

myhambr Sep 5 2022 at 17:42

Ну как это фиг с ним. Я хоть и могу вручную, но так неохота каждый раз тратить на это 15-30 минут и вспоминать, как я это делал, так как нужно это нерегулярно.

Через что апскейл был сделан ?
Я вот жду, когда те же чудеса будут происходить со старыми записями в DV или прости господи VHS.

vconst Sep 5 2022 at 17:46

Через нейро-фильтр, встроенный. Сейчас фотошоп немного косячный и не могу сказать название

На глаза можно было потратить время, но сделать самому. А вот двукратное увеличение разрешения — самому никак

Kaputmaher Sep 12 2022 at 05:21

Все чудеса уже есть, даже в формате «из коробки». Для удаления шума: Topaz DeNoise, для резкости: Topaz Sharpen, для апскейла: Topaz Gigapixel, и для всего этого в видео: Topaz Video Enhance

myhambr Sep 12 2022 at 17:55

Всему этому 10 лет в обед, и я этим пользовался ещё очень давно. Но вот по настоящему не видел чуда, которое бы из DV сделало результат, неотличимый от FullHD.

Самое банальное - до сих пор при увеличение разрешения увеличивается и мыло, если оно было изначально, ведь камеры снимают обычно хуже, чем позволяет формат записи.

Про DeNoise в фото/видео: кто-то научился автоматически строить карту глубины, и деноьсить только задний план, а на переднем наоборот повышать резкость ? Мне даже в Lightroom/Photoshop такого не хватает, всё только руками. В новый Photoshop 2021 завезли инструмента "малая глубина резкости", который умеет блюрить по карте глубины, но сам карту глубины строить не умеет.