Pull to refresh

Comments 39

Stable diffusion - как завораживающая игра. Можно поставить генерацию на ночь, а потом искать среди тысяч картин что-то достойное и интересное. А потом дорабатывать и преобразовывать.

Один из моих последних экспериментов в ней (все картины - результат прямой генерации Stable Diffusion, без пост обработки):

Портреты

Подскажите, пожалуйта, 2я и 3я картинки это img2img на основе первой или инпэинт? Или и то, и другое вместе?

Используете GFPGAN?

У меня пока не выходят нормальные портреты, но пейзажи сети определенно удаются.

Тем, кто хочет скачать эту нейросеть и запустить её с жёсткого диска, нужно учесть, что это потребует 6,9 Гб VRAM, а это соответствует высококлассному GPU под заказ.

Эмм? Это же обычная игровая видеокарта.

Более того, умельцы уже научились генерить на картах с 4 Гб. Главное, чтобы карта была от зелёных.

Есть скрипт для запуска через openvino на CPU с приемлемой скоростью генерации, как я понял, вообще без использования GPU

For those of you who want to download it and run it on their computers, you should know that it takes 6.9Gb of VRAM — which fits in a high-end consumer GPU

МГИМО финишд

И нет, это не "МГИМО" переводчика. Это моя ошибка, возникшая от усталости при редактировании, когда в сознании перепутались consumer и custom.

Как-то уже привык к такому в переводах в корпоративных блогах.

Делаем всё возможное, чтобы избегать таких ошибок (перед глазами первым встал Git с его blame и diff, но есть, конечно, решения намного проще и лучше). Отсюда, на самом деле, эта самая усталость и такая большая пауза в публикациях: ставим блог на качественно новые рельсы. Ещё раз спасибо :)

Вот да. Когда текстовые нейросетки из арсенала Kobold AI начинаются с 8 гигов VRAMы, а заканчиваются переполнением гугловских TPU в colab-e при использовании слишком щедрых настроек, эти 7 гигов VRAMы выглядят довольно скромно.

Стиль статьи:

  1. Мы на пороге, это великое событие, сейчас вас просто разорвет....

  2. Бла-бла-бла... этика.... бла-бла-бла .. авторские права...

  3. ... бесплатно!...

Как читаются статьи подобного стиля итоге: "ага, кто-то сделал очередную ненужную хрень и хочет сорвать куш на хайпе".

В общем не лучший стиль для изложения материала.

Слишком много воды. Но открытая сеть - хорошо.

— Ты всего лишь машина. Только имитация жизни. Робот сочинит симфонию? Робот превратит кусок холста в шедевр искусства?

— А Вы?

Я, робот

image

С возрастом не уменьшаются глаза и черты лица — а увеличивается череп

В недалеком будущем.

Игра имеет лишь очертания сюжета. И это даже не сюжет, это внутренний голос игрока.

Игрок познает игру, а игра познает игрока.

И на основе его реакций, психотипа, желаний и представлений, рендерит мир который полностью соотвествует представлению игрока, историю для игрока про игрока.

И вот в этот момент, возникает подозрение, а не обстоят ли уже дела на самом деле так...

Тем, кто хочет скачать эту нейросеть и запустить её с жёсткого диска, нужно учесть, что это потребует 6,9 Гб VRAM, а это соответствует высококлассному GPU под заказ.

На самом деле, можно запустить и на 1050ti (4 гигабайт), и на 1070 (8 гигабайт), я и там и там запускаю. На 1070 в режиме "турбо" (ест дополнительный гигабайт), на одну картинку в 50 шагов уходит 39 секунд.

Также на днях появилась версия для CPU, генерация занимает три минуты.

Я долгое время пользовался вот этим https://github.com/basujindal/stable-diffusion, это форк оригинальной версии, который делит на кусочки сетку, и по очереди засовывает в видеопамять - в десять раз дольше, но можно запустить даже на 1050ti. Самый нормальный способ - запуска - python optimizedSD\txt2img_gradio.py - вебинтерфейс, чтобы между генерациями не грузить модель в память каждый раз.

Но начиная с сегодняшнего вечера хочу перейти на https://github.com/AUTOMATIC1111/stable-diffusion-webui, пост на реддите, больно красиво выглядит, и есть новые крутые киллер-фичи, которые запрашиваются сообществом. Там же есть гайд, где получить файл ckpt версии 1-4 (я магнет-ссылкой качал).

Для запуска на процессорах, AMD и прочих необычностях, советую глянуть вот такую подборку https://www.reddit.com/r/StableDiffusion/comments/wqaizj/list_of_stable_diffusion_systems/

На реддите есть еще и несколько exe файлов, для тех, кто не умеет ставить питон, и вообще много чего есть.

Также часть пользователей используют телеграм-ботов (ссылок не дам, но они существуют, хабраэффект их сломает), а также многочисленные коллабы. Благодаря оптимизированной версии программы, SD может быть запущена в обычной бесплатной версии гугл-коллаба, я пользовался вот этим https://colab.research.google.com/github/pharmapsychotic/ai-notebooks/blob/main/pharmapsychotic_Stable_Diffusion.ipynb. Вообще коллабов полно, есть и для анимации, и для инпейтинга, и чего только нет.

Благодарю за развернутый ответ

попробовал в онлайне. что-то пошло не так...

Выставка резиновых кукол, не иначе. Особенно те что справа

Самая правая еще и чью-то отрубленную кисть держит в руке. Триллер ))
Очень странные дела, кастинг пятого сезона
Что уважаемые хабровчане думают про апскейл аудиотреков в низком разрешении (раз уж аудио было упомянуто автором оригинальной статьи в конце)?

Я однажды немного поинтересовался темой, вот что мне удалось обнаружить.

На сайте энтузиастов в мире аудио (проводят измерения громкоговорителей и периферии), в теме посвященной апскейлу выяснилось, что пока данная тема скудна на соответствующие исследования. Пока среди посетителей сайта не нашёлся юзер, попытавшийся самолично произвести код для подобной махинации.

Вот что он пишет:

«Привет ребята! После нескольких часов тестирования различных моделей (GAN, RNN, CNN, DNN) я пришел к выводу, почему никто на самом деле этого не сделал.

Это невероятно сложно для последовательных данных!

Обработка и масштабирование изображений на самом деле не проблема, поскольку каждое обрабатываемое изображение замкнуто само на себя и не имеет отношения к другим изображениям. Однако музыка или звук в целом подобны одной непрерывной линии, потоку данных, сигналу. Проблема со звуком заключается в том, что если вы обрабатываете отдельные сегменты звукового файла, программа не знает другие сегменты, и поэтому возникает проблема хлопков и щелчков, поскольку первое и последнее значение отдельных сегментов редко совпадают. Вы можете исправить это с помощью некоторого сглаживания после обработки, но это просто уродливое решение…

Я думаю, что лучше всего передать весь аудиофайл; не только сегменты, а действительно весь файл в нейронную сеть. Но для этого требуется безумное количество вычислительной мощности и оперативной памяти. Это как если бы вы пытались накормить белку целой машиной мороженого вместо одной чайной ложки.

Я пытался. Независимо от того, насколько «маленькой» я пытался сделать песню, как только ты пытаешься отправить 3 минуты аудио через сеть, она становится эквивалентом данных из нескольких музыкальных альбомов. Даже моя RTX 3090 подняла белый флаг.

Так что либо вы арендуете суперкомпьютер или, по крайней мере, чрезвычайно дорогой облачный сервер для обучения ИИ, либо нам просто нужно подождать, пока кто-нибудь не подготовит очень хорошую статью по этому поводу. Глядя на ход развития искусственного интеллекта, это не должно занять много времени.»
Этот юзер потерпел неудачу, потому что забыл о том, что нейросеть — это не ИИ. Нейросеть по сути — это база данных со сжатием и потерей информации, и данные для неё надо подготавливать. В случае аудио для этого потребуется как минимум FFT, (M)DCT или вейвлет-преобразование, а также манипуляции с каналами и кепстрами. Вейвлет-преобразование как раз и переводит аудио в изображение и наоборот — так что нет никаких преград для апскейла аудио, кроме необходимости овладевать матаном. И даже нет необходимости в нейросетях.
Я недавно подумал о том, что данная область развития может являться бесперспективной в связи с утратой аудио-треками в эпоху масс-медиа субъективной ценности. Проще говоря, по меркам индустрии (которая и является главным аккумулятором всей творческой энергии наличествующей у людей, аналогично с Академией и знанием) — проще написать новый трек чем улучшать старый.

Апскейл аудио — это из разряда мечтаний ретроградов, которые хотят улучшить любимую пианинку, записанную в пятидесятых, или для рэперов с минусами в 192 kbps.
UFO just landed and posted this here

Столько нейросетей постоянно выходит, сплошной прогресс каждый месяц.

Известите, когда наконец появится плагин к Photoshop или Lightroom, который наконец научится открывать закрытые глаза. Автоматически, без ручного вырезания. Можно с использование второго опорного кадра с открытыми глазами.

Про Akvis Chameleon знаю, но это долго и нудно, а хочет быстро, качественно, молодёжно и с нейросеткой за 1 клик.

Глаза — фик бы с ними. А вот апскейл нейросетью меня по настоящему удивил и порадовал. Кадр с дрона, ночью, шумноватый — увеличивается реально в два раза, с адекватным изменением деталей, элементы становятся тоньше, как будто реально камера имеет в два раза более высокое разрешение

Ну как это фиг с ним. Я хоть и могу вручную, но так неохота каждый раз тратить на это 15-30 минут и вспоминать, как я это делал, так как нужно это нерегулярно.

Через что апскейл был сделан ?
Я вот жду, когда те же чудеса будут происходить со старыми записями в DV или прости господи VHS.

Через нейро-фильтр, встроенный. Сейчас фотошоп немного косячный и не могу сказать название

На глаза можно было потратить время, но сделать самому. А вот двукратное увеличение разрешения — самому никак

Все чудеса уже есть, даже в формате «из коробки». Для удаления шума: Topaz DeNoise, для резкости: Topaz Sharpen, для апскейла: Topaz Gigapixel, и для всего этого в видео: Topaz Video Enhance

Всему этому 10 лет в обед, и я этим пользовался ещё очень давно. Но вот по настоящему не видел чуда, которое бы из DV сделало результат, неотличимый от FullHD.

Самое банальное - до сих пор при увеличение разрешения увеличивается и мыло, если оно было изначально, ведь камеры снимают обычно хуже, чем позволяет формат записи.

Про DeNoise в фото/видео: кто-то научился автоматически строить карту глубины, и деноьсить только задний план, а на переднем наоборот повышать резкость ? Мне даже в Lightroom/Photoshop такого не хватает, всё только руками. В новый Photoshop 2021 завезли инструмента "малая глубина резкости", который умеет блюрить по карте глубины, но сам карту глубины строить не умеет.

Sign up to leave a comment.