Как стать автором
Обновить

Комментарии 56

Пришлось зарегестрироваться.

Stable Diffusion. Бесплатно. Оффлайн.

Даже видео есть, как это все поставить https://youtu.be/jepK6ufemMw

да, но для этого необходима своя видеокарта объёмом от Гб или от 12 Гб если в разрешении 1024х1024 генерировать, место на диске, время на установку и обслуживание софта и умение работать с Git, как минимум. Как простому пользователю, проще было просто зайти в Телеграм и нажать кнопочку "создать изображение"

На RTX 2070 с 8Гб в Automatic111 + xformers прекрасно рендерю картинки выше чем 1024х1024 а еще есть скрипт Ultimate SD Upscale где тайлами можно хоть до 2К\4К повышать детализацию.
Плюс имею полный инструментарий для работы: img2img, inpainting, ControlNet, апскейлинг с codeformer различные модели, эмбеддинги и т.д.

  1. Пользователи сейчас в основном с ноутбуков или смартфонов сидят. Не в каждом ноутбуке есть видеокарта более 4 Гб, а на смартфонах Automatic111 не поставишь.

  2. Давайте представим образ пользователя: женщина 35 лет, работает в общепите, приходит домой и хочет просто оформить свою страницу в соцсети или же сделать изображения для контента в блоге о рукоделии или кулинарии. Ей нужен будет Auromatic111, разбираться с разновидностью нейросетей, где скачать веса, как обучить Lora/эмбеддинги и что такое ControlNet или же она захочет просто воспользоваться готовым решением, которое сэкономит её время и деньги на приобретение "железа"? Ответ очевиден)

  3. Для профессионального использования, конечно, необходимо разбираться в теме и можно всё локально использовать, но в то же время, далеко не всё есть в открытом доступе для скачивания весов. Это как фотошоп - кто-то покупает и пользуется софтом для обработки фото, ведь он фотограф, а кто-то - заходит в фоторедактор онлайн и пользуется им.

Ну так можно еще усложнить исходные данные. Света нету дома, компьютер сломался.

Имхо 2070 это уже доступно по цене, для того, кто хочет просто попробовать. Не говоря уже о том, что бы использовать в своем проекте.

А заплатить 10 баксов и сгенерировать картинку, это не отдать фрилансеру 100 баксов и получить "он художник, он так видит".

По пунктам:
1) Ноутбуки с той же мобильной 3050 это уже самый верх офисного сегмента и доступны при грамотном выборе каждому. А игровые решения за чуть большие деньги запустят без проблем.
2) Плохо представляю как такая женщина работающая в общепите раньше пользовалась Midjourney через дискорд и имеет страницу в соцсети с AI артами. Скорее эта женщина найдет для себя бесплатные playgroundai или lexica где можно копипастить промты и делать ремиксы.
3) Согласен, вникнуть во все возможности Automatic111 сможет не каждый, но ведь для создания картинки с базовой моделью нужна лишь строка промта - она работает "из коробки" а уже постепенно потом изучать функционал, покачать модели, посмотреть пару видео на ютубе про настройки может каждый.

По второму пункту. Озвученной ЦА сервиса, место публикации не очень соответствует

По третьему. Все в открытом доступе. Какой смысл заявлять об отсутствии в свободном доступе если опровергается за 5 секунд? Huggingface и civit.ai - качай сколько влезет..

Результатов, получаемых в боте, вы не получите в моделях из HF или CivitAI, потому что модель не публиковалась, об этом речь. То что аналоги на SD можно найти на тех платформах - это и так понятно. Но использовать их будет небольшая аудитория, в отличие от желающих получать результат быстро и прямо в мессенджере.

Условно месседж такой: мне, как пользователю, удобнее зайти в интерфейс и тыкнуть одну кнопку, при желании получить сотни генераций за 100 руб., чем лезть в дебри Automatic и тратить на это время.

своя видеокарта
От 4 Гб.
Более того, как минимум Automatic111 можно запустить на процессоре, только будет очень медленно, но на попробовать хватит.

Automatic требует своё железо и память на диске, а также необходимость следить за кривыми постоянными обновлениями репозитория, смотреть мердж-реквесты и экстеншены, ведь даже за последние 2 недели обновления в Automatic были багнутыми несколько дней.

Плюс про 12 Гб не просто так сказано - SD 2.1 и SD 2.2 XL при 1024х1024 со слоями эмбеддингов и/или Lora требуют 12 Гб видеопамяти при локальном использовании.

Повторюсь, что намного экономнее по времени просто нажать кнопку "создать" со смартфона, чем идти за комп/ноут и забивать память и ресурсы устройства сторонним софтом.

Отлично все ставится в гугл колаб. Жмякаешь три раза кнопочку плей, получаешь ссылку на веб-интерфейс автоматика. Очень легко, куча туториалов на ютубе. По ссылке легко туда загрузить любую модель из чекпоинтов sd. Генерит одно изображение секунд пять-десять. Скачивать ничего не надо. Платить тоже.

Колаб в бесплатной версии справляется? Внешнюю карту не подключали?

В разрешении 1024*1024 генерировать особого смысла нет, гораздо удобнее батчем 4*512*512 а потом апскейлить то что понравилось. Гит там не необходим (но иногда может помочь). Есть возможность задать количество шагов или семплер? Задать вес конкретному токену в промте?

От 12 gb vram? Прекрасно работает на 6-и, на 4-х запускают без особых проблем.

Веса токенам и негативный промт задать там можно, изображения с маленьким разрешением в стоке без увеличения пользователям неинтересны. Пользователь хочет получать в один клик минимум 1024 пикселей, т.е. чтобы в 4 раза больше информации на изображении без апскейлеров содержало изображение, чем при 512х512.

Хороший апскейлер будет увеличивать до 4096х4096 более 3 минут, пользователь ждать не будет. Что-то среднее типа ESRGAN за 10-30 секунд Х4, но надо исходник больше размером, чтобы было меньше потерь деталей. Поэтому 1024х1024 вариант лучше и практичнее, чем 512х512.

И вот да, на 4-6 Гб 512х512 и даже 768х768 при инференсе моделей SD1.5 запустить можно, для SD2.1 XL уже надо 12 Гб минимум при 1024х1024. И да, SD2.1 XL опубликуется только в ближайшие недели в свободный доступ, пока из последних только SD2.1, которой тоже при 1024х1024 надо 12 Гб чтобы хорошо себя чувствовать, о чём писалось здесь ранее.

Пользователь хочет получать в один клик минимум 1024 пикселей, т.е. чтобы в 4 раза больше информации на изображении без апскейлеров содержало изображение, чем при 512х512.
Оставьте уже этот максимализм, ей-богу. Больше — не значит лучше. У вас в статье на картинках 40-60% изображения это фон в ОГРОМНОМ количестве мыла. Зачем вам там эти пиксели?
И я вас уверяю, как человек, который в свое время пытался пропихнуть авторам видео на patreon адекватные параметры сжатия и даже пилил для них однокнопочные сжималки в надежде, что они начнут нормально сжимать свое видео из lossless PNG раскадровок — пользователям глубоко плевать, сколько у них там пикселей. Даже тем, кто работает с 3D и видео. Не говоря уже о домохозяйках и прочих.
Большинство потребителей контента смотрят его на телефонах. Нет там никакой нужды в деталях. Почти никто с этим не заморачивается.

Ваши посты потом растащат по Интернету, и будут свято верить, что 12ГБ — это минимум. Хотя на самом деле, это минимум для абсолютного меньшинства не самых полезных моделей (цензура, черные списки художников и прочие чудеса корпоративного управления отбивает у большинства энтузиастов желание что-то делать с этим инструментом). А без энтузиастов, ну… Никто их дообучать, миксовать не будет. Ну ладно, будут, 5% от пользовательской базы.
Вижу какую-то пользу в бесплатном клоне Midjourney. В платном — не очень.

Опять же — ничего личного, просто вот от этих «12ГБ минимум», «много места занимает», «надо следить и обновлять» — корежит, как пользователя. Нет там ничего сложного или требовательного. Народ на картах 6-и летней давности прекрасно себе генерирует. И на ноутбучных.

Я лишь наблюдаю рост комьюнити тех, кто хочет смотреть на изображения в высоком разрешении, а не 512х512. Даже со смартфона такое разрешение выглядит не очень, ведь большинство смартфонов имеют разрешение 2К, либо FHD. Большинство людей не слышали про AUTOMATIC, а если им сказать, что там надо сделать git pull с такого-то репозитория, то у ~95% это вызовет сразу отвращение и останутся как раз те 5%, которые пойдут в Colab или развернут локально.

То что общество, создающее визуальный контент, делится на 2 секты - кто простой потребитель и кто пользуется в профессиональных кругах - это тоже так. Одни хотят написать 2 слова и получать готовый результат, а другим - важно контролировать параметры, изучать как устроено под капотом и т.д. Условно будем считать, что это как "одни верят в науку, а другие - в магию". Обе секты будут существовать до тех пор, пока будет спрос.

Если есть спрос на генерацию изображений в один клик - будет и предложение. Каждый день я наблюдаю, как такие комьюнити, кому проще отдать 100 рублей, чем лезть в дебри Automatic только растёт и это неудивительно. Тем более, что там ChatGPT прикручен ещё как вспомогательная нейросеть, всё в одном месте и не надо бегать в разные сервисы.

Наблюдаю рост комьюнити - где? Есть цифры которые можно проверить.

Я пользуюсь Midjourney пару месяцев, 12 тысяч изображений, нет подходящей техники для SD и желания и стимула разбираться.

Mj выдает регулярно новые инструменты /decribe например, когда можешь любую картинку закидываешь, получаешь описание и тут же можешь нажатием кнопок получить 4 варианта изображения из описания. А ещё смешивание изображений /blend выдает интересные результаты.

Состою в чате SD от теплицы социальных технологий, что также не помогает найти мотивацию. За 3000 р месяц я получаю безлимитные (ограничение а ожидании есть) возможности, с любого устройства.

При первой возможности я конечно приобрету подобающую технику и поставлю SD. А пока мне ещё бы освоить все возможности MJ5 с ChatGPT 4.

Всё прекрасно, но стейк то не прожарен! :)

сделаю замечание нейросетевому повару ) не получит мишлен

Подскажите, как использовать параметр negative_prompt? Например, как negative_prompt:28? Какие допустимые значения?
Как использовать стиль, скажем, Maxfield Parrish?

в боте есть ссылка на руководство по использованию, она перед стартом генерации даётся (кидать здесь не могу т.к. без понятия как Хабр отреагирует на них). negative_prompt: плохая анатомия тела, водяной знак... - т.е. прописываете значения, что именно надо удалить на изображении.

В боте при генерации есть 8 стилей изображения (прописываются параметром style), а прочие вы можете указать самостоятельно.

Например: Девушка за рулём автомобиля в стиле художника Ван Гога

ворона сидит на ветке дерева

с когтем на левой лапе проблема.

Это вы еще на хвост со смещением не обратили внимание )

А можно просто переименовать в "ворона сидит на ветке дерева после тяжёлой драки"

Сделал ~5 запросов, ни в одном не получил ни желаемого, ни более-менее близкого к реалистичному изображения: везде размытый фон, везде персоны с каких-то рекламных или стоковых фото и т. д. ну, и косяки:

Девушка в модном открытом(?) купальнике выходит из воды на пляже Анапы(?).
Девушка в модном открытом(?) купальнике выходит из воды на пляже Анапы(?).

если есть ошибки в генерации, то можно увеличить steps хоть до 100 или изменить style (доступно 8 стилей, описанных в руководстве)

стиль был указан (реализм), количество шагов (и размер изображения) указано, но почему-то игнорируются:

Ну и да, до реализма тут очень далеко. И во всех моих примерах видно, что изображения — калька рекламных (стоковых) фото. Нейросеть обучали только на "ванильных" картинках?

потому что в руководстве явно указано, что максимальное разрешение 1024х1024 и при разрешении 1024 максимальное кол-во шагов 55. Параметры от запроса отделяются с помощью ;

Если не отделять с ;, то кусок с параметрами идёт в запрос, а это уже лишний шум. Для фотореалистичности в запросе можно было добавить слова-усилители: RAW, hdr, гиперреализм.

Это не Midjourney, тут запросы формулировать надо тщательнее. На ютубе уже очень подробно за эти месяцы рассмотрели. Так же к этому сейчас добавились и редактор поз и много еще всяких возможностей.
Несмотря на то что автор канала мне не нравится, но в видео у него очень подробно рассмотрены большая часть аспектов
https://www.youtube.com/playlist?list=PL05SB3rBbUsprkMgH3yDV12MuuIbO5KEq

у Христа много интересного есть)

Ноги зачем обрезали? Непорядок.

Да уж... Насколько же Stable Diffusion превосходит все эти поделия.

Это, конечно, не Анапа, и не Сочи, и не Геленджик... Но тоже ничего.

Hidden text

Hidden text
RAW photo, (realistic:1.2), solo, long hair, blonde hair, hair over one eye, blue eyes, sharp eyes, full shot body, photo of a girl in a fashionable bikini comes out of the water on the beach, (beach background:1.2), full body, standing, intricate details, sunny day, hand on hip, small breast 
Negative prompt: (worst quality:1.4), (low quality:1.4), (monochrome:1.1), (multiple persons:1.3), cropped, bokeh, blurred 
Steps: 30, Sampler: DDIM, CFG scale: 9, Seed: 1582924993, Size: 768x512, Model hash: 0d27c62ffa, Model: realdosmix_, Denoising strength: 0.6, Clip skip: 2, Hires upscale: 2, Hires steps: 20, Hires upscaler: Latent

это в какой модели? или чистый stable?

вот то что по вашему запросу получается в боте

Заселфхостить можно?

возможно, в этом вам подскажут у них в чате

У автора уже был пост о создании бота TurboText для текста, теперь автор пишет что решил дать шанс российским разработчикам— TurboText. Автор Вы больше никак не связаны с TurboText? Или это просто реклама где вы якобы как случайный пользователь нашли такой великолепный проект.

Настоящий прогресс наступит тогда когда ИИ научится рисовать собак верхом на котах. Пока что мне не удалось добиться этого ни от одной нейросети - при запросах типа "собака верхом на коте" в разных вариациях и на разных языках всё равно получается наоборот - коты верхом на собаках. В лучшем случае и если долго пробовать собака может оказаться где-то над котом или его частью, но никак не верхом.

Кот какой то не кошачий...Больше похож на собаку с кошачьей мордой, да и морда больше на собачью смахивает. Но все равно здорово!

Уберите про "12 ГБ" нафиг, не пугайте народ почем зря.
С 8 ГБ уже комфортно (и можно даже обучать lora), а минимум, как написали выше, вообще 4 ГБ.
Больше 10 по факту нужно только для dreambooth.

SD 2.1 и SD 2.2 XL, которые здесь использовались в основе для дальнейшего обучения моделей, требуют минимум 12 Гб видеопамяти при генерации изображений в 1024х1024 со слоями Lora и/или эмбеддингов.

Вы путаете с легковесными SD 1.5, которые можно запустить на 8 Гб при 1024х1024. Но это речь идёт об Automatic - сторонний софт, который надо ставить себе на ноут/комп и забивать хранилище и ресурсы устройства, к тому же, постоянно следить за обновлениями и экстеншенами в репозитории, ведь открытая в доступе софтина только за последние 2 недели выходила из строя несколько раз.

Намного проще нажать со смартфона "создать изображение" и получить результат за секунды, чем установить, изучить сторонний софт, забивать устройство обновлениями. И это при условии, что для установки уже есть соответствие системным требованиям, которые постоянно растут.

SD 2.1 и SD 2.2 XL, которые здесь использовались в основе для дальнейшего обучения моделей, требуют минимум 12 Гб видеопамяти

SD 2 - один из лучших примеров того, что обновления не всегда делают лучше. Ну вон вам в комментариях выше накидали примеров на 1.5. Сравните. Небо и земля.

Да и вообще, сдались вам эти 1024х1024 квадраты? Куда их девать? Я на своих 24 ГБ генерирую 910х512 (или наоборот, в зависимости от того, вертикальная картинка или горизонтальная в планах) и не жалуюсь. Не зря же там апскейлеры встроены.

Но это речь идёт об Automatic - сторонний софт, который надо ставить себе на ноут/комп и забивать хранилище и ресурсы устройства

Если у пользователя нашлось 64 гига на Винду, то у него найдется 10 на webui. Ставится он в один клик. Для тех, кому сложно два.

постоянно следить за обновлениями и экстеншенами в репозитории

Для генерации того, что у вас в примерах, никаких экстеншенов не нужно. Как и обновлений (работает - не трожь). А вообще, научиться делать cd в папку и git pull стоит каждому. Этого, в целом, и достаточно.

И это при условии, что для установки уже есть соответствие системным требованиям, которые постоянно растут.

Когда росли требования у automatic webui?

Намного проще нажать со смартфона "создать изображение" и получить

...откровенную ботву, на уровне того, что на двачах генерировали в октябре прошлого года.

Классно работает. Не хуже, чем Midjorney. Но очевидно, что с первого запроса не всегда получается то, что хочешь... Нужно тренироваться. Спасибо разработчикам за инструмент!

Можно проще.

Вариант раз:Stable Horde плюс любая модель на фотореализм (напр-р, Dreamlike Photoreal или Realistic Vision). Инструкция тыц.

Вариант два: генератор картинок от Bing. Ссылка тыц, нужен VPN и аккаунт мелкомягких.

Оба:
Полностью бесплатны, без ограничений на использование (жесткого лимита, завязанного на «плати или проваливай»).
Дают реалистичную картинку. Для бинга достаточно простого запроса на более-менее нативном языке, для Stable нужен промт (шаблон по ссылке тыц, там же настройки крутилок, от которых можно отталкиваться).
Тоже работают в браузере, требуя из железа только «руль от унитаза».
В отличие от жадного Midjourney, авторские права принадлежат вам даже при работе с Bing. SH вообще ни на что не претендует даже в теории.

Что-то какая-то шляпа получается.

Вот, например

Запрос: Девушка брюнетка со спортивной фигурой в синем бикини стоит на берегу моря на песчаном пляже, белый песок, рядом кокосовые пальмы, море голубое? прозрачное b спокойное, фотореализм, высокая детализация, вид спереди, style: realism, width: 1024, weight: 1024
Запрос:
Девушка брюнетка со спортивной фигурой в синем бикини стоит на берегу моря на песчаном пляже, белый песок, рядом кокосовые пальмы, море голубое? прозрачное b спокойное, фотореализм, высокая детализация, вид спереди, style: realism, width: 1024, weight: 1024

Или вот:

Запрос: Фотореалистичное изображение, raw фотография, загородный дом из дерева, газон и цветы, дорожка к дому, солнце светит мягко, голубое безоблачное небо, на газоне играют большой рыжий кот мейн-кун и две маленькие собаки той-терьер чёрно-коричневого окраса и чихуахуа кремового окраса, высокая детализация, профессиональное фото, снятое на зеркальную фотокамеру
Запрос:
Фотореалистичное изображение, raw фотография, загородный дом из дерева, газон и цветы, дорожка к дому, солнце светит мягко, голубое безоблачное небо, на газоне играют большой рыжий кот мейн-кун и две маленькие собаки той-терьер чёрно-коричневого окраса и чихуахуа кремового окраса, высокая детализация, профессиональное фото, снятое на зеркальную фотокамеру

И преобразуем ваш этот запрос:

RAW фото, дачный дом из дерева, рядом с домом газон и цветы, на газоне играют большой рыжий кот мейн-кун и две маленькие собаки той-терьер и чихуахуа, мягкое освещение, профессиональное фото, сложные детали; steps: 100, v_model: v2, style: realism

Интересно. Попробовал с вашим запросом.
Результат вышел так себе.

Ещё раз тоже самое по вашему запросу - чуть лучше, но всё ещё так себе.

по вашему

хм, мой результат был получен с первой попытки. Можете взять seed и воспроизвести результат: seed: 9585251435, steps: 100, width: 768, height: 768

потому что так запрос не строится, не отделены параметры от запроса и много шума в самом запросе с лишними символами и фразами, а слово weight - это вовсе означает "вес", а не высота height.

Ваш запрос можно преобразовать в такой:
RAW фото, спортивная девушка брюнетка в синем бикини стоит на песчаном морском побережье, белый песок, рядом кокосовые пальмы, гиперреализм, профессиональное фото; v_model: v2, width: 1024, style: portrait

В результате увидите нормальное изображение.

Про weight моя опечатка.

Пробу по вашему же запросу - вот результат, вышло неплохо. Не фото, но вообще неплохо.

Запрос: RAW фото, дачный дом из дерева, рядом с домом газон и цветы, на газоне отдыхает большой рыжий кот мейн-кун, мягкое освещение, профессиональное фото, сложные детали, гиперреализм; steps: 100, v_model: v2, style: realism
Запрос:
RAW фото, дачный дом из дерева, рядом с домом газон и цветы, на газоне отдыхает большой рыжий кот мейн-кун, мягкое освещение, профессиональное фото, сложные детали, гиперреализм; steps: 100, v_model: v2, style: realism

А вот это получилось очень неплохо (конечно, это не Вавилон 5, но допускаю, что нейросеть про него не знает).

Запрос: RAW фото, космическая станция дальнего космоса Вавилон 5,  много деталей, гиперреализм; style: realism, width: 1024, height: 768, steps: 50, scale: 8, seed: 12345, v_model: v2
Запрос:
RAW фото, космическая станция дальнего космоса Вавилон 5, много деталей, гиперреализм; style: realism, width: 1024, height: 768, steps: 50, scale: 8, seed: 12345, v_model: v2

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Изменить настройки темы

Истории