RAW фото, дачный дом из дерева, рядом с домом газон и цветы, на газоне играют большой рыжий кот мейн-кун и две маленькие собаки той-терьер и чихуахуа, мягкое освещение, профессиональное фото, сложные детали; steps: 100, v_model: v2, style: realism
потому что так запрос не строится, не отделены параметры от запроса и много шума в самом запросе с лишними символами и фразами, а слово weight - это вовсе означает "вес", а не высота height.
Ваш запрос можно преобразовать в такой: RAW фото, спортивная девушка брюнетка в синем бикини стоит на песчаном морском побережье, белый песок, рядом кокосовые пальмы, гиперреализм, профессиональное фото; v_model: v2, width: 1024, style: portrait
потому что в руководстве явно указано, что максимальное разрешение 1024х1024 и при разрешении 1024 максимальное кол-во шагов 55. Параметры от запроса отделяются с помощью ;
Если не отделять с ;, то кусок с параметрами идёт в запрос, а это уже лишний шум. Для фотореалистичности в запросе можно было добавить слова-усилители: RAW, hdr, гиперреализм.
Я лишь наблюдаю рост комьюнити тех, кто хочет смотреть на изображения в высоком разрешении, а не 512х512. Даже со смартфона такое разрешение выглядит не очень, ведь большинство смартфонов имеют разрешение 2К, либо FHD. Большинство людей не слышали про AUTOMATIC, а если им сказать, что там надо сделать git pull с такого-то репозитория, то у ~95% это вызовет сразу отвращение и останутся как раз те 5%, которые пойдут в Colab или развернут локально.
То что общество, создающее визуальный контент, делится на 2 секты - кто простой потребитель и кто пользуется в профессиональных кругах - это тоже так. Одни хотят написать 2 слова и получать готовый результат, а другим - важно контролировать параметры, изучать как устроено под капотом и т.д. Условно будем считать, что это как "одни верят в науку, а другие - в магию". Обе секты будут существовать до тех пор, пока будет спрос.
Если есть спрос на генерацию изображений в один клик - будет и предложение. Каждый день я наблюдаю, как такие комьюнити, кому проще отдать 100 рублей, чем лезть в дебри Automatic только растёт и это неудивительно. Тем более, что там ChatGPT прикручен ещё как вспомогательная нейросеть, всё в одном месте и не надо бегать в разные сервисы.
Веса токенам и негативный промт задать там можно, изображения с маленьким разрешением в стоке без увеличения пользователям неинтересны. Пользователь хочет получать в один клик минимум 1024 пикселей, т.е. чтобы в 4 раза больше информации на изображении без апскейлеров содержало изображение, чем при 512х512.
Хороший апскейлер будет увеличивать до 4096х4096 более 3 минут, пользователь ждать не будет. Что-то среднее типа ESRGAN за 10-30 секунд Х4, но надо исходник больше размером, чтобы было меньше потерь деталей. Поэтому 1024х1024 вариант лучше и практичнее, чем 512х512.
И вот да, на 4-6 Гб 512х512 и даже 768х768 при инференсе моделей SD1.5 запустить можно, для SD2.1 XL уже надо 12 Гб минимум при 1024х1024. И да, SD2.1 XL опубликуется только в ближайшие недели в свободный доступ, пока из последних только SD2.1, которой тоже при 1024х1024 надо 12 Гб чтобы хорошо себя чувствовать, о чём писалось здесь ранее.
Результатов, получаемых в боте, вы не получите в моделях из HF или CivitAI, потому что модель не публиковалась, об этом речь. То что аналоги на SD можно найти на тех платформах - это и так понятно. Но использовать их будет небольшая аудитория, в отличие от желающих получать результат быстро и прямо в мессенджере.
Условно месседж такой: мне, как пользователю, удобнее зайти в интерфейс и тыкнуть одну кнопку, при желании получить сотни генераций за 100 руб., чем лезть в дебри Automatic и тратить на это время.
SD 2.1 и SD 2.2 XL, которые здесь использовались в основе для дальнейшего обучения моделей, требуют минимум 12 Гб видеопамяти при генерации изображений в 1024х1024 со слоями Lora и/или эмбеддингов.
Вы путаете с легковесными SD 1.5, которые можно запустить на 8 Гб при 1024х1024. Но это речь идёт об Automatic - сторонний софт, который надо ставить себе на ноут/комп и забивать хранилище и ресурсы устройства, к тому же, постоянно следить за обновлениями и экстеншенами в репозитории, ведь открытая в доступе софтина только за последние 2 недели выходила из строя несколько раз.
Намного проще нажать со смартфона "создать изображение" и получить результат за секунды, чем установить, изучить сторонний софт, забивать устройство обновлениями. И это при условии, что для установки уже есть соответствие системным требованиям, которые постоянно растут.
Automatic требует своё железо и память на диске, а также необходимость следить за кривыми постоянными обновлениями репозитория, смотреть мердж-реквесты и экстеншены, ведь даже за последние 2 недели обновления в Automatic были багнутыми несколько дней.
Плюс про 12 Гб не просто так сказано - SD 2.1 и SD 2.2 XL при 1024х1024 со слоями эмбеддингов и/или Lora требуют 12 Гб видеопамяти при локальном использовании.
Повторюсь, что намного экономнее по времени просто нажать кнопку "создать" со смартфона, чем идти за комп/ноут и забивать память и ресурсы устройства сторонним софтом.
Пользователи сейчас в основном с ноутбуков или смартфонов сидят. Не в каждом ноутбуке есть видеокарта более 4 Гб, а на смартфонах Automatic111 не поставишь.
Давайте представим образ пользователя: женщина 35 лет, работает в общепите, приходит домой и хочет просто оформить свою страницу в соцсети или же сделать изображения для контента в блоге о рукоделии или кулинарии. Ей нужен будет Auromatic111, разбираться с разновидностью нейросетей, где скачать веса, как обучить Lora/эмбеддинги и что такое ControlNet или же она захочет просто воспользоваться готовым решением, которое сэкономит её время и деньги на приобретение "железа"? Ответ очевиден)
Для профессионального использования, конечно, необходимо разбираться в теме и можно всё локально использовать, но в то же время, далеко не всё есть в открытом доступе для скачивания весов. Это как фотошоп - кто-то покупает и пользуется софтом для обработки фото, ведь он фотограф, а кто-то - заходит в фоторедактор онлайн и пользуется им.
в боте есть ссылка на руководство по использованию, она перед стартом генерации даётся (кидать здесь не могу т.к. без понятия как Хабр отреагирует на них). negative_prompt: плохая анатомия тела, водяной знак... - т.е. прописываете значения, что именно надо удалить на изображении.
В боте при генерации есть 8 стилей изображения (прописываются параметром style), а прочие вы можете указать самостоятельно.
Например: Девушка за рулём автомобиля в стиле художника Ван Гога
да, но для этого необходима своя видеокарта объёмом от Гб или от 12 Гб если в разрешении 1024х1024 генерировать, место на диске, время на установку и обслуживание софта и умение работать с Git, как минимум. Как простому пользователю, проще было просто зайти в Телеграм и нажать кнопочку "создать изображение"
Интересно, технологии идут вперёд и генерация текстов показывает прогресс. Уже даже по фото делают описания объектов)) Также заинтересовала образовательная игра, молодцы ребята. Недавно я делал обзор на телеграм-бота от TurboText - можете посмотреть. Теперь изучу новые стартапы)
С помощью TurboText удалось продавать изображения и видео на стоках, получается уже полноценный пассивный доход, на который трачу менее часа в день
хм, мой результат был получен с первой попытки. Можете взять seed и воспроизвести результат: seed: 9585251435, steps: 100, width: 768, height: 768
И преобразуем ваш этот запрос:
RAW фото, дачный дом из дерева, рядом с домом газон и цветы, на газоне играют большой рыжий кот мейн-кун и две маленькие собаки той-терьер и чихуахуа, мягкое освещение, профессиональное фото, сложные детали; steps: 100, v_model: v2, style: realism
потому что так запрос не строится, не отделены параметры от запроса и много шума в самом запросе с лишними символами и фразами, а слово weight - это вовсе означает "вес", а не высота height.
Ваш запрос можно преобразовать в такой:
RAW фото, спортивная девушка брюнетка в синем бикини стоит на песчаном морском побережье, белый песок, рядом кокосовые пальмы, гиперреализм, профессиональное фото; v_model: v2, width: 1024, style: portrait
В результате увидите нормальное изображение.
потому что в руководстве явно указано, что максимальное разрешение 1024х1024 и при разрешении 1024 максимальное кол-во шагов 55. Параметры от запроса отделяются с помощью ;
Если не отделять с ;, то кусок с параметрами идёт в запрос, а это уже лишний шум. Для фотореалистичности в запросе можно было добавить слова-усилители: RAW, hdr, гиперреализм.
Я лишь наблюдаю рост комьюнити тех, кто хочет смотреть на изображения в высоком разрешении, а не 512х512. Даже со смартфона такое разрешение выглядит не очень, ведь большинство смартфонов имеют разрешение 2К, либо FHD. Большинство людей не слышали про AUTOMATIC, а если им сказать, что там надо сделать git pull с такого-то репозитория, то у ~95% это вызовет сразу отвращение и останутся как раз те 5%, которые пойдут в Colab или развернут локально.
То что общество, создающее визуальный контент, делится на 2 секты - кто простой потребитель и кто пользуется в профессиональных кругах - это тоже так. Одни хотят написать 2 слова и получать готовый результат, а другим - важно контролировать параметры, изучать как устроено под капотом и т.д. Условно будем считать, что это как "одни верят в науку, а другие - в магию". Обе секты будут существовать до тех пор, пока будет спрос.
Если есть спрос на генерацию изображений в один клик - будет и предложение. Каждый день я наблюдаю, как такие комьюнити, кому проще отдать 100 рублей, чем лезть в дебри Automatic только растёт и это неудивительно. Тем более, что там ChatGPT прикручен ещё как вспомогательная нейросеть, всё в одном месте и не надо бегать в разные сервисы.
Веса токенам и негативный промт задать там можно, изображения с маленьким разрешением в стоке без увеличения пользователям неинтересны. Пользователь хочет получать в один клик минимум 1024 пикселей, т.е. чтобы в 4 раза больше информации на изображении без апскейлеров содержало изображение, чем при 512х512.
Хороший апскейлер будет увеличивать до 4096х4096 более 3 минут, пользователь ждать не будет. Что-то среднее типа ESRGAN за 10-30 секунд Х4, но надо исходник больше размером, чтобы было меньше потерь деталей. Поэтому 1024х1024 вариант лучше и практичнее, чем 512х512.
И вот да, на 4-6 Гб 512х512 и даже 768х768 при инференсе моделей SD1.5 запустить можно, для SD2.1 XL уже надо 12 Гб минимум при 1024х1024. И да, SD2.1 XL опубликуется только в ближайшие недели в свободный доступ, пока из последних только SD2.1, которой тоже при 1024х1024 надо 12 Гб чтобы хорошо себя чувствовать, о чём писалось здесь ранее.
Результатов, получаемых в боте, вы не получите в моделях из HF или CivitAI, потому что модель не публиковалась, об этом речь. То что аналоги на SD можно найти на тех платформах - это и так понятно. Но использовать их будет небольшая аудитория, в отличие от желающих получать результат быстро и прямо в мессенджере.
Условно месседж такой: мне, как пользователю, удобнее зайти в интерфейс и тыкнуть одну кнопку, при желании получить сотни генераций за 100 руб., чем лезть в дебри Automatic и тратить на это время.
SD 2.1 и SD 2.2 XL, которые здесь использовались в основе для дальнейшего обучения моделей, требуют минимум 12 Гб видеопамяти при генерации изображений в 1024х1024 со слоями Lora и/или эмбеддингов.
Вы путаете с легковесными SD 1.5, которые можно запустить на 8 Гб при 1024х1024. Но это речь идёт об Automatic - сторонний софт, который надо ставить себе на ноут/комп и забивать хранилище и ресурсы устройства, к тому же, постоянно следить за обновлениями и экстеншенами в репозитории, ведь открытая в доступе софтина только за последние 2 недели выходила из строя несколько раз.
Намного проще нажать со смартфона "создать изображение" и получить результат за секунды, чем установить, изучить сторонний софт, забивать устройство обновлениями. И это при условии, что для установки уже есть соответствие системным требованиям, которые постоянно растут.
Automatic требует своё железо и память на диске, а также необходимость следить за кривыми постоянными обновлениями репозитория, смотреть мердж-реквесты и экстеншены, ведь даже за последние 2 недели обновления в Automatic были багнутыми несколько дней.
Плюс про 12 Гб не просто так сказано - SD 2.1 и SD 2.2 XL при 1024х1024 со слоями эмбеддингов и/или Lora требуют 12 Гб видеопамяти при локальном использовании.
Повторюсь, что намного экономнее по времени просто нажать кнопку "создать" со смартфона, чем идти за комп/ноут и забивать память и ресурсы устройства сторонним софтом.
вот то что по вашему запросу получается в боте
это в какой модели? или чистый stable?
у Христа много интересного есть)
возможно, в этом вам подскажут у них в чате
если есть ошибки в генерации, то можно увеличить steps хоть до 100 или изменить style (доступно 8 стилей, описанных в руководстве)
Пользователи сейчас в основном с ноутбуков или смартфонов сидят. Не в каждом ноутбуке есть видеокарта более 4 Гб, а на смартфонах Automatic111 не поставишь.
Давайте представим образ пользователя: женщина 35 лет, работает в общепите, приходит домой и хочет просто оформить свою страницу в соцсети или же сделать изображения для контента в блоге о рукоделии или кулинарии. Ей нужен будет Auromatic111, разбираться с разновидностью нейросетей, где скачать веса, как обучить Lora/эмбеддинги и что такое ControlNet или же она захочет просто воспользоваться готовым решением, которое сэкономит её время и деньги на приобретение "железа"? Ответ очевиден)
Для профессионального использования, конечно, необходимо разбираться в теме и можно всё локально использовать, но в то же время, далеко не всё есть в открытом доступе для скачивания весов. Это как фотошоп - кто-то покупает и пользуется софтом для обработки фото, ведь он фотограф, а кто-то - заходит в фоторедактор онлайн и пользуется им.
в боте есть ссылка на руководство по использованию, она перед стартом генерации даётся (кидать здесь не могу т.к. без понятия как Хабр отреагирует на них). negative_prompt: плохая анатомия тела, водяной знак... - т.е. прописываете значения, что именно надо удалить на изображении.
В боте при генерации есть 8 стилей изображения (прописываются параметром style), а прочие вы можете указать самостоятельно.
Например: Девушка за рулём автомобиля в стиле художника Ван Гога
сделаю замечание нейросетевому повару ) не получит мишлен
да, но для этого необходима своя видеокарта объёмом от Гб или от 12 Гб если в разрешении 1024х1024 генерировать, место на диске, время на установку и обслуживание софта и умение работать с Git, как минимум. Как простому пользователю, проще было просто зайти в Телеграм и нажать кнопочку "создать изображение"
Интересно, технологии идут вперёд и генерация текстов показывает прогресс. Уже даже по фото делают описания объектов)) Также заинтересовала образовательная игра, молодцы ребята. Недавно я делал обзор на телеграм-бота от TurboText - можете посмотреть. Теперь изучу новые стартапы)