ddimitrov 4 апр 2024 в 12:54

Kandinsky 3.1 — новая быстрая модель генерации изображений по тексту

Средний

15 мин

32K

Блог компании СберБлог компании SberDevicesОбработка изображений*Машинное обучение*Natural Language Processing*

Обзор

+72

Комментарии 36

Watashiwa 4 апр 2024 в 13:00

А простые вещи рисковать умеет ;) ? Белый лист там ну или простую рамку, а то прошлые версии что то такое выдавали, что даже показывать не стал. И причём речь шла про обычные прямоугольные, небольшой толщины. С более сложными вещами как раз гораздо лучше справлялась

ddimitrov 6 апр 2024 в 02:12

Вот, например, генерация белого фона в боте Kandinsky https://t.me/kandinsky21_bot (версия Kandinsky 3.0)

ddimitrov 6 апр 2024 в 02:19

Кстати говоря, это довольно сложная задача, с которой Kandinsky 3.0 (и 3.1 тоже) успешно справляется. Вот тут можно посмотреть, что генерирует MJ по похожим запросам: https://www.reddit.com/r/midjourney/comments/wfv5yp/white_background/

Genrehopper 4 апр 2024 в 14:36

Научите вашу нейронку текст писать на картинке нормально, а то там текст выглядит как руки, которые в кашу превратились)

ddimitrov 6 апр 2024 в 02:13

Да, это то, над чем мы активно работаем

Watashiwa 2 мая 2024 в 11:55

Да и желательно на русском языке, а то просил февраль надпись, так часть February было написано))

ivorrus 4 апр 2024 в 16:24

А можете показать прогресс в изображении трёх богатырей? ;-)

Потому что результат генерации по запросу "три богатыря без стиля" в версии 2.1 меня поразил в самую пятку

ddimitrov 6 апр 2024 в 02:17

Вот генерация по запросу «Три богатыря» в версии Kandinsky 3.1:

gudvinr 4 апр 2024 в 21:25

Бросилось в глаза, что почти везде в примерах 3.1 делает портреты в анфас, когда у остальных, даже 3.0 и 2.1 есть вариации

Лица очень симметричные и выглядят менее человечными, что ли

domrik 4 апр 2024 в 23:38

Молодцы! Не слушайте хейтеров. Ждём в открытом доступе

ddimitrov 6 апр 2024 в 02:20

Спасибо! В открытом доступе версия очень скоро появится. Напишу короткую заметку на Хабр по этому поводу

BazilioMike 8 апр 2024 в 22:34

Фильтрационная система становится все хуже и хуже с каждым разом, блокируя почти все промпт подсказки. С такими темпами скоро можно будет создавать только котиков и собак. Я заметил, что два месяца назад эти блокировки усилились.

Почему блокируется, непонятно раньше всегда работало! prompt: Character, SpawnИ это не единичный случай, полно других. — Почему блокируется, непонятно раньше всегда работало! prompt: **Character, Spawn**

И это не единичный случай, полно других.

ArkadiyMak 5 апр 2024 в 11:35

Новая модель будет доступна на Fusion Brain?

BazilioMike 5 апр 2024 в 11:35

Я не понял, как использовать ControlNet на https://fusionbrain.ai/editor/. Прошло много времени, а его там до сих пор нет.

Plovchik 5 апр 2024 в 12:54

Что я делаю не так?

Hidden text

Stepler 5 апр 2024 в 13:11

Наверно, понятие "реалистичный" не входит в алгоритм.

BazilioMike 5 апр 2024 в 17:06

Неправильно задает саму подсказку, если хотите получить фото. Не используйте слова "реалистичный" или "гиперреалистичный". Вместо этих слов используйте "RAW photo" или "Canon EOS R8, wide-angle lens" и другие. Также надо учитывать, что Kadinsky не умеет создавать изображения людей и животных, лежащих на спине. А если и создаст, то это будут деформированные тела. Видимо, данные для обучения были ограничены с целью соблюдения этических фильтров. Вот пример того, что получилось создать по такому запросу prompt: RAW photo, British longhair cat, lies on the back, in the kitchen, basking in the sun

MountainGoat 8 апр 2024 в 10:48

Попробуйте так: RAW photo, British longhair cat, prone on the floor in the kitchen, paws up, belly up, sunlight, hard shadows, view from above.

Первое правило: не упоминать то, чего на картинке не должно быть. Поэтому on the back не работает.

Второе правило: не использовать редкие слова. Говоря basking in the sun, вы аппелируете только к тем исходникам, которые так подписали. Может получиться, что среди них почти нет кошек на спине, поэтому это работает как негативный вес к нужному нам аспекту.

Hidden text

MountainGoat 8 апр 2024 в 10:54

Ой, блин, что я сделал...

Hidden text

InvokeAI, JuggernautXL.

RAW photo, British longhair cat, missionary pose, on the floor in the kitchen, paws up, belly up, sunlight, hard shadows, view from above

С тенями швах, но это в ручную поправить можно.

alan008 9 апр 2024 в 09:47

Просто сеть обучалась на таких картинках:

purportex 6 апр 2024 в 02:21

«Выпускаем» — где можно потрогать?

menz1 6 апр 2024 в 02:21

Вот кстати давно было интересно, как вы собираете обратную связь от людей, как ее обрабатываете, какую-нибудь статистику неуспешных генераций и т.п.? Я лично регулярно задалбываюсь генерить что-то сложнее котика в мыле, многие из интересных идей в принципе не удались, языковая модель тупо не распарсила нормально.

З.ы. Юзер-френдли мануала с примерами генерации тоже бы не помешало, например, как запросить генерацию нескольких объектов на одном изображении

NeoRUS747 6 апр 2024 в 02:21

Очень интересно, подскажите когда появиться в общем доступе?

rombell 8 апр 2024 в 00:33

Не знаю, кривые у меня руки или печатаю с ошибками, но по разным вариациям

слева одно дерево без листьев с голым стволом; справа и выше дерева одна птица летит вправо

получается либо птица под деревом, либо летит к дереву, либо просто сидит на висящей в воздухе ветке, либо вообще пятно от птицы, размазанной катком. Дерево получается же более-менее нормально.

3.1 может такое нарисовать?

Hidden text

а хочется примерно такое, только без листьев

axe_chita 8 апр 2024 в 22:10

Новая версия (на https://fusionbrain.ai/editor/ обновили?), старые запросы

"баба с косой"

Без изменений. Зато никаких проблем с конями и горящими избами ;)

"три богатыря"

"Два богатыря и Алёша Кентавр" Новый шедевр от Мельницы

"четыре богатыря"

В стиле Вахи 40тыр и "Спаси Марину 2". А где четвертый богатырь?

"черномор и тридцать три богатыря"

Богатырей пересчитывать не будем, главное что руководитель на месте ;)

Проверим на кринж от неизвестного слова

"озорная девочка, 12 лет, Алиса Селезнёва с миелофоном в руках"

Миелофон, микрофон, какая к черту разница? Главное "фон"

Стоп слова как всегда на месте, поэтому изменяем запросы на более нейтральные

"подводная лодка в степях закарпатья"

"Диду, а вирно говорят, что у тоби в запруде пидводна лодка схована? Вот внучок, чого нэма - того нэма!" ;) — "Диду, а вирно говорят, что у тоби в запруде пидводна лодка схована?
Вот внучок, чого нэма - того нэма!" ;)

"подводная лодка в степях аризоны"

Не "Джип по имени Аризона", но в целом пойдет

Будет время, проверю и другие старые запросы

BazilioMike 8 апр 2024 в 22:17

Скажите, а где проверяете? На сайте https://fusionbrain.ai/editor/ обновленной версии все еще нет, и неизвестно, когда появится

axe_chita 9 апр 2024 в 06:03

Именно на https://fusionbrain.ai/editor/ и проверял. Обновилась ли на нем "Кандинский" не знаю, о версии там вообще не упоминается. Но на стартовой странице поменялись и "артгены" и запросы по которым они создавались, по этому и было высказано предположение о новой версии.

BazilioMike 9 апр 2024 в 17:08

Так это просто prompt веса моделей были изменены. Они их меняют каждые 4 недели а модель всё та же 3.0

А что подразумеваете под поменялись артгены?

axe_chita 9 апр 2024 в 20:07

Артгены, это сгенерированые нейросетью изображения из запроса

Почему я решил что на https://fusionbrain.ai появилась новая версия "Кандинского"? Да потому, что они изменили артгены и их запросы в разделе "вдохновляйтесь" на стартовой странице. Ранее они выполняли эти действия только при смене версии "Кандинского".

ssj100 16 апр 2024 в 11:30

А где четвертый богатырь?

Да вон стоит за главным .... (с) Маленький принц. Экзюпери

axe_chita 17 апр 2024 в 14:01

"А Ленин - в Разливе!" (с)

Shee82 12 апр 2024 в 21:11

Выдача доступа небольшой части пользователей всегда печальна. лично я этот метод сильно не поддерживаю. Острой необходимости в генераторе не испытываю, у меня видеокарта хорошо тянет SD, и пользоваться умею, ну конечно хотелось разделить радость по поводу выхода версии со знакомыми, ярыми поклонниками Кандинского, пощупать что почëм. Удачи в развитии!

BazilioMike 18 апр 2024 в 21:31

Третья неделя идет, а Kandinsky 3.1 так и не вышел.

SaemonZixel 1 мая 2024 в 06:09

В телеграмме Kandinsky 3.1 вышел и похоже отключили Kandinsky 2.х. Эх, а 2.2 версия красивее всего генерировала женских персонажей по моим промптам. Грусть, печаль.

Например промпт: full body view, look at viewer, beautiful happy princess sitting on the throne, blond, blue eyes, angelic smile, no makeup, perfect body,
large breast, wide hips, very thin waist, golden ball gown dress, white sleeves, ruffles, backlight glow
Стиль: Детальное фото

Kandinsky 2.2

Kandinsky 3.1

Да, смориться неплохо, но уже что-то не то, как на мой взгляд.

BazilioMike 8 мая 2024 в 04:42

Молодцы, разработчики! С 7 мая они снова выставили систему фильтров по тексту на 99 процентов. Теперь она блокирует практически все. Когда я ввожу имя художника, появляется цензурное окно. Когда ввожу имя другого, снова блокировка. Браво, разработчики! В принципе, я этого и ожидал.

khan-alex 23 дек 2024 в 14:57

Не знает что такое кульман и рейсфедер, вот что нарисовал по запросу: Медная скульптура Советского инженера работающего за кульманом

Зарегистрируйтесь на Хабре, чтобы оставить комментарий