Как стать автором
Обновить

Kandinsky 3.1 — новая быстрая модель генерации изображений по тексту

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров26K
Всего голосов 53: ↑51 и ↓2+72
Комментарии35

Комментарии 35

А простые вещи рисковать умеет ;) ? Белый лист там ну или простую рамку, а то прошлые версии что то такое выдавали, что даже показывать не стал. И причём речь шла про обычные прямоугольные, небольшой толщины. С более сложными вещами как раз гораздо лучше справлялась

Вот, например, генерация белого фона в боте Kandinsky https://t.me/kandinsky21_bot (версия Kandinsky 3.0)

Кстати говоря, это довольно сложная задача, с которой Kandinsky 3.0 (и 3.1 тоже) успешно справляется. Вот тут можно посмотреть, что генерирует MJ по похожим запросам: https://www.reddit.com/r/midjourney/comments/wfv5yp/white_background/

Научите вашу нейронку текст писать на картинке нормально, а то там текст выглядит как руки, которые в кашу превратились)

Да, это то, над чем мы активно работаем

Да и желательно на русском языке, а то просил февраль надпись, так часть February было написано))

А можете показать прогресс в изображении трёх богатырей? ;-)

Потому что результат генерации по запросу "три богатыря без стиля" в версии 2.1 меня поразил в самую пятку

Вот генерация по запросу «Три богатыря» в версии Kandinsky 3.1:

Бросилось в глаза, что почти везде в примерах 3.1 делает портреты в анфас, когда у остальных, даже 3.0 и 2.1 есть вариации

Лица очень симметричные и выглядят менее человечными, что ли

Молодцы! Не слушайте хейтеров. Ждём в открытом доступе

Спасибо! В открытом доступе версия очень скоро появится. Напишу короткую заметку на Хабр по этому поводу

Фильтрационная система становится все хуже и хуже с каждым разом, блокируя почти все промпт подсказки. С такими темпами скоро можно будет создавать только котиков и собак. Я заметил, что два месяца назад эти блокировки усилились.

Почему блокируется, непонятно раньше всегда работало! prompt: Character, SpawnИ это не единичный случай, полно других.
Почему блокируется, непонятно раньше всегда работало! prompt: Character, Spawn

И это не единичный случай, полно других.

Новая модель будет доступна на Fusion Brain?

Я не понял, как использовать ControlNet на https://fusionbrain.ai/editor/. Прошло много времени, а его там до сих пор нет.

Что я делаю не так?

Hidden text
не очень реалистично
не очень реалистично

Наверно, понятие "реалистичный" не входит в алгоритм.

Неправильно задает саму подсказку, если хотите получить фото. Не используйте слова "реалистичный" или "гиперреалистичный". Вместо этих слов используйте "RAW photo" или "Canon EOS R8, wide-angle lens" и другие. Также надо учитывать, что Kadinsky не умеет создавать изображения людей и животных, лежащих на спине. А если и создаст, то это будут деформированные тела. Видимо, данные для обучения были ограничены с целью соблюдения этических фильтров. Вот пример того, что получилось создать по такому запросу prompt: RAW photo, British longhair cat, lies on the back, in the kitchen, basking in the sun

Попробуйте так: RAW photo, British longhair cat, prone on the floor in the kitchen, paws up, belly up, sunlight, hard shadows, view from above.

Первое правило: не упоминать то, чего на картинке не должно быть. Поэтому on the back не работает.

Второе правило: не использовать редкие слова. Говоря basking in the sun, вы аппелируете только к тем исходникам, которые так подписали. Может получиться, что среди них почти нет кошек на спине, поэтому это работает как негативный вес к нужному нам аспекту.

Hidden text

Ой, блин, что я сделал...

Hidden text

InvokeAI, JuggernautXL.

RAW photo, British longhair cat, missionary pose, on the floor in the kitchen, paws up, belly up, sunlight, hard shadows, view from above

С тенями швах, но это в ручную поправить можно.

Просто сеть обучалась на таких картинках:

«Выпускаем» — где можно потрогать?

Вот кстати давно было интересно, как вы собираете обратную связь от людей, как ее обрабатываете, какую-нибудь статистику неуспешных генераций и т.п.? Я лично регулярно задалбываюсь генерить что-то сложнее котика в мыле, многие из интересных идей в принципе не удались, языковая модель тупо не распарсила нормально.

З.ы. Юзер-френдли мануала с примерами генерации тоже бы не помешало, например, как запросить генерацию нескольких объектов на одном изображении

Очень интересно, подскажите когда появиться в общем доступе?

Не знаю, кривые у меня руки или печатаю с ошибками, но по разным вариациям

слева одно дерево без листьев с голым стволом; справа и выше дерева одна птица летит вправо

получается либо птица под деревом, либо летит к дереву, либо просто сидит на висящей в воздухе ветке, либо вообще пятно от птицы, размазанной катком. Дерево получается же более-менее нормально.

3.1 может такое нарисовать?

Hidden text
получается вот такой ужас
получается вот такой ужас
а хочется примерно такое, только без листьев
а хочется примерно такое, только без листьев

Новая версия (на https://fusionbrain.ai/editor/ обновили?), старые запросы

"баба с косой"

Без изменений. Зато никаких проблем с конями и горящими избами ;)
Без изменений. Зато никаких проблем с конями и горящими избами ;)

"три богатыря"

"Два богатыря и Алёша Кентавр" Новый шедевр от Мельницы
"Два богатыря и Алёша Кентавр" Новый шедевр от Мельницы

"четыре богатыря"

В стиле Вахи 40тыр и "Спаси Марину 2". А где четвертый богатырь?
В стиле Вахи 40тыр и "Спаси Марину 2". А где четвертый богатырь?

"черномор и тридцать три богатыря"

Богатырей пересчитывать не будем, главное что руководитель на месте ;)
Богатырей пересчитывать не будем, главное что руководитель на месте ;)

Проверим на кринж от неизвестного слова

"озорная девочка, 12 лет, Алиса Селезнёва с миелофоном в руках"

Миелофон, микрофон, какая к черту разница? Главное "фон"
Миелофон, микрофон, какая к черту разница? Главное "фон"

Стоп слова как всегда на месте, поэтому изменяем запросы на более нейтральные

"подводная лодка в степях закарпатья"

"Диду, а вирно говорят, что у тоби в запруде пидводна лодка схована? Вот внучок, чого нэма - того нэма!" ;)
"Диду, а вирно говорят, что у тоби в запруде пидводна лодка схована?
Вот внучок, чого нэма - того нэма!" ;)

"подводная лодка в степях аризоны"

Не "Джип по имени Аризона", но в целом пойдет
Не "Джип по имени Аризона", но в целом пойдет

Будет время, проверю и другие старые запросы

Скажите, а где проверяете? На сайте https://fusionbrain.ai/editor/ обновленной версии все еще нет, и неизвестно, когда появится

Именно на https://fusionbrain.ai/editor/ и проверял. Обновилась ли на нем "Кандинский" не знаю, о версии там вообще не упоминается. Но на стартовой странице поменялись и "артгены" и запросы по которым они создавались, по этому и было высказано предположение о новой версии.

Так это просто prompt веса моделей были изменены. Они их меняют каждые 4 недели а модель всё та же 3.0

А что подразумеваете под поменялись артгены?

Артгены, это сгенерированые нейросетью изображения из запроса

Почему я решил что на https://fusionbrain.ai появилась новая версия "Кандинского"? Да потому, что они изменили артгены и их запросы в разделе "вдохновляйтесь" на стартовой странице. Ранее они выполняли эти действия только при смене версии "Кандинского".

А где четвертый богатырь?

Да вон стоит за главным .... (с) Маленький принц. Экзюпери

"А Ленин - в Разливе!" (с)

Выдача доступа небольшой части пользователей всегда печальна. лично я этот метод сильно не поддерживаю. Острой необходимости в генераторе не испытываю, у меня видеокарта хорошо тянет SD, и пользоваться умею, ну конечно хотелось разделить радость по поводу выхода версии со знакомыми, ярыми поклонниками Кандинского, пощупать что почëм. Удачи в развитии!

Третья неделя идет, а Kandinsky 3.1 так и не вышел.

В телеграмме Kandinsky 3.1 вышел и похоже отключили Kandinsky 2.х. Эх, а 2.2 версия красивее всего генерировала женских персонажей по моим промптам. Грусть, печаль.

Например промпт: full body view, look at viewer, beautiful happy princess sitting on the throne, blond, blue eyes, angelic smile, no makeup, perfect body,
large breast, wide hips, very thin waist, golden ball gown dress, white sleeves, ruffles, backlight glow
Стиль: Детальное фото

Kandinsky 2.2

Kandinsky 3.1

Да, смориться неплохо, но уже что-то не то, как на мой взгляд.

Молодцы, разработчики! С 7 мая они снова выставили систему фильтров по тексту на 99 процентов. Теперь она блокирует практически все. Когда я ввожу имя художника, появляется цензурное окно. Когда ввожу имя другого, снова блокировка. Браво, разработчики! В принципе, я этого и ожидал.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий