ddimitrov 22 ноя 2023 в 11:54

Kandinsky 3.0 — новая модель генерации изображений по тексту

Средний

10 мин

55K

Блог компании СберБлог компании SberDevicesОбработка изображений*Машинное обучение*Natural Language Processing*

Обзор

+58

Комментарии 66

Kristaller486 22 ноя 2023 в 12:13

Спасибо за статью и модель! Сколько нужно памяти для локального инференса? Можно ли квантовать текстовый энкодер, чтобы хоть как-то сделать возможным запуск на околодомашних машинах?

Kristaller486 22 ноя 2023 в 12:51

И ещё хорошо бы было узнать, под какой лицензией код и модели? Ни на hf, ни на GitHub не вижу упоминаний.

HexGrimm 22 ноя 2023 в 14:07

А разве модель есть в доступе для запуска локально? На сайтах не вижу такого, только веб интерфейс.

Kristaller486 22 ноя 2023 в 14:08

HuggingFace и Github (доступны код и веса модели)

x_Chief_x 27 ноя 2023 в 08:34

Приветствую:)
Подскажите пожалуйста, а как запустить Кандинского 2.2 в SD.Next ? Я вообще не пойму и гайдов нигде нет... Нужно только одну модель скачать prior diffusion_pytorch_model.safetensors или тут всё намного сложнее, нет как с SD1.5 ?

4eJIoBek 22 ноя 2023 в 14:26

Скорее всего через некоторое кол-во времени вот тут (или тут) имплементируют, но вообще моделька оч большая получается, поэтому не думаю, что запускать её у себя прям хорошая затея

Лицензия у кода (и модельки как я понял тоже) apache 2

akabrr 22 ноя 2023 в 12:29

Результат генерации по запросу "глокая куздра штеко будланула бокра и курдячит бокрёнка", стиль: artstation

Nprasolov 22 ноя 2023 в 12:47

Результат генерации по запросу "два дымящихся ствола", стиль: artstation

я так понимаю работа с более чем 100 языками - это перевод на английский и все?

AlexG37G 22 ноя 2023 в 13:42

Дуракаваляние это всё ;)

Andrey_Epifantsev 22 ноя 2023 в 13:55

Похоже из персонажей из русскоязычного культурного пространства добавили только Чебурашку и домовёнка Кузю. Видимо чисто для отчёта. Пробовал рисовать других известных персонажей: из Ну погоди или Смешариков - нейросеть таких не знает.

Galperin_Mark 22 ноя 2023 в 14:33

Илона Маска рисует отлично. Но верно подмечено, многих не знает. Удивительно, но сеть Kandinsky самого Кандинского нарисовать не может.

AlexG37G 22 ноя 2023 в 16:27

Видимо Чебурашку и Кузю толокеры отфайнтюнили вручную.

Я в начале года с чебурашкой "игрался". Фото чебурашек в базе LAION, от которой Stability и иже с ними пляшут - есть.

cheburashka

А на выходе SDXL выдаёт обезьянок ;)

voldemar_d 22 ноя 2023 в 20:15

Да даже Чебурашку рисует как попало. У меня выдало смесь его с крокодилом. Вместо избушки на курьих ножках выдало сарай-бытовку на трёх (!) слоновьих ногах. Бабу Ягу попыталось нарисовать - вышло лучше, и правда бабка в ступе. Но почему-то с клювом, как у вороны.

Вместо Дядьки Черномора нарисовало старика Хоттабыча в чалме. Продолжать, думаю, нет смысла - по сравнению с предыдущей версией почти ничем не лучше. Ну и да, пальцы на руках, да и руки-ноги по количеству совершенно случайны.

snakers4 23 ноя 2023 в 12:32

barbaris76 27 ноя 2023 в 08:10

Ну, правильно: вы же написали не "ест", а "есть", т.е. "является", вот оно вам и нарисовало крокодила, который является арбузом.

Ualde 22 ноя 2023 в 14:34

Результат генерации по запросу "Волк из советского мультфильма "Ну, погоди" жарит зайца из этого же мультфильма"

Ну да..

exTvr 22 ноя 2023 в 15:17

Тяжёлое детство было у этой сетки.

Tomvish 22 ноя 2023 в 22:40

А вот тут им всем не повезло. Наследственность. СтабДиффужин например порой "проговаривается" и начинает лепить черепа, сотону и прочее на чём училась, в самых неожиданных местах, к примеру "добавить ворс на фиолетовый бархат". Видать в базе картинок из интернета "фиолетовый" это уже однозначное указание на "инфернальный".

Думаю, что от таких импортных корней, может разве что "Когнитив-технолоджиз" избавлены. Правда их сетка управляет комбайнами, и картинок не рисует, хотя утверждается, что обучаться начала на хорошей живописи, что вполне соотносится с понятием "хорошее обучение".

А эта гонка за чужим лидером так и будет нести заложенные генетические проблемы. (если это не цель конечно). Метод же перекрытия проблемы следующими яркими слоями , часть такого же проблемного мировоззрения, доставшегося в наследство от "лидеров рынка".

Может пока не поздно, "пересесть на отечественные комбайны"?

perfect_genius 22 ноя 2023 в 15:46

Видимо, сеть не может напрямую сказать, что ей запрещено генерировать порно и гуро, поэтому извивалась как могла.

AlexG37G 22 ноя 2023 в 19:03

Нейроискусство, оно такое...

Промпт: абырвалг, стиль - картина маслом

averkij 22 ноя 2023 в 14:52

Humanoid cat eats sushi in an restaurant in ancient Egypt, artstation, retro photo, photorealistic

Lexicon 22 ноя 2023 в 15:17

Простите, а зачем на fusionbrain форс редирект на мобильную версию? Очень обидно, что такое пришло кому-то в голову, учитывая, что сейчас я хожу с клавиатурой + фолдом.

nebularia 22 ноя 2023 в 16:07

Да ещё и сделан хитро как-то, "версия для ПК" в браузере не помогает

perfect_genius 22 ноя 2023 в 15:45

Простую сетку всё так же не получить, только с косяками:

У меня нет опыта в подборе промтов, может быть дело в этом.

perfect_genius 22 ноя 2023 в 15:59

"идеальная пиксельная сетка на белом фоне"

Предлагаю этот тэст с сеткой как альтернативу тэсту Тьюринга для рисующих нейросетей.
Пусть люди (среди которых ИИ) создают простые геометрические узоры в простом векторном редакторе или конструкторе, и надо определить, кто из них ИИ.

nebularia 22 ноя 2023 в 16:33

У меня нет опыта в подборе промтов, может быть дело в этом.

Нет, просто вы пытаетесь забивать гвозди микроскопом

StjarnornasFred 22 ноя 2023 в 17:13

Да вот нет. Это как раз-таки интересный вопрос, почему нейросеть неспособна отрисовывать прямые линии, симметрию, цифры и надписи. Казалось бы, букв в алфавите немного, цифр ещё меньше, почему же нейросеть не выучила их все и пытается каждый раз не писáть, а генерировать?

nebularia 22 ноя 2023 в 17:43

Но ведь способна. С надписями вопрос решён уже в DALL-E 3, с симметрией и того раньше. Смотрите на современные нейронки типа DALL-E и Midjourney, а не на догоняющих в лице Сбера.

НЛО прилетело и опубликовало эту надпись здесь

Kristaller486 22 ноя 2023 в 19:25

Потому что это по сути дела заложено в архитектуре современных text-to-image моделей, они используют апскейлеры.

Второе - LAION, на котором обучают модели очень плох. Ужасен. Значительных процент картинок там имеет неверное или неточное описание; то, что text-to-image модели добиваются такого качества, будучи обученными на таком датасете - чудо.

StjarnornasFred 22 ноя 2023 в 23:29

Они вообще самообучаемые или их обучают?

Если первое, то всё понятно. Не пускайте детей в интернет, они там ничему хорошему не научатся, и т. д.

Если второе, то процесс обучения, как правило, предусматривает разбор ошибок с учеником: взять то, что он наваял, и, держа руку в руке, исправить, попутно объясняя проблему. Ведётся ли такая работа с нейросетями? Ну, взять сгенерированную картинку (например, эту) и "объяснить", что слово не так пишется и нет таких букв, руками перерисовать "как надо" и скормить нейросети, чтоб увидела. Ну а алфавиты и цифры так и вовсе можно исключить из общей модели, забив их туда в формате "базовых знаний": буквы, мол, выглядят вот так, хочешь писать текст - выбирай из набора и играйся со шрифтами, а не генерируй отсебятину. (Да и вообще, имхо, довольно многие сферы знаний типа внешнего вида циферблата часов или человеческой руки можно захардкодить - пары терабайт такого хардкода хватит для большинства самых частых ошибок).

nebularia 23 ноя 2023 в 15:43

Вот только хардкод за всю историю развития ИИ так и не приблизился к тому, чего нейронки добились за несколько лет.

perfect_genius 22 ноя 2023 в 23:53

Почти 2024-ой год на дворе, а мы всё ещё не умеем получать пиксельную сетку за несколько секунд. Быстрее всего найти её в интернете, но размеры не те.

В Пэйнте рисовал пару минут, т.к. есть опыт с этим редактором.

Умею программировать, есть графический шаблон, но всё-равно у меня уйдёт несколько минут.

Сетка лишь как простой пример, можно вместо него представить сетку из кружочков, цвета случайные.

nebularia 22 ноя 2023 в 16:41

А почему в статье про Kandinsky Video (https://habr.com/ru/companies/sberbank/articles/775554/) нормальные примеры именно анимаций, а тут опять эпилептическая аморфная фигня из сотни разных кадров?

kraidiky 22 ноя 2023 в 17:44

Бяка-закаляка кусучая, с десятью ногами, с десятью рогами. По версии последнего Дали и третьего Кандинского:
image
image

butsan 22 ноя 2023 в 18:08

У мустанга отражение - сплошные косяки.

axe_chita 22 ноя 2023 в 21:56

Генерация стала намного лучше, к примеру по запросу "Озорная девушка, красивая, блондинка, с короткой стрижкой, высокая, спортивного телосложения. За её спиной, стоит человек похожий на Клинта Иствуда, в ковбойской шляпе" уже рисуется как минимум неплохие композиции
Примеры:

Надо попробовать старые промты, на которых Кандинский впадал в бред, что бы проверить пофиксили ли они очаг ложного возбуждения или нет. ;)
Запрос "Баба с косой"

Блин опять недоПендальф с волшебной палочкой...

Уточним запрос "Русская баба с косой"

Чувствую себя персонажем из фильма "Чародеи", "Хочу, чтобы здесь сейчас появилась Аленушка."Вроде бы и не обманули, а осадочек остался. — Чувствую себя персонажем из фильма "Чародеи", "Хочу, чтобы здесь сейчас появилась Аленушка."
Вроде бы и не обманули, а осадочек остался.

Следующий запрос: "Ксеноморф собирает букет ромашек на поляне в лесу"

Это он с самого начала умел комбинировать;)

Следующий, кричит заведующий;) Запрос "Три богатыря"

Конечно Дэ гу́стибус нон эст диспута́ндум, но эти псевдоримляне далеко не богатыри%))

Окей, меняем тактику: Запрос "three bogatyrs"

А теперь контрольный, в лобик: Запрос "Четыре богатыря"

Бог мой, дай мне это развидеть... "Кандинский" поймал приступ бреда :(

А счастье было так близко;)

0mogol0 22 ноя 2023 в 23:21

да там уже tri bogatyr были с дефектами рождения... "Вас мама роняла или кого-то вами била?"

axe_chita 23 ноя 2023 в 04:32

В прошлый раз "Кандинский" видел их так:

ru1z 24 ноя 2023 в 15:03

Это с числительнымb такая лажа? (1) богатырь вроде получается худо-бедно. Если пиcать "3 bogatyrs", то лучше.

slonopotamus 22 ноя 2023 в 23:24

Четыре богатыря

За что вы нам это показали?))

axe_chita 23 ноя 2023 в 04:37

Затем что в прошлые разы было так, очень политкорректненко :

Наверняка четвертый богатырь, это Ленин, поскольку он в «Разливе»

Evlampy 24 ноя 2023 в 08:43

Результат генерации по запросу "Девушка небесной красоты держащая в руках шар с мозгом внутри и вспышками молний

Vsevo10d 23 ноя 2023 в 03:08

С пальцами все еще беда, курение и алкоголизм побанены.

eshfield 23 ноя 2023 в 08:27

Так на каком языке всё-таки лучше писать промпты: на английском или на русском?

axe_chita 23 ноя 2023 в 14:32

Лучше на английском IMHO.

Blacknote 23 ноя 2023 в 08:56

крутяк, попробую. контролнеты остались?

lolpa1n 23 ноя 2023 в 08:56

Сотрудник железной дороги работает с лопатой

ну почти

perfect_genius 23 ноя 2023 в 13:43

Сферический сотрудник железной дороги получился.

SunSual 23 ноя 2023 в 08:56

Спасибо за проделанную работу! Почти каждая генерация теперь радует глаз, понимание текста тоже сильно улучшилось! Очень хочется, чтобы была возможность использовать LoRA в Кандинском)

RED75 23 ноя 2023 в 08:56

Использовать pickle для публикации моделей в 2023, немного зашквар. А в остальном ребята молодцы, удачи в будущих проектах.

Grogcm20 23 ноя 2023 в 08:56

Не хватает медведя, балалайки, водки, матрёшки и шапки ушанки но в целом посыл понятен. Какие будут ваши доказательства??

a-cherepanov 23 ноя 2023 в 08:57

На FB почему-то слишком тупо встроены фильтры про "Запрещенный контент".
На входе, а не на выходе. Мне не показалось?

Vsevo10d 23 ноя 2023 в 11:51

Ну вот я пытался заставить нарисовать бухих и курящих девочек, мне сразу возвращали явные заготовки-заглушки, типа поля с ромашками или розы, причем еще характерно подблюренные, ни в каких других случаях такого эффекта не было.

boojum 23 ноя 2023 в 10:25

perfect_genius 23 ноя 2023 в 13:44

Слишком стар уже душить, не хватает вон зубов и сил.

snakers4 23 ноя 2023 в 12:38

Также мы сделали нашу модель более «отечественной»: теперь она значительно лучше ориентируется в российском и советском культурном поле.

Это не так.

Al_Pollitruk 23 ноя 2023 в 13:19

И поэтому большинство запросов на английском языке (на всякий случай) . :-)

alekseypro 24 ноя 2023 в 08:44

Введите (в любом стиле) промпт "герб Российской Федерации", вас ждет сюрприз ?

alekseypro 24 ноя 2023 в 13:48

3.0 не знает, что такое "велосипед", "шапокляк", "буратино" и т.д. 2.2 и то косо-криво, но генерил, что-то адекватное, 3.0 генерит вообще не то, что нужно. За то, отлично переводы генерит. Печально всё это, когда "не наше" выдают за "наше", хотя, что тут удивляться, у нас всегда так было :(

nebularia 26 ноя 2023 в 10:31

После нескольких сессий могу сказать, что результаты на самом деле очень хорошие выдавать может. Однако надо хорошо расписывать промпт, по простым запросам получается так себе. Современные нейронки от этого вылечились, даже Шедеврум от Яндекса, не говоря уж о DALL-E 2/3 и Midjourney.

В целом прогресс очень большой, ну и избавились от проблем Kandinsky 2.2 типа кислотных цветов и проблем с "замыливанием" картинки при использовании inpainting и outpainting (на Fusion Brain).

В боте возможностей сильно поубавилось, нет генерации вариаций, смешивания, переноса стиля (ControlNet), стикеров, осталась только генерация по тексту. Но думаю добавят ещё. Если нужны те функции можно переключить версию модели в боте на 2.2 или 2.1, благо возможность есть. Всё ещё жаль, что на Fusion Brain нельзя менять версию модели.

BazilioMike 27 ноя 2023 в 08:33

Так в kandinsky 2.2 выглядил Хищник

Теперь в kandinsky 3.0 - Хищник такой

Проверил остальных знаковых персонажей из игр, фильмов, мультфильмов, не одного kandinsky 3.0 - не смог создать даже приблизительно похожим. Версия 2.2 хотя бы чуть-чуть, но создала похожие варианты.

Htotitakoi 27 ноя 2023 в 08:37

Привет, котяты, а куда пропали все функции в телеграм боте? У меня почему-то осталось только "генерация по тексту"

Iwanowsky 4 дек 2023 в 12:13

Новая версия Кандинского 3.0 от Сбера нарисовала мне гербы РФ, СССР и США. На этот раз получилось значительно лучше - похожи на оригиналы. Предыдущий Кандинский 2.1 рисовал черт знает что, причем гербы для всех стран получались очень похожие - орлы (двуглавые или одноголовые), примерно одинаково оформленные и слишком не похожие на оригинальные гербы.

И разлинованные листы в клеточку и линейку рисует очень коряво (почти также, как и предыд. версия). Вместо нотного стана (да и вообще любых нотных записей, партитур) рисует художественные картинки.

CDCrom 22 янв 2024 в 09:35

Вот есть вопрос к разработчикам: Можно ли как-то явно узнать и использовать "зерно" сгенерированного изображения? Ну например, я получил изображение которое мне понравилось и теперь хочу получить похожую картинку, но в другом ракурсе... в Stable Diffusion для этого есть SEED, а у вас?

BazilioMike 25 янв 2024 в 01:30

3 дня назад, а именно с 22 января, разработчики что-то обновили или изменили, и теперь часто изображения выходят размазанными или недорисованными, такое было только у самых первых версий Кандинского. Возможно, они уменьшили силу воздействия Guidance. Чем больше обновлений, тем хуже становятся сгенерированные изображения.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий