kuznetsoff87 Apr 4 2023 at 12:03

Kandinsky 2.1, или Когда +0,1 значит очень много

Medium

8 min

78K

Сбер corporate blogImage processing*Machine learning*Popular scienceArtificial Intelligence

✏️ Technotext 2023

+100

183

Comments 183

Zara6502 Apr 4 2023 at 12:37

зашел на сайт rudall-e, написал текст, появилось что-то вроде каптчи, просят переместить слайдер, переместил - ошибка, ну думаю мало ли, переместил снова - ошибка. включил мозг, думаю тут какая-то фигня с подвохом, картинка была повернута на 140 градусов примерно, повернул ее до выравнивания - ок. а можно текстом написать условия успешного перевода слайдера?

kuznetsoff87 Apr 5 2023 at 11:17

Передам коллегам, кто поддерживает сайт rudalle.ru. Спасибо!

Ox2A Apr 5 2023 at 22:05

Неплохо, похоже, что банк тренировочных изображений удалось импортозаместить)

Vladus70 Apr 14 2023 at 16:46

kompas_3d May 7 2023 at 01:25

Не весь, и используется английский язык как основной, с русского идёт перевод. На Пикабу при тестировании яндексовской сетки нашли характерные слова, которые помогают определить язык, на котором думает нейросеть.

По пионеру явно используется английский язык и явно западный банк изображений:

По патриоту чуть лучше:

Zara6502 Apr 4 2023 at 12:53

Запрос: волна разбивается о прибрежную скалу, закат

Картинку пришлось средствами винды копировать с экрана, в интерфейсе Fusion Brain в буфер копировался белый скрин, а на диск сохранялся черный PNG.

kuznetsoff87 Apr 5 2023 at 11:18

Спасибо, приняли. Если ошибка повторится, напишите пожалуйста здесь в треде

Zara6502 Apr 6 2023 at 05:05

простите, но я не бета-тестер.

Zara6502 Apr 4 2023 at 12:56

Russian DALL-E, 15 минут висит эта надпись, мне пора домой, так что не дождался )

"До готовности изображения осталось приблизительно: 1 мин. "

Firsto Apr 4 2023 at 14:09

15 минут висит эта надпись

осталось приблизительно: 1 мин

Прям как на стиральной машинке.

kuznetsoff87 Apr 5 2023 at 11:19

Вчера были проблемы с бэкендом, команда внесла правки - стабильность выросла, скорость генерации снизилась до ожидаемой

asaks Apr 4 2023 at 12:59

Что-то с вашей моделью не то...

Я художник, я так вижу

Schalaeff Apr 4 2023 at 17:53

похожу на какой то баг, потому что у меня по запросу "черный кот с белыми лапками, белым воротником сидит на столе" выдало прям такое как у вас

ainoneko Apr 5 2023 at 09:49

Это похоже на фичу:
"Результат генерации по запросу "Занюханная крыска из книги Вудхауза", стиль: anime"
(Две другие попытки таки выдавали крыску.)

Тоже цветочки

UFO just landed and posted this here

kuznetsoff87 Apr 5 2023 at 12:35

Попробуйте еще раз)

an24kaznova Apr 29 2023 at 10:25

Странно, но у меня на некоторые слова в запросе такая реакция. Сегодня слово «Украина» стало запретным, выбираешь его — всё работает, а с ним — ромашки.

axe_chita May 2 2023 at 06:18

Есть такое, причем на все вариации этого слова. К примеру на «украинский хлеб» система выдало такое «The request does not comply with the terms of use.» и нарисовала цветущую яблоню
Запрос «малороссийский хлеб» спокойно переварила :)

kuznetsoff87 Apr 5 2023 at 12:34

Внесли коррективы - попробуйте еще раз)

recompileme Apr 4 2023 at 13:04

ну кстати неплохо для базовой модели.. Единственное что SD комьюнити вытащило на уровень MJ а здесь кто будет тащить?

recompileme Apr 4 2023 at 13:09

у меня сердце разрывается, когда я думаю что на эти деньги и за это время можно было сделать на базе SD вместо того чтобы сделать свое, отечественное

-8

turbowyrm Apr 4 2023 at 16:29

Унификация любых решений скорее будет приводить к стагнации, поэтому разнообразные подходы к решению одной и той же задачи помогают сообществу в целом двигаться вперёд - тут так же как с биоразнообразием - большее количество видов приводит к стабильности системы в целом.
Тут опять же можно вспомнить о разработке принципиально новых подходов к построению сетей - если бы все упирались только в одно решение, возможно мы бы никогда и не увидели диффузные модели.
Поэтому я считаю, что вы не справедливы к разработчикам - они своими "велосипедами" дают новые нотки всему ансамлю нейронок.

+27

SinsI Apr 4 2023 at 17:51

И что же такое, по-вашему, можно было бы сделать на базе SD?

Там ведь больше проблема не в ресурсах, а в идеях - как сделать руки лучше? Как сделать сходную генерацию img2img для кадров из роликов? Как различать персонажей?

n0isy Apr 4 2023 at 19:50

А что не так с идеями? Развитие есть и очень большое. Допустим ControlNet на базе SD: можно нарисовать Doll-модель человека и позы, отдельно нарисовать положение рук и каждого пальца. И ты получишь именно то что хочешь.

И так далее. Каждый месяц есть существенное продвижение вперед.

kuznetsoff87 Apr 5 2023 at 12:04

На самом деле этот проект не такой ресурсозатратный как был ruDALL-E в 2021 году, поэтому так сильно за деньги и время переживать не стоит. Мы сильно переработали архитектуру, сохранив преемственность от 2.0, добавив приор, новый vqgan и чистые данные - имхо, ничто не мешает комьюнити развивать это в условиях того, что модель бесплатная и в опенсурсе

Lucidyan Apr 6 2023 at 12:12

Для начала, нужно чтобы это комьюнити появилось. Про инструментарий и тематические ресурсы вроде civit я даже не говорю

ALogachev Apr 4 2023 at 13:21

Видно что учили на аниме размера DDD.... но руки, руки :)

Dynasaur Apr 4 2023 at 13:29

На такой картинке руки заметить!.. Ничего себе! :-)

+13

speshuric Apr 4 2023 at 13:49

Более заметные части тела тоже кривые и неестественные.

feadraug Apr 4 2023 at 22:42

к слову, сепульки тоже получаются, мягко говоря, так себе

recompileme Apr 4 2023 at 13:56

Забавно. Модели в SD и Кандинский выдают +/- одинаковое лицо на промпт "attractive stunning Ukrainian woman, messy bun"

https://civitai.com/images/393225

Обучение на одном и том же датасете не проходит бесследно.. Такая работа проделана колосальная.. Столько ресурсов вложено.. Для чего? Потому что можем? Ну, здорово, молодцы..

-3

rPman Apr 4 2023 at 14:50

Возможно тут главный результат не модель, уровня SD, а опыт построения таких моделей. Чтобы сделать лучше, нужно научиться делать хотя бы так же.

logran Apr 5 2023 at 11:10

Единственное что SD комьюнити вытащило на уровень MJ а здесь кто будет тащить?

Справедливости ради — это скорее MJ вытаскивалась (и вытащилась) на уровень SD, ибо в момент выхода SD была MJ v2, сильно от него отстающая, MJ v3 была на самом деле SD, и лишь к v4 их собственная модель сравнялась с актуальной SD (а niji пожалуй обошла NAI), но скорее не за счет качества модели, а за счет скрытых твиков к промтам (что делает её малопригодной в качестве инструмента, а не игрушки).
v5 да, нынешнюю развитую sd 1.5 обошла. На счет SD 2.1 не уверен — тут скорее причина в том, что 2.х кастрированы и ими мало кто занимается (но даже то что есть — не уступает v5 при применении идентичных трюков к промтам)

BelBES Apr 5 2023 at 11:46

А есть какие-то инсайты на тему того, какой постпроцессинг для пользовательских промптов используется в MJ?

Steve_R Apr 5 2023 at 12:00

У людей на всех сгенерированных изображениях какие-то проблемы с руками :(

ElvenSailor Apr 5 2023 at 13:52

рукаааааааааааааааааааааа

бооооооль

UtrobinMV Apr 4 2023 at 14:04

Молодцы. Сразу видно, что достойная работа!

UFO just landed and posted this here

kuznetsoff87 Apr 5 2023 at 12:07

Мы работали с датасетом LAION с момента его выхода в 2022 году, прикрутив туда много своих фильтров на описания и изображения

verigo Apr 4 2023 at 15:22

Почти час ожидания и ошибка. Мда.

rapidstream Apr 4 2023 at 17:50

Ни одной картинки в телеграм эта поделка пока сгенерировать не смогла.

volt_amper Apr 4 2023 at 15:37

Хабраэффект похоже настиг, бот в ТГ глючит, хотя утром работал.

gatoazul Apr 4 2023 at 15:44

Да он вообще глючный. Отправляешь фото и... вообще ничего не происходит.

AlexNixon Apr 4 2023 at 16:08

хабраэффект? не работает вообще, висит, грузит, не генерит ничего

nikolay_karelin Apr 4 2023 at 17:46

Подскажите, а под какой лицензией выпущены веса модели?

kuznetsoff87 Apr 5 2023 at 12:11

Лицензия Apache 2.0

IgorRJ Apr 4 2023 at 17:47

Повторил запрос в статье с заменой одной буквы. Первая картинка: "интернальное", вторая: "инфернальное".

Особой разницы не ощутил.

koshi Apr 5 2023 at 11:33

Да, похоже модель воспринимает текст весьма поверхностно, как слабо слышащий, не очень эрудированный человек, которых строит ассоциации по обрывкам слов.
Думаю, логичнее сделать промежуточный этап: запрос пользователя растолковывается продвинутой лингвистической моделью (ChatGPT), а результат уже идёт на вход генератора картинок.

mm3 Apr 4 2023 at 17:55

мне просто интересно, когда случится чудо и для российских ML проектов появятся open source UI интерфейсы для локального запуска уровня stable-diffusion-webui? наличие примеров скриптов и соллаба это конечно хорошо, но требует некоторых специфичных навыков для получения первых результатов.

UFO just landed and posted this here

Blacknote Apr 5 2023 at 09:59

https://gist.github.com/Blucknote/31f792621f4e4cdf0a7d2505ddd6b0a2

У меня получилось только так. В качестве основного venv'a использовал существующий от SD. Качать модель отдельно не нужно, скрипт сделает это сам.

На RTX 3060 с 12Гб VRAM максимальный batch_size получился 2, больше -- cuda OOM.

Ширина прокатила 1368

Watashiwa Apr 4 2023 at 20:38

Ну: "Когда +0,1 значит очень много" ног?

UFO just landed and posted this here

PinkEleph Apr 7 2023 at 10:44

у Вас эта девочка хотя бы аист... а у меня она же "баобаб"

Hidden text

Medeyko Apr 4 2023 at 21:06

Прогресс чувствуется, молодцы...

А можно ли будет локально запускать? И будет ли по свободной лицензией?

kuznetsoff87 Apr 5 2023 at 12:11

Сейчас лицензия Apache 2.0

Blacknote Apr 5 2023 at 12:36

Да, можно запустить локально, для этого достаточно запустить pip install из readme github репозитория и запустить. Веса скачаются автоматически. На RTX 3060 довольно бегло бегает, жаль только какие-то проблемы с очисткой памяти по завершении генерации, накидал скриптик, который её не решает, но хотя бы поиграться

visirok Apr 4 2023 at 22:37

Я попробовал вот такое описание на русском и на английском: «Человек лежит на берегу моря, ногами к морю, головой к зрителю. День хороший, солнечный. Его колени согнуты. На коленях находится открытый ноутбук. Небо синее. По нему плывут облака. На облаках написаны математические формулы и куски программного кода.»

Получились такие уроды, что не буду травмировать публику и помещать результаты.

Вариация фото с козлятками тоже превратила их в уродов.

Что-то не так с моделью.

dimitrii_z Apr 4 2023 at 23:25

с котами может она и справляется, но с оленями и птицами (что выше видно по аистам) не очень. Математических знаков не знает вообще (по запросу "интеграл" рисует бесконечность упорно). База явно ужасная, до MJ как пешком до луны, серьёзно. А с длинным описанием вообще беда. Например:

лесной пожар, в воздухе дым и пепел, и между горящими деревьями бежит олень, и летят птицы спасаясь от огня

А получилось нечто реально несусветное. Пробовал раз 20, и видно что картинок пожаров он знает очень мало, как и оленей, всё получается примерно в одном стиле и ни одного "здорового" оленя с нормальным числом ног, рогов и прочего. Один раз вообще создал мне оленя с задней частью из камней и двумя ногами, никаких кошмаров не нужно. А попсу всякую типа девушек и котов он кое-как генерирует, да... И то детали теряет, в отличие от MJ. Ну например:

AI перевозбудился и до указки не дочитал или как? Но модель ничего такая. Причём она у него одна, 10 попыток и я получил одно и то же лицо в очках и без с немного разными ракурсами, и ни одной (!) с указкой! В общем такое.....

Mad__Max Apr 6 2023 at 05:40

А может вы когда смотрели?
Большая указка у нее на плечо (левое — для зрителя получается справа) положена.
Большая часть (как и руки ее держащие) за краем кадра, но в кадре есть ручка (задняя часть) указки прислоненная к плечу.

P.S.
Модели у меня разные получаются по запросу такому. Но с руками (и иногда носами еще!) все еще беда больше чем в половине результатов (не считая тех, где они не видны/за кадром).

Denis1121 Apr 6 2023 at 12:11

Кстати рисунок с горящими и летающими оленями выглядит шикарно. Он не отобржает действительности, однако я его долго рассматривали и смеялся.

dimitrii_z Apr 6 2023 at 23:56

Да, но я не заказывал стиль Сальвадора Дали )

ermouth Apr 5 2023 at 01:53

Улучшено очень существенно. Я месяц назад делал рисёч, сравнивал результаты разных публичных сервисов по не очень удобным запросам. Результаты ruDalle по запросу «Рыцарь с красным плюмажем на фоне заката, в стиле Рембрандта» месяц назад и сейчас отличаются как небо и земля:

Dr_Faksov Apr 5 2023 at 05:45

Это почти то, что я получил по запросу "пендосы" :)

Dr_Faksov Apr 5 2023 at 03:59

Задано: Компания друзей. 3 надувные лодки.

kuznetsoff87 Apr 5 2023 at 12:14

С множественными объектами сейчас как раз работаем - пока генерации не всегда удаются - нужно промт инжинирить

rPman Apr 6 2023 at 17:02

как выглядит такая работа, можете запилить статью или серию, как именно нужно менять исходный датасет или как до обучать модель чтобы решать такие проблемы?

Zara6502 Apr 5 2023 at 04:34

Модель ruDALL-E Kandinsky нарисовала: молодая женщина стоит к нам спиной в белом платье в правой руке держит красный цветок в левой руке держит бокал с водой на фоне много облаков.

Утром таки обнаружил картинку, только вода красного цвета, цветок абстрактный (скорее опрокинутый стакан с молоком) и право и лево перепутано.

kuznetsoff87 Apr 11 2023 at 13:21

А где Вы генерировали изображение? Точно в модели 2.1?

snakers4 Apr 5 2023 at 04:46

Телеграм бот не работает. Отправил запрос на слияние картинок в 4:18, в 4:45 ответа всё ещё нет. Хотя вроде ночь, трафика не должно быть.

snakers4 Apr 5 2023 at 04:52

Вопрос, а сколько ресурсов, например выраженных в видеокарто-днях было потрачено?

Dr_Faksov Apr 5 2023 at 05:44

Кандинский ваш, к стати, считать не умеет. Пишу "Великолепная восьмёрка - 4 парня и 4 девушки". Получаю то шестерых, то семерых.

kuznetsoff87 Apr 11 2023 at 13:27

Да, это правда. С числительными сейчас работаем, чтобы понимание было

Dr_Faksov Apr 5 2023 at 06:00

4 мужчины и 4 женщины. Стиль - студийное фото.

axe_chita Apr 5 2023 at 08:01

Пока тут ещё сон разума, и он порождает в нейросети ~~чудовищ~~ крипоту
Запрос: Алиса Селезнёва с миелофоном в руках
Выхлоп:

поперхнувшись воздухом, подправляем запрос: красивая девочка 11 лет Алиса Селезнёва с миелофоном в руках
Выхлоп:

пошел за успокоительным, выпил, выдохнул.
Поправил запрос опираясь на описание из википедии: Алиса Селезнёва, девочка высокого роста со светлыми короткими волосами и спортивного телосложения, одетая в комбинезон
Выхлоп айнц:

Выхлоп цвай:

Выхлоп драй:

И тут меня начали терзать смутные сомнения, что в качестве датасета для обучения нейросети использовались фотографии узников концлагеря.

+10

RKrop Apr 5 2023 at 09:48

Так Алиса - это же прямой конкурент Салюта. Ну недолюбливают в Сбере её! Ничего личного - просто бизнес!))

axe_chita Apr 5 2023 at 15:12

Война нейросетей? И «Да придет ~~Спаситель~~ лесник, и выгонит всех их из леса»? %))

SirGareth Apr 15 2023 at 04:02

Нормальные Алисы получаются, не надо имя вводить, видимо есть такой человек.

Хочешь помоложе, хочешь постарше.

axe_chita Apr 15 2023 at 14:13

Так может запросами к нейронке поделитесь? Для чистоты эксперимента и повышения экспириенса. ;)
Плюс за девять дней с момента генерации могли и Кандинского подправить и прокачать, добавить новые датасеты. К примеру датасет работ Мигунова.
Причем при том же самом запросе «Алиса Селезнёва, девочка высокого роста со светлыми короткими волосами и спортивного телосложения, одетая в комбинезон» в стиле киберпанк на 3-4 генерации получились следующие результаты:

Стиль Мультфильм (не путать со стилем Советский мультфильм)

Цифровая живопись (есть глич — потерялась лямка комбинезона)

SirGareth Apr 15 2023 at 14:23

А запрос простой "Озорная веселая девушка 25 лет, высокого роста со светлыми короткими волосами и спортивного телосложения, одетая в футуристичный оранжевый комбинезон, scifi, в стиле иллюстраций Мигунова", почти как исходный

Возраст просто менял, еще cinematic lighting, dinamic pose добавлял, стиль другой делал, студийное фото например

axe_chita Apr 15 2023 at 22:02

Спасибо, это в принципе подтверждает мои собственные выводы, что нейронке надо давать подробные и точные инструкции, и резать её фантомные связи образов.
Вот в этом комментарии показаны результаты генерации «Хозяйки медной горы»
Я тоже реши попробовать сгенерировать образ Хозяйки медной горы, оттолкнувшись от её текстового описания: прекрасная зеленоглазая женщина с косой увитой лентами из тонкой позвякивающей меди, в платье из шёлкового малахита

И получил два таких результата

Без стиля

Стиль Аниме

И тут я понял, что наступил на грабли полисемичности и многозначности, ведь женщинам с косой, это не только женщина с заплетенными волосами, но и женщина с сельскохозяйственным инструментом в руках :D
Правим запрос: прекрасная зеленоглазая женщина с черной косой из волос увитой лентами из тонкой позвякивающей меди, в платье из шёлкового малахита

И вот полученные результаты, уже вполне пристойные

аниме

без стиля

стиль Детальное фото (сеть сгоряча ударилась в афрокосы, но я ей эту вольность простил)

стиль киберпанк

стиль портрет маслом

Стиль Рисунок карандашом (фаворит)

стиль цифровая живопись

стиль советский мультфильм

стиль 3d рендер

Стиль мультфильм

стиль портретное фото

SirGareth Apr 16 2023 at 03:14

Портреты она уже хорошо генерит, но вот если задать какое то действие начинаются проблемы, бегущая девушка или сидящая на кровати :) А еще если что то специфическое пытаться сделать...Вот вчера пробовал шлем шапель получить, очень смешно получалось.

axe_chita Apr 5 2023 at 09:31

Подозрительно, но ксеноморфы для нейросети гораздо ближе
Запрос: "ксеноморф собирает ромашки на поляне в лесу"
Выхлоп:
Раз

Два:

в стиле аниме

andy212 Apr 5 2023 at 09:47

девочка с красной звездой на папахе, с пулеметом дегтярева в руках в стиле khokhloma.

даже не знаю, в чем именно из запроса сетка попала в точку. и не девочка, а тетки. и папахи со звездой нет. и пулемет нифига не тот. и на хохлому не похоже. и самое худшее - звезды местами, не те, что предполагались.

не получит эта сетка госзаказов, ой не получит...

alisa_famina Apr 5 2023 at 09:52

На сайте fusionbrain.ai при скачивании картинки появляется рамка, захватывающая область картинки, которая будет скачана. Рамка появляется не в координатах 0,0, а смещённая. Надо понимать, это такая фича, чтобы показать пользователю, что рамка может двигаться и побудить его выбрать облатсть. Простите за прямоту, но решение бестолковое до боли. Двигая рамку мышью выставить её так, чтобы до пикселя захватить изображение полностью - вы сами-то пробовали? А я полагаю, что подавляющему большинству пользователей будет нужна вся картинка, а не фрагменты. Сделайте хотя бы так, чтобы рамка по дефолту появлялась в нулевых координатах. Или так, чтобы липла к краям картинки при перетаскивании. Что в этой стране с юзабилити, проклял её кто-то что ли7

kuznetsoff87 Apr 11 2023 at 13:29

Моя команда занимается моделью, но ребята из команды фронта я передал ваши пожелания/замечания😉 Пусть чешут репу😊

UglukFearless Apr 5 2023 at 09:59

Очень крутой прогресс! Хотя, так и не смог понять как из интерфейса fusionbrain.ai работать с загруженными изображениями. Генерация по сравнению с версией 2 сделала огромный скачок вперёд!

-1

okovalevski Apr 5 2023 at 10:00

Еще до начала хаброэфекта на сайте Сбера удалось за 20 минут получить картинку, интерфейс там кривой (итоговое изображение с рамочкой для сохранения результата) не совместить так как именно в этот момент блокируется смещение рамки. Сейчас видимо надо ждать уже часами результат.

masterKub Apr 5 2023 at 10:01

Круто. Неделю назад пытался для поста сгенерировать картинку и ничего подходящего не нашлось, пришлось MJ оплатить. А сегодня махом и в отличном качестве подобрал.

Искал вот идеи для логотипа одного проекта, и первая же картинка неплохо получилась:

andy212 Apr 5 2023 at 10:06

Птичку жалко. Что у нее с одной лапкой случилось?

Mad__Max Apr 6 2023 at 05:48

На первый взгляд можно подумать что перелом от сильного удара об ветку. Но взглянув на 2ю лапку можно понять, что там на самом деле гибкие тентакли, поэтому перелом ей не грозит и "ни одна птичка в процессе не пострадала" (с).

UFO just landed and posted this here

kuznetsoff87 Apr 11 2023 at 13:30

Да нет никакого страха, вы что) Просто это и правда очень известные решения: MidJourney, StableDiffusion, …

AlexanderLifanov Apr 5 2023 at 10:01

Я не знаю, кто тренировал это, но за десяток попыток у меня была только одна относительно терпимая картинка. Не эта, правда :)
Но кто такой Иван-дурак - модель не знает :)

kuznetsoff87 Apr 11 2023 at 13:49

Домен известных культурных образов и понятий дорабатываем как раз, собрать датасет такой непросто, чтобы всё было учтено

nellepost5 Apr 5 2023 at 10:35

А как сделать так , чтобы твое фото в полный рост , дорисовывало например рядом собаку , кошку и .т.п , не изменяя человека с оригинального фото?

kuznetsoff87 Apr 5 2023 at 12:19

Надо на FusionBrain.ai загрузить свою фотку и в режиме inpainting попробовать исправить ту область, которую хочется изменить

IvaYan Apr 5 2023 at 11:12

А какие стили поддерживаются? В телеге предлагается выбрать "один из поддерживаемых стилей", но какие поддерживаются не понятно. В справке (опять же в телеге) про стили нет ничего.

kuznetsoff87 Apr 5 2023 at 12:20

Там если нажать кнопочку справа в клиенте TG, то покажутся несколько стилей - artstation, 4k, anime и без стиля

maxwolf Apr 5 2023 at 12:07

Андрей, расскажите, пожалуйста (для людей, понимающих общие принципы, но не погружённых в детали реализаций) про борьбу с "неестественностями" в генерируемых изображениях? Все эти лишние/кривые пальцы, ноги, глаза и т.п…
"Добавление слоя spatial conditional нормализации" — это оно? Если да, до тут spatial — в пространстве изображений, или в пространстве весов модели? Другими словами, вы просто дообучаете модель, чтобы она генерила статистически меньше лишних ног, или пытаетесь найти среди всех весов именно тот/те, что отвечают за количество ног, и работать именно с ним/ними?

kompas_3d Apr 5 2023 at 13:54

Как показать что мне нравится или не нравится результат? В прошлой версии были лайк и дизлайк.

Volgarik Apr 5 2023 at 22:44

Бот завис, уже несколько часов отвечает одно и тоже. У других работает. Как его жёстко остановить/перезапустить?

itmind Apr 6 2023 at 04:57

Увеличил, что бы было лучше видно лицо. Этой сети только для ужастиков придумывать иллюстрации ). Ни одной картинки соответствующей моим запросам сеть не сделала.

axe_chita Apr 6 2023 at 06:00

Могу предположить, что нейросеть «напугалась» увидев в вашем запросе слова с орфографическими ошибками (басейн — бассейн, тенритории — территории), и начала «фантазировать» что бы значили эти неизвестные слова.

ZillahGiovanni Apr 6 2023 at 10:53

А почему у вас отсутствует negative promt, чтобы была возможность исключить уродства и т.д. в генерациях?

Blacknote Apr 6 2023 at 14:51

negative prompt вроде как есть, но не указан в примерах

kuznetsoff87 Apr 8 2023 at 08:07

Негативный промт есть, и он в настоящее время просто статично добавляется к генерациям. Скоро его можно будет задавать или изменять самим в боте

Kotokin Apr 6 2023 at 12:01

Два дня пытался запустить модель локально что-бы поиграться с русским, в итоге на гитхабе ответили разработки ответили "модель не работает на русском языке".
Что простите? Мультиязычная модель?

dmbozz Apr 6 2023 at 12:07

Сохранил с пробной страницы сгенерированные картинки (формат - только png без вариантов), так ни один из файлов не открывается ни в одном браузере (chrome,firefox), ни утилитами просмотра графики, типа XnView. Это бага или фича?
(генерить пробовал в Chrome и firefox, результат один)

dmbozz Apr 6 2023 at 21:09

Позднее разобрался. Так получается, если прямо на сгенерированной картинке открыть контекстное меню из него выполнить "Сохранить картинку как..." (зачем вообще это меню, если оно не работает).

А надо, оказывается, в правом верхнем углу нажать кнопку скачивания, натянуть появившуюся рамку на интересующую зону, и потом нажать на сине-фиолетовую кнопку внизу "Скачать"

riqik Apr 6 2023 at 16:18

Кто-нибудь разобрался как использовать негатив промпт в данной модели?

Blacknote Apr 6 2023 at 16:21

https://habr.com/ru/companies/sberbank/articles/725282/comments/#comment_25415752 но честно я не уверен что он работает

https://gist.github.com/Blucknote/31f792621f4e4cdf0a7d2505ddd6b0a2 накидыла скрипт, в котором можно передать аргументом

fisoon Apr 7 2023 at 08:05

На запрос Всадник на лошади:

Произошла ошибка при работе модели:( Попробуй, пожалуйста, еще раз

fayit_mv Apr 7 2023 at 08:52

Хозяйка медной горы

Хозяйка медной горы огненно-рыжая в зеленом платье с ящеркой на плече в стиле Билибина со свечением на фоне

Ну одна попытка "под Билибина" действительно удалась. Да и в целом - определенно мне нравится (до тех пор, пока руки не появляются в кадре).

axe_chita Apr 7 2023 at 10:30

Не всё так плохо с руками и кистями рук, иногда сеть генерирует «почти» нормальные руки и кисти рук
Запрос (стиль детальное фото): полная молодая женщина в расстегнутом кафтане играет в игральные кости
Выхлоп:

fisoon Apr 7 2023 at 10:16

Иллюстрации к статьям вполне себе можно делать.

sbfl2000 Apr 7 2023 at 10:36

А есть возможность увеличить размер фото? Максимум 768x768 квадрат.

kuznetsoff87 Apr 11 2023 at 15:42

Можно попробовать увеличить через SuperRes модель, генерация пока только в таком разрешении

oshaly Apr 7 2023 at 11:44

какие-то проблемы с количеством ног у людей и зверей, а также пропорции коня..)

Vladus70 Apr 7 2023 at 13:10

Запрос "Фигурка котенка", стиль "Хохлома".
Фигурки генерит просто шикарные! Но вот с Хохломой. например - я не понял. В чем тут хохлома?

zhogar Apr 7 2023 at 14:29

Инженер схемотехник паяет программатор в осеннем лесу, во время этого мимо него проходит корова.

Dr_Faksov Apr 10 2023 at 05:47

Корова шедевральна!

Vladus70 Apr 7 2023 at 14:39

"Дама в вечернем туалете"

Vladus70 Apr 7 2023 at 14:44

Вот фигурки котов, особенно деревянные, генерит просто шикарно!

Dr_Faksov Apr 10 2023 at 05:47

Наверное, на кошках тренировалась!

dmbozz Apr 7 2023 at 22:19

Внезапно прикольная штука вышла. Средний ряд зубов - новый тренд в стоматологии.

Dr_Faksov Apr 10 2023 at 05:50

Это запасные:). А если серьёзно, то в детстве у человека под молочными зубами находятся зачатки коренных. Можно сказать что третий ряд.

Vladus70 Apr 8 2023 at 00:34

Почему-то Чебурашка всегда с маленькими ушами :)
К сожалению, ИИ не знает многих популярных персонажей сказок или героев эпоса. Ни Кащея Бессмертного (Бабу Ягу знает), ни Лешего, ни Буратино, ни Чиполлино, ни Колобка...
К сожалению, не знакомы ему ни шапка-ушанка, ни буденовка.
А жаль.

kuznetsoff87 Apr 8 2023 at 08:13

Мы собрали датасет с типично русскими образами и понятиями, но не успели дотюнить из-за старта релиза - все силы сейчас там. Тюнинг много не займет, думаю, что где-то через неделю сделаем апдейт

Vladus70 Apr 8 2023 at 11:04

Спасибо!

Art-i Apr 8 2023 at 08:13

С лапами часто ошибки. Уши добавляет тоже часто. Чайки - сами видите, порой вообще дементоры.

kuznetsoff87 Apr 12 2023 at 15:13

Да, но за счет комбинации негативных промтов в приоре и диффузии и естественного промт инжиниринга можно получить очень качественные результаты с минимумом ошибок.

Vadim878 Apr 8 2023 at 08:14

Есть ли решение, что бы сеть не генерировала картинки с кривым текстом, либо можно ли заставить сетку, чтобы она сгенерировала изображение с заданным текстом?

UFO just landed and posted this here

kuznetsoff87 Apr 11 2023 at 15:46

Для генерации текста действительно нужен специфический сет и модель бОльшего размера позволит получить лучшее качество таких генераций. Работаем в этом направлении - текст, как и руки, и другие сложные домены

Guul Apr 8 2023 at 15:00

Подскажите лентяю, с a1111, ComfyUI или другими ui эта модель из коробки заработает?

Blacknote Apr 8 2023 at 18:18

Насколько мне известно интеграции в а1111 пока ешё нет, но есть юпитеровские ноутбуки, мой с подобием интерфейса

kuznetsoff87 Apr 12 2023 at 15:12

Очень интересно, спасибо! Комьюнити - вещь! А меж тем Kandinsky 2.1 уже есть на FUUPS.AI и replicate.co. Скоро на grad.io появится

Vladus70 Apr 12 2023 at 21:13

Что-то два последних ресурса - продаются...

hard_sign Apr 8 2023 at 20:29

Прочитав комментарии, в очередной раз убедился, что фантазия человеческая безгранична. На моих запросах Кандинский выступил очень близко к MidJourney и значительно лучше, чем Bing. Спасибо!

Заметил, кстати, что нейросеть не может внятно нарисовать инструмент – лопату, кирку, кувалду, молоток... Неужели таких элементарных вещей нет в тренировочных датасетах?

-1

AgenSmith Apr 10 2023 at 10:10

Спасибо за проделанную работу!

Подскажите, планируете ли увеличивать размер сети на порядок? И на сколько примерно сложно это будет по вычислительным ресурсам?

kuznetsoff87 Apr 12 2023 at 15:11

Планируем увеличивать как отдельные её компоненты, так и в целом менять архитектуру. Вычислительно это будет тяжелее, но всё равно кумулятивно менее затратно, чем авторегрессионные эксперименты)

Phoenix55rus Apr 10 2023 at 11:04

центральная верхняя часть солнечной системы 768 на 768 пикселей

Очень загадочно генерирует солнечную систему.

AlesDDD Apr 10 2023 at 13:50

Здравствуте, есть ли какой-то способ по API отправлять текст / получать результат генерации?

kuznetsoff87 Apr 12 2023 at 15:10

Пока такого способа наружу нет. Бэкенды отрабатывают только запросы телеграм бота и сайтов

Vladus70 Apr 10 2023 at 15:53

А вот и Колобок! :)
"Смеющийся счастливый шарик из теста"

kuznetsoff87 Apr 12 2023 at 15:09

Да, если поиграться с образом человека с пропеллером, то Карлсона можно тоже годного получить))

ajkpro Apr 12 2023 at 13:53

А можно добавить стиль "Картинки с картами высот" как по ссылке.
https://cnc-info.ru/assets/images/bmp/bitmap-2/4-bitmap-2-0202.jpg
Т.е. это некий рисунок для станка с ЧПУ, где светлое это выше, темное ниже. Некий 3D почти. Вот, любители ЧПУ счастливы то будут!

kuznetsoff87 Apr 12 2023 at 15:09

Это интересно на самом деле. Вопрос в том, что надо такой сет где-то собрать. Есть идеи, где взять такие данные? Может быть есть сет у вас?

ajkpro Apr 13 2023 at 13:22

Я это ищу по запросу "Картинки с картами высот". Там много не того что ... Там слишком много "китайской" темы.
Но сейчас я уже не очень уверен, что это в данной модели это можно сделать. Обычно это легко делается из объемной модели. А тут как?

sergeygals Apr 12 2023 at 14:59

Что бы заработало на gentoo пришлось сделать еще пару pip install

./venv/bin/pip install opencv-python # fix for No module named 'cv2'
./venv/bin/pip install git+https://github.com/openai/CLIP.git # fix for ModuleNotFoundError: No module named 'clip'

Ну и на 8 гиговой видюхе не работает :( "CUDA out of memory"

mars194 Apr 12 2023 at 18:41

Узнал и попробовал три дня назад. На удивление, наклепал красоты и с инопланетными пейзажами, и с фантастическими лесами, и с портретами - хоть в Лувре выставляй. Без веселья, конечно тоже не обошлось. Но сегодня неприятно обнаружил, что и на ruDALL-E и на FusionBrain картинки вдруг генерируются только в формате 768х768, хоть какое разрешение выставляй! Это чего? Это навсегда теперь, да? И кстати, жаль, что в маленьком разрешении результаты получаются. Неплохо было бы несколько подсказок или короткую "обучалку". Наверное, система рейтинга (лайк-дислайк или балльная шкала) помогла нейросети двигаться в "правильном направлении"

пы.сы. Верните, пожалуйста возможность выбора соотношений высоты-ширина, а не только квадрат!

kuznetsoff87 Apr 12 2023 at 18:41

Спасибо) Да, aspect-ratio отличающиеся от 1:1 скоро добавим, тюним как раз)

YEN_12 Apr 13 2023 at 08:44

Здравствуйте, у вас проблема на сайте, какое бы разрешение из списка не выбрать, генерирует всё-равно квадрат.

позавчера такого не было

kuznetsoff87 Apr 13 2023 at 12:23

Добрый день! Вы про rudalle.ru я так понимаю?

-1

mars194 Apr 13 2023 at 18:46

И не только про rudalle.ru. На "мозгах", как видите, все тот же квадрат! И хоть затанись за углы, хоть завыбирайся стилями, все-равно получишь квадрат! )))

пы.сы. Какое счастье было создавать панораммы (хоть и не в 4К и даже не в Full HD)

kuznetsoff87 Apr 13 2023 at 20:20

Ну тут точно списка никогда никакого не было, был список на сайте rudalle, но этот список сейчас точно не функционирует для 2.1, она генерит в одном разрешении. Если нужен суперрез - это надо отдельным этапом вкручивать.

На fusionbrain.ai всегда был квадрат для 2.1, потому что пока модель генерит только 1:1 в настоящее время. Скоро обновим модель и будут другие соотношения сторон, тогда и за углы тянуть можно будет))

-1

YEN_12 Apr 14 2023 at 01:50

Про Фузион понятно. Благодарю!
Фузион конечно более интересен и удобен.
список разрешений будет там очень в тему.

а так в целом хотел сказать что достойно сделали.
Баги уберёте, функционал чуть подправите и будет крутая штука.

YEN_12 Apr 14 2023 at 01:52

у Вас же отлично работал выбор разрешений на 2.1
по какой причине убрали сейчас, и сможете сориентировать,
когда примерно ожидать возвращении этой функции ?

mars194 Apr 14 2023 at 10:59

Целиком поддерживаю! БЫЛ выбор разрешений на 2.1 на rudalle.ru! Потом отключили. Такое печатление, что делали для "затравки".

Кстати, сейчас rudalle.ru пользоваться вообще почти невозможно - до сих пор вместо генерации получашь "привет" "Вы можете воспользоваться моделью Kandinsky 2.1 не чаще, чем раз в 20 секунд. Пожалуйста, немного подождите и продолжайте генерации." Даже не знаю, чем лучше это объяснить: то ли свои силы переоценили, то ли на пользователей наплевали)))

YEN_12 Apr 14 2023 at 01:47

да, но на Fusion такая же проблема.

mars194 Apr 13 2023 at 18:57

А на rudalle.ru сегодня новая "приколюха"! "Вы можете воспользоваться моделью Kandinsky 2.1 не чаще, чем раз в 20 секунд. Пожалуйста, немного подождите и продолжайте генерации."

20 секунд????? Карл! Ой, в смысле, ВАСЯ! Да я ж от 1 до 3 минут жду генерации, а потом еще и бережно сохраняю свой....эээээ..... твой.....эээ......НАШ ШЕДЕВР! ))) Так уж минимум 10 раз по 20 секунд проходит! Боюсь, цифровые ноотропы требуются!

VaszhurSofia Apr 14 2023 at 15:01

Могу ли я с уверенностью сказать, что работа Кандинского лучше всего осуществляется на русском языке, при этом также работая с английским и, возможно, другими языками? То есть, русский язык > английский язык > другие языки?

Я пытаюсь оценить Kandinsky 2.1 по сравнению с альтернативами. Интересно, есть ли уже какой-то лист сравнения, например, как различные модели на одном и том же запросе выполняют работу.

Vladus70 Apr 14 2023 at 16:45

Из опыта могу сказать, что некоторые слова на русском не понимает и рисует совершенно отстраненное. Но при замене этого слова на его английский перевод (посреди всего запроса на русском) - отлично отрисовывает. Вот как выше, в первых комментариях, был пример с "Дамой с горностаем", где рисовались горняки вместо горностаев. Если указать горностая на английском - все работает.

Vadimdem Apr 17 2023 at 09:34

Андрей, здравствуйте! Подскажите, пожалуйста, есть возможность на Кандинском генерировать более качественные картинки, чтобы их можно было использовать на фотостоках?

kuznetsoff87 Apr 17 2023 at 16:28

Добрый день! Пока разрешение генераций 768x768, можно пользоваться технологиями суперразрешения для повышения разрешения изображений

Vadimdem Apr 20 2023 at 16:42

В смысле сторонними технологиями или прямо на Кандинском? Мне кажется было бы проще попробовать это в платном варианте. Я бы попробовал...

tosyacute Apr 20 2023 at 10:09

Псс.. Попробуй запросить слово неволяшка в стиле "Детальное фото" )))

axe_chita Apr 22 2023 at 07:51

Так это он так на опечатку в слове неволяшка реагирует ;)

NeuroLab Apr 28 2023 at 09:04

Здравствуйте. Почему-то Кандинский не прорисовывает людей, лежащих на полу, земле, траве и где бы они не лежали в результате генерации получается ужасный трэш. Скажите есть какое - то решение по лежащим на земле людям?)

Vladus70 Apr 28 2023 at 10:53

Да, как-то не очень совсем...

AleksandrSidorov Apr 28 2023 at 09:14

Пётр I. Какая-то хоть минимальная релевантность должна же соблюдаться. Или так, "От балды"?

Vladus70 Apr 28 2023 at 10:41

Видимо, датасет так и не запустили

kuznetsoff87 Apr 30 2023 at 08:15

Запустили, но не раскатали на проде еще, проверяем разные образы и домены

Vladus70 Apr 28 2023 at 13:03

Кстати. Запрос "Петр Первый".

gizmovich Apr 29 2023 at 10:29

Генерировал местным индонезам юзерпики для их клана в какой-то он-лайн игре через бот в ТГ. На всё про всё ушло 10 минут. Итоговые изображения прогнал через real-esrgan (рез нужен был 3000*3000 пикс). Получилось очень годно!

AlesDDD May 1 2023 at 23:19

Условно: есть kandinsky для картинок, есть Gigachat для текста, есть аналоги - но не смог на сегодня найти совмещения обоих направлений, а именно генерации картинки с текстом на ней (например, рекламных баннеров) или текста с иллюстрациями. Плохо искал / сложная задача / узкая задача / слишком просто / другое?

UFO just landed and posted this here

jsre May 2 2023 at 08:22

Почему на rudalle.ru/kandinsky2 доступны далеко не все стилевые пресеты для генерации, в отличие от FusionBrain? Нет аниме, детального фото, киберпанка. По сравнению с телеграм-ботом - нет artstation и 4k (кстати, каковы их аналоги на FusionBrain?).

NeuroLab May 11 2023 at 15:12

вижу, что в FusionBrain кое что доработали. А подскажите, где можно следить за информацией по обновлениям. доработкам и новостям по Кандинскому

UserAnim1 May 18 2023 at 00:15

Да проблемы с генерацией всё же есть. Когда пишу в prompt, full body, то начинается искажение лиц, пальцев. И то бывает их 6 штук. Надеюсь лица и анатомию исправят. И думаю в будущем, будем на картинке нормально отображаться текст, вполне читабельный. Как это допустим на Dall-e 2.

Vladus70 Jun 1 2023 at 09:24

Сбер стал пацифистом? Запрет на генерацию оружия?

Vladus70 Jun 1 2023 at 09:29

Как я понял, "в любом непонятном случае (с оружием) - ставь цветочки". Но при этом цветочки не генерятся, а вставляются несколько одних и тех же из набора. Хоть бы в телеграмм боте об этом предупреждали...