Pull to refresh

Comments 183

зашел на сайт rudall-e, написал текст, появилось что-то вроде каптчи, просят переместить слайдер, переместил - ошибка, ну думаю мало ли, переместил снова - ошибка. включил мозг, думаю тут какая-то фигня с подвохом, картинка была повернута на 140 градусов примерно, повернул ее до выравнивания - ок. а можно текстом написать условия успешного перевода слайдера?

Передам коллегам, кто поддерживает сайт rudalle.ru. Спасибо!

Неплохо, похоже, что банк тренировочных изображений удалось импортозаместить)

Не весь, и используется английский язык как основной, с русского идёт перевод. На Пикабу при тестировании яндексовской сетки нашли характерные слова, которые помогают определить язык, на котором думает нейросеть.

По пионеру явно используется английский язык и явно западный банк изображений:

По патриоту чуть лучше:

Запрос: волна разбивается о прибрежную скалу, закат

Картинку пришлось средствами винды копировать с экрана, в интерфейсе Fusion Brain в буфер копировался белый скрин, а на диск сохранялся черный PNG.

Спасибо, приняли. Если ошибка повторится, напишите пожалуйста здесь в треде

простите, но я не бета-тестер.

Russian DALL-E, 15 минут висит эта надпись, мне пора домой, так что не дождался )

"До готовности изображения осталось приблизительно: 1 мин. "

15 минут висит эта надпись

осталось приблизительно: 1 мин

Прям как на стиральной машинке.

Вчера были проблемы с бэкендом, команда внесла правки - стабильность выросла, скорость генерации снизилась до ожидаемой

похожу на какой то баг, потому что у меня по запросу "черный кот с белыми лапками, белым воротником сидит на столе" выдало прям такое как у вас


Это похоже на фичу:
"Результат генерации по запросу "Занюханная крыска из книги Вудхауза", стиль: anime"
(Две другие попытки таки выдавали крыску.)

Тоже цветочки

UFO just landed and posted this here

Странно, но у меня на некоторые слова в запросе такая реакция. Сегодня слово «Украина» стало запретным, выбираешь его — всё работает, а с ним — ромашки.

Есть такое, причем на все вариации этого слова. К примеру на «украинский хлеб» система выдало такое «The request does not comply with the terms of use.» и нарисовала цветущую яблоню
Запрос «малороссийский хлеб» спокойно переварила :)

Внесли коррективы - попробуйте еще раз)

ну кстати неплохо для базовой модели.. Единственное что SD комьюнити вытащило на уровень MJ а здесь кто будет тащить?

у меня сердце разрывается, когда я думаю что на эти деньги и за это время можно было сделать на базе SD вместо того чтобы сделать свое, отечественное

Унификация любых решений скорее будет приводить к стагнации, поэтому разнообразные подходы к решению одной и той же задачи помогают сообществу в целом двигаться вперёд - тут так же как с биоразнообразием - большее количество видов приводит к стабильности системы в целом.
Тут опять же можно вспомнить о разработке принципиально новых подходов к построению сетей - если бы все упирались только в одно решение, возможно мы бы никогда и не увидели диффузные модели.
Поэтому я считаю, что вы не справедливы к разработчикам - они своими "велосипедами" дают новые нотки всему ансамлю нейронок.

И что же такое, по-вашему, можно было бы сделать на базе SD?

Там ведь больше проблема не в ресурсах, а в идеях - как сделать руки лучше? Как сделать сходную генерацию img2img для кадров из роликов? Как различать персонажей?

А что не так с идеями? Развитие есть и очень большое. Допустим ControlNet на базе SD: можно нарисовать Doll-модель человека и позы, отдельно нарисовать положение рук и каждого пальца. И ты получишь именно то что хочешь.

И так далее. Каждый месяц есть существенное продвижение вперед.

На самом деле этот проект не такой ресурсозатратный как был ruDALL-E в 2021 году, поэтому так сильно за деньги и время переживать не стоит. Мы сильно переработали архитектуру, сохранив преемственность от 2.0, добавив приор, новый vqgan и чистые данные - имхо, ничто не мешает комьюнити развивать это в условиях того, что модель бесплатная и в опенсурсе

Для начала, нужно чтобы это комьюнити появилось. Про инструментарий и тематические ресурсы вроде civit я даже не говорю

Видно что учили на аниме размера DDD.... но руки, руки :)

На такой картинке руки заметить!.. Ничего себе! :-)

Более заметные части тела тоже кривые и неестественные.

к слову, сепульки тоже получаются, мягко говоря, так себе

Забавно. Модели в SD и Кандинский выдают +/- одинаковое лицо на промпт "attractive stunning Ukrainian woman, messy bun"

https://civitai.com/images/393225

Обучение на одном и том же датасете не проходит бесследно.. Такая работа проделана колосальная.. Столько ресурсов вложено.. Для чего? Потому что можем? Ну, здорово, молодцы..

Возможно тут главный результат не модель, уровня SD, а опыт построения таких моделей. Чтобы сделать лучше, нужно научиться делать хотя бы так же.

Единственное что SD комьюнити вытащило на уровень MJ а здесь кто будет тащить?

Справедливости ради — это скорее MJ вытаскивалась (и вытащилась) на уровень SD, ибо в момент выхода SD была MJ v2, сильно от него отстающая, MJ v3 была на самом деле SD, и лишь к v4 их собственная модель сравнялась с актуальной SD (а niji пожалуй обошла NAI), но скорее не за счет качества модели, а за счет скрытых твиков к промтам (что делает её малопригодной в качестве инструмента, а не игрушки).
v5 да, нынешнюю развитую sd 1.5 обошла. На счет SD 2.1 не уверен — тут скорее причина в том, что 2.х кастрированы и ими мало кто занимается (но даже то что есть — не уступает v5 при применении идентичных трюков к промтам)

А есть какие-то инсайты на тему того, какой постпроцессинг для пользовательских промптов используется в MJ?

У людей на всех сгенерированных изображениях какие-то проблемы с руками :(

рукаааааааааааааааааааааа

бооооооль

Молодцы. Сразу видно, что достойная работа!

UFO just landed and posted this here

Мы работали с датасетом LAION с момента его выхода в 2022 году, прикрутив туда много своих фильтров на описания и изображения

Ни одной картинки в телеграм эта поделка пока сгенерировать не смогла.

Хабраэффект похоже настиг, бот в ТГ глючит, хотя утром работал.
Киберпанк кот играет в шахматы
Киберпанк кот играет в шахматы

Да он вообще глючный. Отправляешь фото и... вообще ничего не происходит.

хабраэффект? не работает вообще, висит, грузит, не генерит ничего

Подскажите, а под какой лицензией выпущены веса модели?

Повторил запрос в статье с заменой одной буквы. Первая картинка: "интернальное", вторая: "инфернальное".

Особой разницы не ощутил.

Да, похоже модель воспринимает текст весьма поверхностно, как слабо слышащий, не очень эрудированный человек, которых строит ассоциации по обрывкам слов.
Думаю, логичнее сделать промежуточный этап: запрос пользователя растолковывается продвинутой лингвистической моделью (ChatGPT), а результат уже идёт на вход генератора картинок.

мне просто интересно, когда случится чудо и для российских ML проектов появятся open source UI интерфейсы для локального запуска уровня stable-diffusion-webui? наличие примеров скриптов и соллаба это конечно хорошо, но требует некоторых специфичных навыков для получения первых результатов.

UFO just landed and posted this here

https://gist.github.com/Blucknote/31f792621f4e4cdf0a7d2505ddd6b0a2

У меня получилось только так. В качестве основного venv'a использовал существующий от SD. Качать модель отдельно не нужно, скрипт сделает это сам.

На RTX 3060 с 12Гб VRAM максимальный batch_size получился 2, больше -- cuda OOM.

Ширина прокатила 1368

Ну: "Когда +0,1 значит очень много" ног?

UFO just landed and posted this here

у Вас эта девочка хотя бы аист... а у меня она же "баобаб"

Hidden text

Прогресс чувствуется, молодцы...

А можно ли будет локально запускать? И будет ли по свободной лицензией?

Да, можно запустить локально, для этого достаточно запустить pip install из readme github репозитория и запустить. Веса скачаются автоматически. На RTX 3060 довольно бегло бегает, жаль только какие-то проблемы с очисткой памяти по завершении генерации, накидал скриптик, который её не решает, но хотя бы поиграться

Я попробовал вот такое описание на русском и на английском: «Человек лежит на берегу моря, ногами к морю, головой к зрителю. День хороший, солнечный. Его колени согнуты. На коленях находится открытый ноутбук. Небо синее. По нему плывут облака. На облаках написаны математические формулы и куски программного кода.»

Получились такие уроды, что не буду травмировать публику и помещать результаты.

Вариация фото с козлятками тоже превратила их в уродов.

Что-то не так с моделью.

с котами может она и справляется, но с оленями и птицами (что выше видно по аистам) не очень. Математических знаков не знает вообще (по запросу "интеграл" рисует бесконечность упорно). База явно ужасная, до MJ как пешком до луны, серьёзно. А с длинным описанием вообще беда. Например:

лесной пожар, в воздухе дым и пепел, и между горящими деревьями бежит олень, и летят птицы спасаясь от огня
лесной пожар, в воздухе дым и пепел, и между горящими деревьями бежит олень, и летят птицы спасаясь от огня

А получилось нечто реально несусветное. Пробовал раз 20, и видно что картинок пожаров он знает очень мало, как и оленей, всё получается примерно в одном стиле и ни одного "здорового" оленя с нормальным числом ног, рогов и прочего. Один раз вообще создал мне оленя с задней частью из камней и двумя ногами, никаких кошмаров не нужно. А попсу всякую типа девушек и котов он кое-как генерирует, да... И то детали теряет, в отличие от MJ. Ну например:

молодая красивая учительница с указкой
молодая красивая учительница с указкой

AI перевозбудился и до указки не дочитал или как? Но модель ничего такая. Причём она у него одна, 10 попыток и я получил одно и то же лицо в очках и без с немного разными ракурсами, и ни одной (!) с указкой! В общем такое.....

А может вы когда смотрели?
Большая указка у нее на плечо (левое — для зрителя получается справа) положена.
Большая часть (как и руки ее держащие) за краем кадра, но в кадре есть ручка (задняя часть) указки прислоненная к плечу.


P.S.
Модели у меня разные получаются по запросу такому. Но с руками (и иногда носами еще!) все еще беда больше чем в половине результатов (не считая тех, где они не видны/за кадром).

Кстати рисунок с горящими и летающими оленями выглядит шикарно. Он не отобржает действительности, однако я его долго рассматривали и смеялся.

Да, но я не заказывал стиль Сальвадора Дали )

Улучшено очень существенно. Я месяц назад делал рисёч, сравнивал результаты разных публичных сервисов по не очень удобным запросам. Результаты ruDalle по запросу «Рыцарь с красным плюмажем на фоне заката, в стиле Рембрандта» месяц назад и сейчас отличаются как небо и земля:

Это почти то, что я получил по запросу "пендосы" :)

Задано: Компания друзей. 3 надувные лодки.

С множественными объектами сейчас как раз работаем - пока генерации не всегда удаются - нужно промт инжинирить

как выглядит такая работа, можете запилить статью или серию, как именно нужно менять исходный датасет или как до обучать модель чтобы решать такие проблемы?

Модель ruDALL-E Kandinsky нарисовала: молодая женщина стоит к нам спиной в белом платье в правой руке держит красный цветок в левой руке держит бокал с водой на фоне много облаков.

Утром таки обнаружил картинку, только вода красного цвета, цветок абстрактный (скорее опрокинутый стакан с молоком) и право и лево перепутано.

А где Вы генерировали изображение? Точно в модели 2.1?

Телеграм бот не работает. Отправил запрос на слияние картинок в 4:18, в 4:45 ответа всё ещё нет. Хотя вроде ночь, трафика не должно быть.

Вопрос, а сколько ресурсов, например выраженных в видеокарто-днях было потрачено?

Кандинский ваш, к стати, считать не умеет. Пишу "Великолепная восьмёрка - 4 парня и 4 девушки". Получаю то шестерых, то семерых.

Да, это правда. С числительными сейчас работаем, чтобы понимание было

4 мужчины и 4 женщины. Стиль - студийное фото.

Пока тут ещё сон разума, и он порождает в нейросети чудовищ крипоту
Запрос: Алиса Селезнёва с миелофоном в руках
Выхлоп:
image
поперхнувшись воздухом, подправляем запрос: красивая девочка 11 лет Алиса Селезнёва с миелофоном в руках
Выхлоп:
image
пошел за успокоительным, выпил, выдохнул.
Поправил запрос опираясь на описание из википедии: Алиса Селезнёва, девочка высокого роста со светлыми короткими волосами и спортивного телосложения, одетая в комбинезон
Выхлоп айнц:
image
Выхлоп цвай:
image
Выхлоп драй:
image
И тут меня начали терзать смутные сомнения, что в качестве датасета для обучения нейросети использовались фотографии узников концлагеря.

Так Алиса - это же прямой конкурент Салюта. Ну недолюбливают в Сбере её! Ничего личного - просто бизнес!))

Война нейросетей? И «Да придет Спаситель лесник, и выгонит всех их из леса»? %))

Нормальные Алисы получаются, не надо имя вводить, видимо есть такой человек.

Хочешь помоложе, хочешь постарше.

Так может запросами к нейронке поделитесь? Для чистоты эксперимента и повышения экспириенса. ;)
Плюс за девять дней с момента генерации могли и Кандинского подправить и прокачать, добавить новые датасеты. К примеру датасет работ Мигунова.
Причем при том же самом запросе «Алиса Селезнёва, девочка высокого роста со светлыми короткими волосами и спортивного телосложения, одетая в комбинезон» в стиле киберпанк на 3-4 генерации получились следующие результаты:



Стиль Мультфильм (не путать со стилем Советский мультфильм)

Цифровая живопись (есть глич — потерялась лямка комбинезона)

А запрос простой "Озорная веселая девушка 25 лет, высокого роста со светлыми короткими волосами и спортивного телосложения, одетая в футуристичный оранжевый комбинезон, scifi, в стиле иллюстраций Мигунова", почти как исходный

Возраст просто менял, еще cinematic lighting, dinamic pose добавлял, стиль другой делал, студийное фото например

Спасибо, это в принципе подтверждает мои собственные выводы, что нейронке надо давать подробные и точные инструкции, и резать её фантомные связи образов.
Вот в этом комментарии показаны результаты генерации «Хозяйки медной горы»
Я тоже реши попробовать сгенерировать образ Хозяйки медной горы, оттолкнувшись от её текстового описания: прекрасная зеленоглазая женщина с косой увитой лентами из тонкой позвякивающей меди, в платье из шёлкового малахита
И получил два таких результата
Без стиля

Стиль Аниме


И тут я понял, что наступил на грабли полисемичности и многозначности, ведь женщинам с косой, это не только женщина с заплетенными волосами, но и женщина с сельскохозяйственным инструментом в руках :D
Правим запрос: прекрасная зеленоглазая женщина с черной косой из волос увитой лентами из тонкой позвякивающей меди, в платье из шёлкового малахита
И вот полученные результаты, уже вполне пристойные
аниме

без стиля

стиль Детальное фото (сеть сгоряча ударилась в афрокосы, но я ей эту вольность простил)

стиль киберпанк

стиль портрет маслом

Стиль Рисунок карандашом (фаворит)

стиль цифровая живопись

стиль советский мультфильм

стиль 3d рендер

Стиль мультфильм

стиль портретное фото

Портреты она уже хорошо генерит, но вот если задать какое то действие начинаются проблемы, бегущая девушка или сидящая на кровати :) А еще если что то специфическое пытаться сделать...Вот вчера пробовал шлем шапель получить, очень смешно получалось.

Подозрительно, но ксеноморфы для нейросети гораздо ближе
Запрос: "ксеноморф собирает ромашки на поляне в лесу"
Выхлоп:
Раз


image

Два:


image

в стиле аниме
image

девочка с красной звездой на папахе, с пулеметом дегтярева в руках в стиле khokhloma.

даже не знаю, в чем именно из запроса сетка попала в точку. и не девочка, а тетки. и папахи со звездой нет. и пулемет нифига не тот. и на хохлому не похоже. и самое худшее - звезды местами, не те, что предполагались.

не получит эта сетка госзаказов, ой не получит...

На сайте fusionbrain.ai при скачивании картинки появляется рамка, захватывающая область картинки, которая будет скачана. Рамка появляется не в координатах 0,0, а смещённая. Надо понимать, это такая фича, чтобы показать пользователю, что рамка может двигаться и побудить его выбрать облатсть. Простите за прямоту, но решение бестолковое до боли. Двигая рамку мышью выставить её так, чтобы до пикселя захватить изображение полностью - вы сами-то пробовали? А я полагаю, что подавляющему большинству пользователей будет нужна вся картинка, а не фрагменты. Сделайте хотя бы так, чтобы рамка по дефолту появлялась в нулевых координатах. Или так, чтобы липла к краям картинки при перетаскивании. Что в этой стране с юзабилити, проклял её кто-то что ли7

Моя команда занимается моделью, но ребята из команды фронта я передал ваши пожелания/замечания😉 Пусть чешут репу😊

Очень крутой прогресс! Хотя, так и не смог понять как из интерфейса fusionbrain.ai работать с загруженными изображениями. Генерация по сравнению с версией 2 сделала огромный скачок вперёд!

Еще до начала хаброэфекта на сайте Сбера удалось за 20 минут получить картинку, интерфейс там кривой (итоговое изображение с рамочкой для сохранения результата) не совместить так как именно в этот момент блокируется смещение рамки. Сейчас видимо надо ждать уже часами результат.

Круто. Неделю назад пытался для поста сгенерировать картинку и ничего подходящего не нашлось, пришлось MJ оплатить. А сегодня махом и в отличном качестве подобрал.

Искал вот идеи для логотипа одного проекта, и первая же картинка неплохо получилась:

Птичку жалко. Что у нее с одной лапкой случилось?

На первый взгляд можно подумать что перелом от сильного удара об ветку. Но взглянув на 2ю лапку можно понять, что там на самом деле гибкие тентакли, поэтому перелом ей не грозит и "ни одна птичка в процессе не пострадала" (с).

UFO just landed and posted this here

Да нет никакого страха, вы что) Просто это и правда очень известные решения: MidJourney, StableDiffusion, …

Я не знаю, кто тренировал это, но за десяток попыток у меня была только одна относительно терпимая картинка. Не эта, правда :)
Но кто такой Иван-дурак - модель не знает :)

Домен известных культурных образов и понятий дорабатываем как раз, собрать датасет такой непросто, чтобы всё было учтено

А как сделать так , чтобы твое фото в полный рост , дорисовывало например рядом собаку , кошку и .т.п , не изменяя человека с оригинального фото?

Надо на FusionBrain.ai загрузить свою фотку и в режиме inpainting попробовать исправить ту область, которую хочется изменить

А какие стили поддерживаются? В телеге предлагается выбрать "один из поддерживаемых стилей", но какие поддерживаются не понятно. В справке (опять же в телеге) про стили нет ничего.

Там если нажать кнопочку справа в клиенте TG, то покажутся несколько стилей - artstation, 4k, anime и без стиля

Андрей, расскажите, пожалуйста (для людей, понимающих общие принципы, но не погружённых в детали реализаций) про борьбу с "неестественностями" в генерируемых изображениях? Все эти лишние/кривые пальцы, ноги, глаза и т.п…
"Добавление слоя spatial conditional нормализации" — это оно? Если да, до тут spatial — в пространстве изображений, или в пространстве весов модели? Другими словами, вы просто дообучаете модель, чтобы она генерила статистически меньше лишних ног, или пытаетесь найти среди всех весов именно тот/те, что отвечают за количество ног, и работать именно с ним/ними?

Как показать что мне нравится или не нравится результат? В прошлой версии были лайк и дизлайк.

Бот завис, уже несколько часов отвечает одно и тоже. У других работает. Как его жёстко остановить/перезапустить?

Увеличил, что бы было лучше видно лицо. Этой сети только для ужастиков придумывать иллюстрации ). Ни одной картинки соответствующей моим запросам сеть не сделала.

Могу предположить, что нейросеть «напугалась» увидев в вашем запросе слова с орфографическими ошибками (басейн — бассейн, тенритории — территории), и начала «фантазировать» что бы значили эти неизвестные слова.

А почему у вас отсутствует negative promt, чтобы была возможность исключить уродства и т.д. в генерациях?

negative prompt вроде как есть, но не указан в примерах

Негативный промт есть, и он в настоящее время просто статично добавляется к генерациям. Скоро его можно будет задавать или изменять самим в боте

Два дня пытался запустить модель локально что-бы поиграться с русским, в итоге на гитхабе ответили разработки ответили "модель не работает на русском языке".
Что простите? Мультиязычная модель?

Сохранил с пробной страницы сгенерированные картинки (формат - только png без вариантов), так ни один из файлов не открывается ни в одном браузере (chrome,firefox), ни утилитами просмотра графики, типа XnView. Это бага или фича?
(генерить пробовал в Chrome и firefox, результат один)

Позднее разобрался. Так получается, если прямо на сгенерированной картинке открыть контекстное меню из него выполнить "Сохранить картинку как..." (зачем вообще это меню, если оно не работает).

А надо, оказывается, в правом верхнем углу нажать кнопку скачивания, натянуть появившуюся рамку на интересующую зону, и потом нажать на сине-фиолетовую кнопку внизу "Скачать"

Кто-нибудь разобрался как использовать негатив промпт в данной модели?

На запрос Всадник на лошади:

Произошла ошибка при работе модели:( Попробуй, пожалуйста, еще раз

Хозяйка медной горы
хозяйка медной горы в стиле иллюстраций Билибина
хозяйка медной горы в стиле иллюстраций Билибина
Хозяйка медной горы огненно-рыжая в зеленом платье с ящеркой на плече в стиле Билибина со свечением на фоне
Хозяйка медной горы огненно-рыжая в зеленом платье с ящеркой на плече в стиле Билибина со свечением на фоне

Ну одна попытка "под Билибина" действительно удалась. Да и в целом - определенно мне нравится (до тех пор, пока руки не появляются в кадре).

Не всё так плохо с руками и кистями рук, иногда сеть генерирует «почти» нормальные руки и кисти рук
Запрос (стиль детальное фото): полная молодая женщина в расстегнутом кафтане играет в игральные кости
Выхлоп:
image

Иллюстрации к статьям вполне себе можно делать.

А есть возможность увеличить размер фото? Максимум 768x768 квадрат.

Можно попробовать увеличить через SuperRes модель, генерация пока только в таком разрешении

запрос - "казак скачет в столицу"
запрос - "казак скачет в столицу"

какие-то проблемы с количеством ног у людей и зверей, а также пропорции коня..)

Запрос "Фигурка котенка", стиль "Хохлома".
Фигурки генерит просто шикарные! Но вот с Хохломой. например - я не понял. В чем тут хохлома?

Инженер схемотехник паяет программатор в осеннем лесу, во время этого мимо него проходит корова.

Вот фигурки котов, особенно деревянные, генерит просто шикарно!

Наверное, на кошках тренировалась!

Квантовый компьютер в черепе человека
Квантовый компьютер в черепе человека

Внезапно прикольная штука вышла. Средний ряд зубов - новый тренд в стоматологии.

Это запасные:). А если серьёзно, то в детстве у человека под молочными зубами находятся зачатки коренных. Можно сказать что третий ряд.

Почему-то Чебурашка всегда с маленькими ушами :)
К сожалению, ИИ не знает многих популярных персонажей сказок или героев эпоса. Ни Кащея Бессмертного (Бабу Ягу знает), ни Лешего, ни Буратино, ни Чиполлино, ни Колобка...
К сожалению, не знакомы ему ни шапка-ушанка, ни буденовка.
А жаль.

Чебурашка
Чебурашка

Мы собрали датасет с типично русскими образами и понятиями, но не успели дотюнить из-за старта релиза - все силы сейчас там. Тюнинг много не займет, думаю, что где-то через неделю сделаем апдейт

С лапами часто ошибки. Уши добавляет тоже часто. Чайки - сами видите, порой вообще дементоры.

Да, но за счет комбинации негативных промтов в приоре и диффузии и естественного промт инжиниринга можно получить очень качественные результаты с минимумом ошибок.

Есть ли решение, что бы сеть не генерировала картинки с кривым текстом, либо можно ли заставить сетку, чтобы она сгенерировала изображение с заданным текстом?

UFO just landed and posted this here

Для генерации текста действительно нужен специфический сет и модель бОльшего размера позволит получить лучшее качество таких генераций. Работаем в этом направлении - текст, как и руки, и другие сложные домены

Подскажите лентяю, с a1111, ComfyUI или другими ui эта модель из коробки заработает?

Насколько мне известно интеграции в а1111 пока ешё нет, но есть юпитеровские ноутбуки, мой с подобием интерфейса

Очень интересно, спасибо! Комьюнити - вещь! А меж тем Kandinsky 2.1 уже есть на FUUPS.AI и replicate.co. Скоро на grad.io появится

Что-то два последних ресурса - продаются...

Прочитав комментарии, в очередной раз убедился, что фантазия человеческая безгранична. На моих запросах Кандинский выступил очень близко к MidJourney и значительно лучше, чем Bing. Спасибо!

Заметил, кстати, что нейросеть не может внятно нарисовать инструмент – лопату, кирку, кувалду, молоток... Неужели таких элементарных вещей нет в тренировочных датасетах?

Спасибо за проделанную работу!

Подскажите, планируете ли увеличивать размер сети на порядок? И на сколько примерно сложно это будет по вычислительным ресурсам?

Планируем увеличивать как отдельные её компоненты, так и в целом менять архитектуру. Вычислительно это будет тяжелее, но всё равно кумулятивно менее затратно, чем авторегрессионные эксперименты)

центральная верхняя часть солнечной системы 768 на 768 пикселей
центральная верхняя часть солнечной системы 768 на 768 пикселей

Очень загадочно генерирует солнечную систему.

Здравствуте, есть ли какой-то способ по API отправлять текст / получать результат генерации?

Пока такого способа наружу нет. Бэкенды отрабатывают только запросы телеграм бота и сайтов

А вот и Колобок! :)
"Смеющийся счастливый шарик из теста"

Да, если поиграться с образом человека с пропеллером, то Карлсона можно тоже годного получить))

А можно добавить стиль "Картинки с картами высот" как по ссылке.
https://cnc-info.ru/assets/images/bmp/bitmap-2/4-bitmap-2-0202.jpg
Т.е. это некий рисунок для станка с ЧПУ, где светлое это выше, темное ниже. Некий 3D почти. Вот, любители ЧПУ счастливы то будут!

Это интересно на самом деле. Вопрос в том, что надо такой сет где-то собрать. Есть идеи, где взять такие данные? Может быть есть сет у вас?

Я это ищу по запросу "Картинки с картами высот". Там много не того что ... Там слишком много "китайской" темы.
Но сейчас я уже не очень уверен, что это в данной модели это можно сделать. Обычно это легко делается из объемной модели. А тут как?

Что бы заработало на gentoo пришлось сделать еще пару pip install

./venv/bin/pip install opencv-python # fix for No module named 'cv2'
./venv/bin/pip install git+https://github.com/openai/CLIP.git # fix for ModuleNotFoundError: No module named 'clip'

Ну и на 8 гиговой видюхе не работает :( "CUDA out of memory"

Узнал и попробовал три дня назад. На удивление, наклепал красоты и с инопланетными пейзажами, и с фантастическими лесами, и с портретами - хоть в Лувре выставляй. Без веселья, конечно тоже не обошлось. Но сегодня неприятно обнаружил, что и на ruDALL-E и на FusionBrain картинки вдруг генерируются только в формате 768х768, хоть какое разрешение выставляй! Это чего? Это навсегда теперь, да? И кстати, жаль, что в маленьком разрешении результаты получаются. Неплохо было бы несколько подсказок или короткую "обучалку". Наверное, система рейтинга (лайк-дислайк или балльная шкала) помогла нейросети двигаться в "правильном направлении"

пы.сы. Верните, пожалуйста возможность выбора соотношений высоты-ширина, а не только квадрат!

Спасибо) Да, aspect-ratio отличающиеся от 1:1 скоро добавим, тюним как раз)

Здравствуйте, у вас проблема на сайте, какое бы разрешение из списка не выбрать, генерирует всё-равно квадрат.

позавчера такого не было

Добрый день! Вы про rudalle.ru я так понимаю?

И не только про rudalle.ru. На "мозгах", как видите, все тот же квадрат! И хоть затанись за углы, хоть завыбирайся стилями, все-равно получишь квадрат! )))

пы.сы. Какое счастье было создавать панораммы (хоть и не в 4К и даже не в Full HD)

Ну тут точно списка никогда никакого не было, был список на сайте rudalle, но этот список сейчас точно не функционирует для 2.1, она генерит в одном разрешении. Если нужен суперрез - это надо отдельным этапом вкручивать.

На fusionbrain.ai всегда был квадрат для 2.1, потому что пока модель генерит только 1:1 в настоящее время. Скоро обновим модель и будут другие соотношения сторон, тогда и за углы тянуть можно будет))

Про Фузион понятно. Благодарю!
Фузион конечно более интересен и удобен.
список разрешений будет там очень в тему.

а так в целом хотел сказать что достойно сделали.
Баги уберёте, функционал чуть подправите и будет крутая штука.

у Вас же отлично работал выбор разрешений на 2.1
по какой причине убрали сейчас, и сможете сориентировать,
когда примерно ожидать возвращении этой функции ?

Целиком поддерживаю! БЫЛ выбор разрешений на 2.1 на rudalle.ru! Потом отключили. Такое печатление, что делали для "затравки".

Кстати, сейчас rudalle.ru пользоваться вообще почти невозможно - до сих пор вместо генерации получашь "привет" "Вы можете воспользоваться моделью Kandinsky 2.1 не чаще, чем раз в 20 секунд. Пожалуйста, немного подождите и продолжайте генерации." Даже не знаю, чем лучше это объяснить: то ли свои силы переоценили, то ли на пользователей наплевали)))

да, но на Fusion такая же проблема.

А на rudalle.ru сегодня новая "приколюха"! "Вы можете воспользоваться моделью Kandinsky 2.1 не чаще, чем раз в 20 секунд. Пожалуйста, немного подождите и продолжайте генерации."

20 секунд????? Карл! Ой, в смысле, ВАСЯ! Да я ж от 1 до 3 минут жду генерации, а потом еще и бережно сохраняю свой....эээээ..... твой.....эээ......НАШ ШЕДЕВР! ))) Так уж минимум 10 раз по 20 секунд проходит! Боюсь, цифровые ноотропы требуются!

Могу ли я с уверенностью сказать, что работа Кандинского лучше всего осуществляется на русском языке, при этом также работая с английским и, возможно, другими языками? То есть, русский язык > английский язык > другие языки?

Я пытаюсь оценить Kandinsky 2.1 по сравнению с альтернативами. Интересно, есть ли уже какой-то лист сравнения, например, как различные модели на одном и том же запросе выполняют работу.

Из опыта могу сказать, что некоторые слова на русском не понимает и рисует совершенно отстраненное. Но при замене этого слова на его английский перевод (посреди всего запроса на русском) - отлично отрисовывает. Вот как выше, в первых комментариях, был пример с "Дамой с горностаем", где рисовались горняки вместо горностаев. Если указать горностая на английском - все работает.

Андрей, здравствуйте! Подскажите, пожалуйста, есть возможность на Кандинском генерировать более качественные картинки, чтобы их можно было использовать на фотостоках?

Добрый день! Пока разрешение генераций 768x768, можно пользоваться технологиями суперразрешения для повышения разрешения изображений

В смысле сторонними технологиями или прямо на Кандинском? Мне кажется было бы проще попробовать это в платном варианте. Я бы попробовал...

Псс.. Попробуй запросить слово неволяшка в стиле "Детальное фото" )))

Так это он так на опечатку в слове неволяшка реагирует ;)

Здравствуйте. Почему-то Кандинский не прорисовывает людей, лежащих на полу, земле, траве и где бы они не лежали в результате генерации получается ужасный трэш. Скажите есть какое - то решение по лежащим на земле людям?)

Да, как-то не очень совсем...

Пётр I. Какая-то хоть минимальная релевантность должна же соблюдаться. Или так, "От балды"?

Видимо, датасет так и не запустили

Запустили, но не раскатали на проде еще, проверяем разные образы и домены

Кстати. Запрос "Петр Первый".

Генерировал местным индонезам юзерпики для их клана в какой-то он-лайн игре через бот в ТГ. На всё про всё ушло 10 минут. Итоговые изображения прогнал через real-esrgan (рез нужен был 3000*3000 пикс). Получилось очень годно!

Условно: есть kandinsky для картинок, есть Gigachat для текста, есть аналоги - но не смог на сегодня найти совмещения обоих направлений, а именно генерации картинки с текстом на ней (например, рекламных баннеров) или текста с иллюстрациями. Плохо искал / сложная задача / узкая задача / слишком просто / другое?

UFO just landed and posted this here

Почему на rudalle.ru/kandinsky2 доступны далеко не все стилевые пресеты для генерации, в отличие от FusionBrain? Нет аниме, детального фото, киберпанка. По сравнению с телеграм-ботом - нет artstation и 4k (кстати, каковы их аналоги на FusionBrain?).

вижу, что в FusionBrain кое что доработали. А подскажите, где можно следить за информацией по обновлениям. доработкам и новостям по Кандинскому

Да проблемы с генерацией всё же есть. Когда пишу в prompt, full body, то начинается искажение лиц, пальцев. И то бывает их 6 штук. Надеюсь лица и анатомию исправят. И думаю в будущем, будем на картинке нормально отображаться текст, вполне читабельный. Как это допустим на Dall-e 2.

Как я понял, "в любом непонятном случае (с оружием) - ставь цветочки". Но при этом цветочки не генерятся, а вставляются несколько одних и тех же из набора. Хоть бы в телеграмм боте об этом предупреждали...

Sign up to leave a comment.