Razant 23 ноя 2022 в 17:30

Kandinsky 2.0 — первая мультиязычная диффузия для генерации изображений по тексту

7 мин

48K

Блог компании СберОбработка изображений*Машинное обучение*Научно-популярноеИскусственный интеллект

+33

Комментарии 18

381222 23 ноя 2022 в 19:05

Не работает модель на HuggingFace

Razant 23 ноя 2022 в 19:56

Добрый день! Попробуйте запустить этот colab, тут автоматически происходит загрузка весов из HuggingFace.

Kelbon 23 ноя 2022 в 22:25

Почему вы хвалитесь количеством поддерживаемых языков, а не качеством изображений? Гугл переводчик справится с поддержкой языков и без вас.
Налицо плохая архитектура с странной расширяемостью?

averkij 23 ноя 2022 в 22:45

Не, в конце статьи видно, что генерация чувствительна к языку ввода, при машинном переводе это бы потерялось. Так что что-то в этом есть.

Kelbon 23 ноя 2022 в 22:58

вот только не показали как различается в зависимости от языка ввода результат на обычных запросах, не связанных с традициями и прочим языковым

kryvichh 24 ноя 2022 в 02:06

А если у моноязычной text-to-image сети чуть уточнить запрос, к примеру "Фото московского грабителя", либо "русское национальное блюдо", разве мы не получим изображения в нужном этническом контексте?

shamash 24 ноя 2022 в 06:39

публикация уже ожидается на эту тему довольно интересная, где нейросети разных языковых групп будут иметь свои же искажения, как средний гражданин этой массовой культуры. Что-то типа шарикова может обнаружиться, там где мы не ждали

SailorLekalo 25 ноя 2022 в 11:18

Самое интересное, что Стабл Диффьюжн тоже умеет в языки. По крайней мере, мне https://replicate.com/stability-ai/stable-diffusion по breakfast и 朝食 (asagohan, утренний приём пищи по японски) выдал две разных вещи -
https://postimg.cc/9wZLzczp
https://postimg.cc/CZ5JkGzd

keydach555 23 ноя 2022 в 23:25

по запросу : компания мальчишек идет по железной дороге, вокруг лето, один из мальчиков раскинув руки идет по рельсу как канатоходец, летний пейзаж, в художественном стиле имажинистов

миджорни через бота в дискорде мне выдало вот эти варианты
https://postimg.cc/R6GdD148
https://postimg.cc/nsJ1VSLg

кандинский 2 на тот же запрос выдал вот это
https://postimg.cc/2V3YT2rs

без выводов

vassabi 24 ноя 2022 в 01:43

каждый раз поражает, когда нейронка пытается подставить еще и тени.

То есть - она бывает угадывает, бывает - промахивается, но само вот это намерение - "тут добавить тень", это для меня лично очень поразительно!

radtie 24 ноя 2022 в 15:19

Всё соответствует ТЗ, только остальных мальчишек и ноги первого увез паровозик.

starcs 25 ноя 2022 в 11:16

А вывод простой. Видимо обучен, что гулять по путям - опасно для жизни.

lozy_rc 24 ноя 2022 в 09:10

Stable Diffusion

Тем временем 5 часов назад вышла Stable Diffusion 2.0. Пока примеры поражают, самая крутая Text-to-Image что я видел.

image1

image2

Aniro 24 ноя 2022 в 14:44

На самом деле она не так чтобы сильно продвинулась вперед. Из хорошего - новые модели deep2img и text guided upscale, 768x768 вместо 512х512. Из плохого - основательно порезанный датасет, убраны celebrity, современные художники, nsfw.
В результате фотографии животных, домиков и машинок рисует лучше, людей - примерно также или хуже. Арты сильно хуже. Понимание кто на ком стоит улучшилось не сильно, лошадь едущую на астронавте по прежнему нормально не может нарисовать.
Сейчас из доступных сетей наиболее продвинутой выглядит midjourney v4, хотя кастомные модели на основе sd могут превосходить mj в своих областях. Через месяц посмотрим что будет, когда энтузиасты дообучат sd2, потенциал у нее есть.

Kristaller486 24 ноя 2022 в 18:46

Да, выпил художников, это наверное самое печальное, что сделали разработчики.

WaveCut 25 ноя 2022 в 16:18

Миджорни, к слову, тоже работает на SD с файнтюном и сахаром в запросах.

НЛО прилетело и опубликовало эту надпись здесь

Gero39 25 ноя 2022 в 12:09

Куда хуже прошлой модели.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий