Как стать автором
Обновить

Kandinsky 2.0 — первая мультиязычная диффузия для генерации изображений по тексту

Время на прочтение7 мин
Количество просмотров46K
Всего голосов 32: ↑29 и ↓3+33
Комментарии18

Комментарии 18

Не работает модель на HuggingFace

Добрый день! Попробуйте запустить этот colab, тут автоматически происходит загрузка весов из HuggingFace.

Почему вы хвалитесь количеством поддерживаемых языков, а не качеством изображений? Гугл переводчик справится с поддержкой языков и без вас.
Налицо плохая архитектура с странной расширяемостью?

Не, в конце статьи видно, что генерация чувствительна к языку ввода, при машинном переводе это бы потерялось. Так что что-то в этом есть.

вот только не показали как различается в зависимости от языка ввода результат на обычных запросах, не связанных с традициями и прочим языковым

А если у моноязычной text-to-image сети чуть уточнить запрос, к примеру "Фото московского грабителя", либо "русское национальное блюдо", разве мы не получим изображения в нужном этническом контексте?

публикация уже ожидается на эту тему довольно интересная, где нейросети разных языковых групп будут иметь свои же искажения, как средний гражданин этой массовой культуры. Что-то типа шарикова может обнаружиться, там где мы не ждали

Самое интересное, что Стабл Диффьюжн тоже умеет в языки. По крайней мере, мне https://replicate.com/stability-ai/stable-diffusion по breakfast и 朝食 (asagohan, утренний приём пищи по японски) выдал две разных вещи -
https://postimg.cc/9wZLzczp
https://postimg.cc/CZ5JkGzd

по запросу : компания мальчишек идет по железной дороге, вокруг лето, один из мальчиков раскинув руки идет по рельсу как канатоходец, летний пейзаж, в художественном стиле имажинистов

миджорни через бота в дискорде мне выдало вот эти варианты
https://postimg.cc/R6GdD148
https://postimg.cc/nsJ1VSLg

кандинский 2 на тот же запрос выдал вот это
https://postimg.cc/2V3YT2rs

без выводов

каждый раз поражает, когда нейронка пытается подставить еще и тени.

То есть - она бывает угадывает, бывает - промахивается, но само вот это намерение - "тут добавить тень", это для меня лично очень поразительно!

Всё соответствует ТЗ, только остальных мальчишек и ноги первого увез паровозик.

А вывод простой. Видимо обучен, что гулять по путям - опасно для жизни.

Stable Diffusion

Тем временем 5 часов назад вышла Stable Diffusion 2.0. Пока примеры поражают, самая крутая Text-to-Image что я видел.

image1

image2

На самом деле она не так чтобы сильно продвинулась вперед. Из хорошего - новые модели deep2img и text guided upscale, 768x768 вместо 512х512. Из плохого - основательно порезанный датасет, убраны celebrity, современные художники, nsfw.
В результате фотографии животных, домиков и машинок рисует лучше, людей - примерно также или хуже. Арты сильно хуже. Понимание кто на ком стоит улучшилось не сильно, лошадь едущую на астронавте по прежнему нормально не может нарисовать.
Сейчас из доступных сетей наиболее продвинутой выглядит midjourney v4, хотя кастомные модели на основе sd могут превосходить mj в своих областях. Через месяц посмотрим что будет, когда энтузиасты дообучат sd2, потенциал у нее есть.

Да, выпил художников, это наверное самое печальное, что сделали разработчики.

Миджорни, к слову, тоже работает на SD с файнтюном и сахаром в запросах.

НЛО прилетело и опубликовало эту надпись здесь

Куда хуже прошлой модели.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий