Комментарии 18
Не работает модель на HuggingFace
Почему вы хвалитесь количеством поддерживаемых языков, а не качеством изображений? Гугл переводчик справится с поддержкой языков и без вас.
Налицо плохая архитектура с странной расширяемостью?
Не, в конце статьи видно, что генерация чувствительна к языку ввода, при машинном переводе это бы потерялось. Так что что-то в этом есть.
вот только не показали как различается в зависимости от языка ввода результат на обычных запросах, не связанных с традициями и прочим языковым
А если у моноязычной text-to-image сети чуть уточнить запрос, к примеру "Фото московского грабителя", либо "русское национальное блюдо", разве мы не получим изображения в нужном этническом контексте?
публикация уже ожидается на эту тему довольно интересная, где нейросети разных языковых групп будут иметь свои же искажения, как средний гражданин этой массовой культуры. Что-то типа шарикова может обнаружиться, там где мы не ждали
Самое интересное, что Стабл Диффьюжн тоже умеет в языки. По крайней мере, мне https://replicate.com/stability-ai/stable-diffusion по breakfast и 朝食 (asagohan, утренний приём пищи по японски) выдал две разных вещи -
https://postimg.cc/9wZLzczp
https://postimg.cc/CZ5JkGzd
по запросу : компания мальчишек идет по железной дороге, вокруг лето, один из мальчиков раскинув руки идет по рельсу как канатоходец, летний пейзаж, в художественном стиле имажинистов
миджорни через бота в дискорде мне выдало вот эти варианты
https://postimg.cc/R6GdD148
https://postimg.cc/nsJ1VSLg
кандинский 2 на тот же запрос выдал вот это
https://postimg.cc/2V3YT2rs
без выводов
каждый раз поражает, когда нейронка пытается подставить еще и тени.
То есть - она бывает угадывает, бывает - промахивается, но само вот это намерение - "тут добавить тень", это для меня лично очень поразительно!
Всё соответствует ТЗ, только остальных мальчишек и ноги первого увез паровозик.
А вывод простой. Видимо обучен, что гулять по путям - опасно для жизни.
Stable Diffusion
Тем временем 5 часов назад вышла Stable Diffusion 2.0. Пока примеры поражают, самая крутая Text-to-Image что я видел.
image1

image2
На самом деле она не так чтобы сильно продвинулась вперед. Из хорошего - новые модели deep2img и text guided upscale, 768x768 вместо 512х512. Из плохого - основательно порезанный датасет, убраны celebrity, современные художники, nsfw.
В результате фотографии животных, домиков и машинок рисует лучше, людей - примерно также или хуже. Арты сильно хуже. Понимание кто на ком стоит улучшилось не сильно, лошадь едущую на астронавте по прежнему нормально не может нарисовать.
Сейчас из доступных сетей наиболее продвинутой выглядит midjourney v4, хотя кастомные модели на основе sd могут превосходить mj в своих областях. Через месяц посмотрим что будет, когда энтузиасты дообучат sd2, потенциал у нее есть.
Куда хуже прошлой модели.
Kandinsky 2.0 — первая мультиязычная диффузия для генерации изображений по тексту