georfed May 29 at 07:57

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Medium

19 min

11K

Сбер corporate blogSberDevices corporate blogMachine learning*Artificial IntelligenceImage processing*

+66

Comments 69

nin-jin May 29 at 08:26

Казалось бы, изменение стиля - самая простая задача для нейронки.

georfed May 29 at 08:53

Нажмите, пожалуйста, на кнопку "редактировать изображение" снизу
Похоже, вы просто не были в режиме редактирования, внизу есть кнопка "отредактировать изображение" - и сам Гигачат тоже такое предлагает, а у вас на скриншоте почему-то такого не вижу
У меня получилось сделать вашу картинку реалистичной с первого раза:

nin-jin May 29 at 09:02

Разумеется я нажал на "редактировать", хотя это ни на что и не влияет. А вот вы похоже давно не выходили на улицу, раз совсем забыли, как выглядят реальные люди. В целом от вашего ответа осталось такое противное чувство зловещей долины, словно со службой поддержки пообщался. Не надо так.

Arlekcangp May 30 at 02:21

Почему у вас "самая красивая девушка" - это китаянка с раскосыми глазами? За базу взят qwen или deepseek? 😁

Antimatter Jul 16 at 13:18

Тоже подумал об этом же, кареглазая раскосоглазая китаянка эталон красоты... Остановите землю я сойду.

jetnet May 29 at 08:35

Не могу найти Мальвину на huggingface! И на civitai тоже :)

georfed May 29 at 08:40

Зато её можно найти в tg-боте GigaChat 😀

jetnet May 29 at 19:57

Попробовал - немного мажет с попиклельным редактированием.
(Оригинал, думаю, все помнят?)

Sora отказалась работать с этой картинкой.

А Flux, ничё, очень постарался:

BazilioMike Jul 21 at 23:34

А на самом сайте GigaChat её нет, удивительно, почему все в «Телеграме».

grigoryvp May 29 at 08:54

Описанное как-то доступно в гигачате? Если просто попробовать фокусы из статьи то текущая версия вообще игнорирует приложенные изображения.

georfed May 29 at 08:55

Пока доступно только в ТГ-боте Гигачата, пожалуйста проследуйте туда - всё отлично работает

grigoryvp May 29 at 08:59

Мда. С крокодилом, конечно, справилось лучше 😳 Ниже пример от ChatGPT. Которая перерисовала изображение, но с задачей справилась.

grigoryvp May 29 at 08:56

ChatGPT, кстати, в чате справляется. Но картинку, конечно, перерисовывает 😂

oulenspiegel May 29 at 08:59

Antimatter Jul 16 at 13:21

Удали очки просто жесть

BazilioMike Jul 21 at 23:38

Вообще ужас, у зарубежных лучше редактирует, что в Copilot, что в Grok 3 и Gemini Imagen 4.

Byaka8kaka May 29 at 09:43

Нууу... Такое себе. Из 5 попыток не поменяла что-то еще только 1 раз, и то частично...

oulenspiegel May 29 at 09:51

А пришлите исходную фотку

bugurshik May 29 at 10:04

averkij May 29 at 14:25

qyix7z May 29 at 13:49

Оригинал

Результаты (подписи к картинкам - промпт)

замени окрошку на борщ. добавь рядом рюмку водки и черный хлеб

отвратительно. это не похоже на борщ вообще

Вышел из режима редактирования и просто попросил

georfed May 29 at 14:31

Да, вы абсолютно правы!
1. многосоставные запросы ("смени на борщ, добавь хлеб и стопку водки") пока даются модели очень тяжело, рекомендуем разбить их на одиночные операции и применить по очереди.
2. добавление и замена - очень сложные для моделей операции, пока наша модель может добавлять достаточно примитивные, универсальные объекты (н., яблоко, чашка, ваза цветов) - красиво внедрять специфику вроде региональных кулинарных блюд модель ещё не осиливает, но мы активно работаем над этим.

Итого, фишка нашей модели - именно попиксельность: внедрение концепций может и не супер-сложных, но сохраняющих не затрагиваемые участки картинки. Примеров операций, в которых модель отрабатывает хорошо, множество и в статье, и в комментарии чуть выше вашего.
Если же вам сложная и специфичная генерация гораздо важнее сохранения частей изображения, то конечно лучше обратиться к генеративке без режима редактирования

qyix7z May 30 at 05:23

Ок. Упростил запрос

Замени окрошку на борщ

Замени на борщ

Для каждого запроса было сначала:

Перезапустить диалог
Редактирование картинок
Загрузка оригинала

ЧЯДНТ?

nedurov May 29 at 15:27

Ничего не знаю, но это пока самое крутое из AI, что делала команда сбера.

alliumnsk May 29 at 16:11

А чем уж так ценнен pixel perfect, что его нужно обеспечивать в модели? Меня вот например бесит, что при изменениях я хочу откатить -- без всякого ИИ -- какой-то участок изображения, который по моему мнению ИИ изменил неправильно. Но в простых интерфейсах это не предусмотрено.

>Ничего больше. Никаких точек, масок

а хочется. Если нужно "посади женщину на этот стул", а стульев на картинке 7, то описывать словами может оказаться и дольше.

georfed May 29 at 16:37

Конечно, для каждой задачи есть свой инструмент.
Pixel perfect сохраняет любые мелкие детали, которые могут быть важны: лица, памятники архитектуры, значки - да и любые другие важные элементы, которые прочий ИИ бы перерисовал, хотим мы того или нет.
В статье представлен значительный список случаев, когда как раз pixel perfect очень важен.

Если pixel perfect, наоборот, вообще не важен, то конечно авторегрессионные редакторы дадут лучшие результаты по исполнительности и эстетике.

Про точки и маски тоже зависит от задачи. Например, если нужно удалить забор, или разбросанный мусор, или мелкие силуэты людей на заднем фоне - то выделять все эти мелкие элементы масками нереально сложно.

ReinRaus May 29 at 16:48

Для теста сейчас закинул фотку и попросил сделать фото на паспорт.

Спорить не буду. GigaChat реально сделал это хорошо. Лицо абсолютно не изменилось. ЧатГпт, Гемини искажают черты лица.

Потом стал играться с цветом рубашки, лакшерностью пиджака и уже к 4 итерации лицо превратилось в нечто непонятное.

Перечитал статью и нашёл дисклеймер, что всё-таки не пиксельная точность в вашей модели. Ну да ладно. Всё равно молодцы.

georfed May 29 at 16:56

Спасибо за отзыв)
Да, минус диффузии в том, что она неизбежно оставляет остаточный шум, и в цепочке из множества операций он потихоньку копится, с этим пока ничего не поделаешь...

ReinRaus May 29 at 16:59

Почему пятилапый крокодил с добавлением брони превращается в неправильного четырёхлапого?

georfed May 29 at 17:01

(он просто лапу под доспех спрятал)

А так это просто абстрактный пример, образно иллюстрирует отличие (практически) попиксельного подхода от "рисования по мотивам"

konst90 May 29 at 17:39

У вас очень круто (без сарказма) отработал алгоритм, который редактирует изображения. Итак, две картинки:

Первая

Даём команду "Удали одного слона"

Вторая

А теперь ложка дёгтя - промпт для первой картинки:

нарисуй картинку, на которой нет слонов

PrinceKorwin May 30 at 06:41

нарисуй картинку, на которой нет слонов

У text-to-image обычно два промпта:

Где вы описываете что хотите видеть
Негативный промпт - что не должно быть на изображении

Вы указали основной промпт. Там отрицание не работает. Для этого негативный промпт надо использовать.

Если интерфейсно к нему доступа не дали, то се ля ви.

combo_breaker May 29 at 19:26

По моему опыту, Gemini сильно хуже редактирует изображения при запросах на русском языке, в том числе тупо впечатывает запрос на саму картинку как показано в статье. У вас получается несправедливое сравнение.

на момент написания статьи Google убрал доступ к функции редактирования — теперь достучаться можно только через API

Еще работает в AI Studio при заходе с IP США.

georfed May 30 at 04:20

Почему же несправедливое?
Модели ведь работают не со словами языков непосредственно, а с их эмбеддингами в латентном пространстве, которое для всех языков едино.
Gemini - крупная мультимодальная многоязыковая модель, она отлично понимает русский и общается на нём. К тому же, пользователям GigaChat гораздо проще работать на родном языке, так что сравниваться на русском вполне нормально.
Более того, Malvina и на английском хорошо понимает инструкции, не хуже русского, попробуйте сами.

combo_breaker May 30 at 09:21

Почему же несправедливое?

Потому же, почему было бы смешно, если бы в СССР притащили суперкар и сравнили с Победой, заправляя обе 80м бензином ("у нас же все на нем ездят")

Модели ведь работают не со словами языков непосредственно, а с их эмбеддингами в латентном пространстве, которое для всех языков едино.

Это никак не отменяет того, что производительность модели на разных языках может быть разная. Вы всерьез заявляете, что все модели на всех языках справляются одинаково хорошо?

Gemini - крупная мультимодальная многоязыковая модель, она отлично понимает русский и общается на нём.

Мы тут говорим не про крупную Pro, а про быструю Gemini 2.0 Flash, и не про общение на русском, а про генерацию изображений. Вы утверждаете, что с русским она генерирует изображения не хуже, чем с английском?

К тому же, пользователям GigaChat гораздо проще работать на родном языке, так что сравниваться на русском вполне нормально.

Если качество на русском сломано, то в чем смысл такого сравнения? Можно тогда сравнить с моделью, которая вообще по-русски не понимает и заявить о победе с сухим счетом.

Более того, Malvina и на английском хорошо понимает инструкции, не хуже русского, попробуйте сами.

Я бы попробовал, но лично мне не хочется логиниться в сервис картиночек ключем от квартиры где деньги лежат.

Если что, я вашу работу поддерживаю и желаю успехов. Но вот такие сравнения вряд ли идут на пользу. В случае текстовых моделей, когда вы считали бенчи на русском, это могло быть справедливо для тех, кому надо русский, раз уж модели как-то справлялись. Но по сравнению с английским, генерация картинок Gemini Flash на русском по сути сломана.

georfed May 30 at 10:29

Хорошо, если вы считаете наиболее честным сравнение на английском, то в статье ключевой метрикой мы представили VLM-score.
Метрика эта полностью считалась на английских инструкциях: Malvina показала результаты на голову выше open-source моделей и немного выше ключевых конкурентов, включая Gemini.

combo_breaker May 30 at 11:13

Верю, что примерно равны с Gemini. А то, насколько Gemini вышел ужасен на SBS показывает, насколько не нужен такой SBS.

А так, вы молодцы 🤗

Mingun May 29 at 19:28

Не справляется с заменой текста на картинках, вместо этого врисовывает какую-то нечитаемую мешанину.

Изначальная картинка

Результат замены

Промпт: Замени надпись на дощечке на «Ктолли»

oulenspiegel May 29 at 20:11

Тексты генерировать пока не умеет, да. В будущем научим

DespInding May 29 at 19:49

А статья на архив планируется?

hukenovs May 29 at 20:58

Да, команда работает над публикацией.

z0tedd May 29 at 21:39

Необходимо добавить на фон незаметно глубинных(THE DEEP ONE's)

Добавь фильтр. Необходимо сделать фото в стилистике звездных войн

Измени свет на фото так, чтобы фон и перед сочетались

qyix7z May 30 at 03:59

На первой фотке, с очками, Вы что хотели от ИИ? Какой промпт?

ITMatika May 30 at 06:14

Как сделать откат на шаг назад?
Вот не получилось ничего, переделка всё портит, а если бы с предыдущего шага другим промптом попробовать? Пока приходится каждый раз пересохранять, перестартовывать диалог и переотсылать одну и ту же картинку снова и снова.

oulenspiegel May 30 at 06:31

Пока да, нет такой возможности — сделаем обязательно. Пока что только заново загружать предыдущую версию картинки

nin-jin May 30 at 08:41

Давайте я вам лучше сделаю нормальный Web UI, чтобы вы пользователей чатботами не мучали.

Rikhmayer May 30 at 08:45

Чот пока нет. Поигрался с парой картинок, единственный удачный кейс - удалить фон.

georfed May 30 at 08:52

Странно, у меня с первого раз очень даже неплохо получилось, держите:

Конечно, не всегда получается с первого, второго или даже третьего раза, так уж устроены модели, пока никто в мире не придумал, как сделать их консистентнее(
Поэтому пробуйте по нескольку раз, может с немного разными формулировками, - и всё обязательно выйдет!

Rikhmayer May 30 at 09:45

Значыительно лучше, хоти и не идеально. Но что-то странным кажется, если такой разный результат бывает из-за того, что шум для генерации другой. А запрос у вас какой был?

georfed May 30 at 10:01

PPRT_E May 30 at 10:13

Скажите, а так и на авто.ру можно фото отредактировать, правда?

G-rave May 30 at 12:41

georfed May 30 at 12:46

Вы не зашли в функцию редактирования, нужно нажать на кнопку "редактировать изображение" в меню снизу.
Вот что у меня вышло с первого раза:

G-rave May 30 at 12:49

Да, сори, мой косяк

Разобрался и... ВАУ!!

DadOfStarlings Jun 2 at 11:49

Ну тут и файлы можно не прикладывать, и так видно, что перестаралась Мальвина.

d_tylnyi Jun 2 at 11:50

А я уже хотел поверить в чудо и прорывной прорыв, но нет...

fe_nik_s Jun 2 at 11:51

Хорошую нейросеть вы сделали, но пока ни одно средство не справилось с раскрашиванием этой фотографии...

Попытка 1

Попытка 2

Попытка 3

Smartor Jun 3 at 14:36

Не зря специалисты по фоторетуши берут деньги за свою работу:)

fe_nik_s Jun 3 at 20:35

Используя 15 попыток, пришел к методу покраски используя команды "Раскрась [имя объекта] в [цвет]" для каждого объекта.

Результат

fe_nik_s Jun 4 at 06:39

Протестировал Gemini, справился он хуже, помимо пониженного разрешения удалил детали на фото и изменил лицо. Использовал тоже метод "Раскрась [имя объекта] в [цвет]"

Результат 1

Результат 2

fe_nik_s Jun 27 at 21:11

Flux справился лучше всех

Результат

restore the photo and color it. the photo shows spring, melted snow on the ground, a man in a soviet military uniform, houses with white walls

BOBAH1 Jun 3 at 12:33

А есть такое же, но для компьютерного Веб-браузера?

georfed Jun 4 at 12:05

Пока доступно только в тг-боте, но планируем и раскатить в веб

Smartor Jun 3 at 14:34

Как всегда, в статье приведены самые удачные генерации, а когда сам пробуешь - ловишь кринж:)

georfed Jun 4 at 12:10

Ну, если быть совсем честным, я когда собирал картинки для статьи, брал результаты по 1-2 генерациям, не более. Кроме того, полный СБС в статье доступен по ссылке, более 1100 сравнений, вручную отобрать только лучшее там в принципе нереально)

А в последних параграфах статьи написал, почему это нормально, что у нейросетей часто не получается решать с первого раза, и почему стоит пробовать 2-3-5 раз, разбивать инструкцию на более простые, ограничиваться хорошо работающими сценариями, и т.п.

Reknilb Jun 4 at 11:21

Вот старались, делали статью, а пятилапый крокодил всё испортил :)) а я то ждал пятилапого крокодила, закованного в броню, pixel perfect же! Скажите честно, мухлевали слегка?:)

"Попиксельное редактирование должно затрагивать только указанные в инструкции участки, остальное оставляя неизменным." (с) над картинкой с крокодилом

georfed Jun 4 at 12:11

Не волнуйтесь, он просто пятую лапу под броню спрятал)

PTM Jun 6 at 13:44

georfed Jun 6 at 15:10

Похоже, вы не вошли в режим редактирования - и гигачат просто перерисовал по мотивам, вообще не обращаясь к нашей модели. Для редактирования картинок нужно сперва нажать на кнопку "Редактирование картинок" снизу, в меню тг-бота