Comments 69

Нажмите, пожалуйста, на кнопку "редактировать изображение" снизу
Похоже, вы просто не были в режиме редактирования, внизу есть кнопка "отредактировать изображение" - и сам Гигачат тоже такое предлагает, а у вас на скриншоте почему-то такого не вижу
У меня получилось сделать вашу картинку реалистичной с первого раза:


Разумеется я нажал на "редактировать", хотя это ни на что и не влияет. А вот вы похоже давно не выходили на улицу, раз совсем забыли, как выглядят реальные люди. В целом от вашего ответа осталось такое противное чувство зловещей долины, словно со службой поддержки пообщался. Не надо так.
Почему у вас "самая красивая девушка" - это китаянка с раскосыми глазами? За базу взят qwen или deepseek? 😁
Не могу найти Мальвину на huggingface! И на civitai тоже :)
Зато её можно найти в tg-боте GigaChat 😀

Описанное как-то доступно в гигачате? Если просто попробовать фокусы из статьи то текущая версия вообще игнорирует приложенные изображения.
Пока доступно только в ТГ-боте Гигачата, пожалуйста проследуйте туда - всё отлично работает

ChatGPT, кстати, в чате справляется. Но картинку, конечно, перерисовывает 😂

Нууу... Такое себе. Из 5 попыток не поменяла что-то еще только 1 раз, и то частично...

Оригинал

Результаты (подписи к картинкам - промпт)





Вышел из режима редактирования и просто попросил

Да, вы абсолютно правы!
1. многосоставные запросы ("смени на борщ, добавь хлеб и стопку водки") пока даются модели очень тяжело, рекомендуем разбить их на одиночные операции и применить по очереди.
2. добавление и замена - очень сложные для моделей операции, пока наша модель может добавлять достаточно примитивные, универсальные объекты (н., яблоко, чашка, ваза цветов) - красиво внедрять специфику вроде региональных кулинарных блюд модель ещё не осиливает, но мы активно работаем над этим.
Итого, фишка нашей модели - именно попиксельность: внедрение концепций может и не супер-сложных, но сохраняющих не затрагиваемые участки картинки. Примеров операций, в которых модель отрабатывает хорошо, множество и в статье, и в комментарии чуть выше вашего.
Если же вам сложная и специфичная генерация гораздо важнее сохранения частей изображения, то конечно лучше обратиться к генеративке без режима редактирования
Ничего не знаю, но это пока самое крутое из AI, что делала команда сбера.
А чем уж так ценнен pixel perfect, что его нужно обеспечивать в модели? Меня вот например бесит, что при изменениях я хочу откатить -- без всякого ИИ -- какой-то участок изображения, который по моему мнению ИИ изменил неправильно. Но в простых интерфейсах это не предусмотрено.
>Ничего больше. Никаких точек, масок
а хочется. Если нужно "посади женщину на этот стул", а стульев на картинке 7, то описывать словами может оказаться и дольше.
Конечно, для каждой задачи есть свой инструмент.
Pixel perfect сохраняет любые мелкие детали, которые могут быть важны: лица, памятники архитектуры, значки - да и любые другие важные элементы, которые прочий ИИ бы перерисовал, хотим мы того или нет.
В статье представлен значительный список случаев, когда как раз pixel perfect очень важен.
Если pixel perfect, наоборот, вообще не важен, то конечно авторегрессионные редакторы дадут лучшие результаты по исполнительности и эстетике.
Про точки и маски тоже зависит от задачи. Например, если нужно удалить забор, или разбросанный мусор, или мелкие силуэты людей на заднем фоне - то выделять все эти мелкие элементы масками нереально сложно.
Для теста сейчас закинул фотку и попросил сделать фото на паспорт.
Спорить не буду. GigaChat реально сделал это хорошо. Лицо абсолютно не изменилось. ЧатГпт, Гемини искажают черты лица.
Потом стал играться с цветом рубашки, лакшерностью пиджака и уже к 4 итерации лицо превратилось в нечто непонятное.
Перечитал статью и нашёл дисклеймер, что всё-таки не пиксельная точность в вашей модели. Ну да ладно. Всё равно молодцы.
Почему пятилапый крокодил с добавлением брони превращается в неправильного четырёхлапого?
У вас очень круто (без сарказма) отработал алгоритм, который редактирует изображения. Итак, две картинки:
Первая

Даём команду "Удали одного слона"
Вторая

А теперь ложка дёгтя - промпт для первой картинки:
нарисуй картинку, на которой нет слонов
нарисуй картинку, на которой нет слонов
У text-to-image обычно два промпта:
Где вы описываете что хотите видеть
Негативный промпт - что не должно быть на изображении
Вы указали основной промпт. Там отрицание не работает. Для этого негативный промпт надо использовать.
Если интерфейсно к нему доступа не дали, то се ля ви.
По моему опыту, Gemini сильно хуже редактирует изображения при запросах на русском языке, в том числе тупо впечатывает запрос на саму картинку как показано в статье. У вас получается несправедливое сравнение.
на момент написания статьи Google убрал доступ к функции редактирования — теперь достучаться можно только через API
Еще работает в AI Studio при заходе с IP США.
Почему же несправедливое?
Модели ведь работают не со словами языков непосредственно, а с их эмбеддингами в латентном пространстве, которое для всех языков едино.
Gemini - крупная мультимодальная многоязыковая модель, она отлично понимает русский и общается на нём. К тому же, пользователям GigaChat гораздо проще работать на родном языке, так что сравниваться на русском вполне нормально.
Более того, Malvina и на английском хорошо понимает инструкции, не хуже русского, попробуйте сами.
Почему же несправедливое?
Потому же, почему было бы смешно, если бы в СССР притащили суперкар и сравнили с Победой, заправляя обе 80м бензином ("у нас же все на нем ездят")
Модели ведь работают не со словами языков непосредственно, а с их эмбеддингами в латентном пространстве, которое для всех языков едино.
Это никак не отменяет того, что производительность модели на разных языках может быть разная. Вы всерьез заявляете, что все модели на всех языках справляются одинаково хорошо?
Gemini - крупная мультимодальная многоязыковая модель, она отлично понимает русский и общается на нём.
Мы тут говорим не про крупную Pro, а про быструю Gemini 2.0 Flash, и не про общение на русском, а про генерацию изображений. Вы утверждаете, что с русским она генерирует изображения не хуже, чем с английском?
К тому же, пользователям GigaChat гораздо проще работать на родном языке, так что сравниваться на русском вполне нормально.
Если качество на русском сломано, то в чем смысл такого сравнения? Можно тогда сравнить с моделью, которая вообще по-русски не понимает и заявить о победе с сухим счетом.
Более того, Malvina и на английском хорошо понимает инструкции, не хуже русского, попробуйте сами.
Я бы попробовал, но лично мне не хочется логиниться в сервис картиночек ключем от квартиры где деньги лежат.
Если что, я вашу работу поддерживаю и желаю успехов. Но вот такие сравнения вряд ли идут на пользу. В случае текстовых моделей, когда вы считали бенчи на русском, это могло быть справедливо для тех, кому надо русский, раз уж модели как-то справлялись. Но по сравнению с английским, генерация картинок Gemini Flash на русском по сути сломана.
Хорошо, если вы считаете наиболее честным сравнение на английском, то в статье ключевой метрикой мы представили VLM-score.
Метрика эта полностью считалась на английских инструкциях: Malvina показала результаты на голову выше open-source моделей и немного выше ключевых конкурентов, включая Gemini.
Не справляется с заменой текста на картинках, вместо этого врисовывает какую-то нечитаемую мешанину.
Изначальная картинка

Результат замены

А статья на архив планируется?














Как сделать откат на шаг назад?
Вот не получилось ничего, переделка всё портит, а если бы с предыдущего шага другим промптом попробовать? Пока приходится каждый раз пересохранять, перестартовывать диалог и переотсылать одну и ту же картинку снова и снова.
Чот пока нет. Поигрался с парой картинок, единственный удачный кейс - удалить фон.

Странно, у меня с первого раз очень даже неплохо получилось, держите:

Конечно, не всегда получается с первого, второго или даже третьего раза, так уж устроены модели, пока никто в мире не придумал, как сделать их консистентнее(
Поэтому пробуйте по нескольку раз, может с немного разными формулировками, - и всё обязательно выйдет!
Скажите, а так и на авто.ру можно фото отредактировать, правда?


Ну тут и файлы можно не прикладывать, и так видно, что перестаралась Мальвина.

А я уже хотел поверить в чудо и прорывной прорыв, но нет...
Хорошую нейросеть вы сделали, но пока ни одно средство не справилось с раскрашиванием этой фотографии...

Попытка 1

Попытка 2

Попытка 3

Не зря специалисты по фоторетуши берут деньги за свою работу:)
Используя 15 попыток, пришел к методу покраски используя команды "Раскрась [имя объекта] в [цвет]" для каждого объекта.
Результат

Протестировал Gemini, справился он хуже, помимо пониженного разрешения удалил детали на фото и изменил лицо. Использовал тоже метод "Раскрась [имя объекта] в [цвет]"
Результат 1

Результат 2

А есть такое же, но для компьютерного Веб-браузера?
Как всегда, в статье приведены самые удачные генерации, а когда сам пробуешь - ловишь кринж:)
Ну, если быть совсем честным, я когда собирал картинки для статьи, брал результаты по 1-2 генерациям, не более. Кроме того, полный СБС в статье доступен по ссылке, более 1100 сравнений, вручную отобрать только лучшее там в принципе нереально)
А в последних параграфах статьи написал, почему это нормально, что у нейросетей часто не получается решать с первого раза, и почему стоит пробовать 2-3-5 раз, разбивать инструкцию на более простые, ограничиваться хорошо работающими сценариями, и т.п.
Вот старались, делали статью, а пятилапый крокодил всё испортил :)) а я то ждал пятилапого крокодила, закованного в броню, pixel perfect же! Скажите честно, мухлевали слегка?:)
"Попиксельное редактирование должно затрагивать только указанные в инструкции участки, остальное оставляя неизменным." (с) над картинкой с крокодилом

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью