Search
Write a publication
Pull to refresh

Comments 69

Нажмите, пожалуйста, на кнопку "редактировать изображение" снизу
Похоже, вы просто не были в режиме редактирования, внизу есть кнопка "отредактировать изображение" - и сам Гигачат тоже такое предлагает, а у вас на скриншоте почему-то такого не вижу
У меня получилось сделать вашу картинку реалистичной с первого раза:

Разумеется я нажал на "редактировать", хотя это ни на что и не влияет. А вот вы похоже давно не выходили на улицу, раз совсем забыли, как выглядят реальные люди. В целом от вашего ответа осталось такое противное чувство зловещей долины, словно со службой поддержки пообщался. Не надо так.

Почему у вас "самая красивая девушка" - это китаянка с раскосыми глазами? За базу взят qwen или deepseek? 😁

Тоже подумал об этом же, кареглазая раскосоглазая китаянка эталон красоты... Остановите землю я сойду.

Попробовал - немного мажет с попиклельным редактированием.
(Оригинал, думаю, все помнят?)


Sora отказалась работать с этой картинкой.

А Flux, ничё, очень постарался:

А на самом сайте GigaChat её нет, удивительно, почему все в «Телеграме».

Описанное как-то доступно в гигачате? Если просто попробовать фокусы из статьи то текущая версия вообще игнорирует приложенные изображения.

Мда. С крокодилом, конечно, справилось лучше 😳 Ниже пример от ChatGPT. Которая перерисовала изображение, но с задачей справилась.

ChatGPT, кстати, в чате справляется. Но картинку, конечно, перерисовывает 😂

Вообще ужас, у зарубежных лучше редактирует, что в Copilot, что в Grok 3 и Gemini Imagen 4.

Нууу... Такое себе. Из 5 попыток не поменяла что-то еще только 1 раз, и то частично...

Оригинал
Результаты (подписи к картинкам - промпт)
замени окрошку на борщ. добавь рядом рюмку водки и черный хлеб
замени окрошку на борщ. добавь рядом рюмку водки и черный хлеб
замени окрошку на борщ с пампушками
замени окрошку на борщ с пампушками
отвратительно. это не похоже на борщ вообще
отвратительно. это не похоже на борщ вообще
И давно в борще лапша?
И давно в борще лапша?
Ты уверен, что ты нарисовал борщ?
Ты уверен, что ты нарисовал борщ?
Вышел из режима редактирования и просто попросил
нарисуй тарелку борща
нарисуй тарелку борща

Да, вы абсолютно правы!
1. многосоставные запросы ("смени на борщ, добавь хлеб и стопку водки") пока даются модели очень тяжело, рекомендуем разбить их на одиночные операции и применить по очереди.
2. добавление и замена - очень сложные для моделей операции, пока наша модель может добавлять достаточно примитивные, универсальные объекты (н., яблоко, чашка, ваза цветов) - красиво внедрять специфику вроде региональных кулинарных блюд модель ещё не осиливает, но мы активно работаем над этим.

Итого, фишка нашей модели - именно попиксельность: внедрение концепций может и не супер-сложных, но сохраняющих не затрагиваемые участки картинки. Примеров операций, в которых модель отрабатывает хорошо, множество и в статье, и в комментарии чуть выше вашего.
Если же вам сложная и специфичная генерация гораздо важнее сохранения частей изображения, то конечно лучше обратиться к генеративке без режима редактирования

Ок. Упростил запрос

Замени окрошку на борщ
Замени на борщ

Для каждого запроса было сначала:

  • Перезапустить диалог

  • Редактирование картинок

  • Загрузка оригинала

ЧЯДНТ?

Ничего не знаю, но это пока самое крутое из AI, что делала команда сбера.

А чем уж так ценнен pixel perfect, что его нужно обеспечивать в модели? Меня вот например бесит, что при изменениях я хочу откатить -- без всякого ИИ -- какой-то участок изображения, который по моему мнению ИИ изменил неправильно. Но в простых интерфейсах это не предусмотрено.

>Ничего больше. Никаких точек, масок

а хочется. Если нужно "посади женщину на этот стул", а стульев на картинке 7, то описывать словами может оказаться и дольше.

Конечно, для каждой задачи есть свой инструмент.
Pixel perfect сохраняет любые мелкие детали, которые могут быть важны: лица, памятники архитектуры, значки - да и любые другие важные элементы, которые прочий ИИ бы перерисовал, хотим мы того или нет.
В статье представлен значительный список случаев, когда как раз pixel perfect очень важен.

Если pixel perfect, наоборот, вообще не важен, то конечно авторегрессионные редакторы дадут лучшие результаты по исполнительности и эстетике.

Про точки и маски тоже зависит от задачи. Например, если нужно удалить забор, или разбросанный мусор, или мелкие силуэты людей на заднем фоне - то выделять все эти мелкие элементы масками нереально сложно.

Для теста сейчас закинул фотку и попросил сделать фото на паспорт.

Спорить не буду. GigaChat реально сделал это хорошо. Лицо абсолютно не изменилось. ЧатГпт, Гемини искажают черты лица.

Потом стал играться с цветом рубашки, лакшерностью пиджака и уже к 4 итерации лицо превратилось в нечто непонятное.

Перечитал статью и нашёл дисклеймер, что всё-таки не пиксельная точность в вашей модели. Ну да ладно. Всё равно молодцы.

Спасибо за отзыв)
Да, минус диффузии в том, что она неизбежно оставляет остаточный шум, и в цепочке из множества операций он потихоньку копится, с этим пока ничего не поделаешь...

Почему пятилапый крокодил с добавлением брони превращается в неправильного четырёхлапого?

(он просто лапу под доспех спрятал)

А так это просто абстрактный пример, образно иллюстрирует отличие (практически) попиксельного подхода от "рисования по мотивам"

У вас очень круто (без сарказма) отработал алгоритм, который редактирует изображения. Итак, две картинки:

Первая

Даём команду "Удали одного слона"

Вторая

А теперь ложка дёгтя - промпт для первой картинки:

нарисуй картинку, на которой нет слонов

нарисуй картинку, на которой нет слонов

У text-to-image обычно два промпта:

  1. Где вы описываете что хотите видеть

  2. Негативный промпт - что не должно быть на изображении

Вы указали основной промпт. Там отрицание не работает. Для этого негативный промпт надо использовать.

Если интерфейсно к нему доступа не дали, то се ля ви.

По моему опыту, Gemini сильно хуже редактирует изображения при запросах на русском языке, в том числе тупо впечатывает запрос на саму картинку как показано в статье. У вас получается несправедливое сравнение.

на момент написания статьи Google убрал доступ к функции редактирования — теперь достучаться можно только через API

Еще работает в AI Studio при заходе с IP США.

Почему же несправедливое?
Модели ведь работают не со словами языков непосредственно, а с их эмбеддингами в латентном пространстве, которое для всех языков едино.
Gemini - крупная мультимодальная многоязыковая модель, она отлично понимает русский и общается на нём. К тому же, пользователям GigaChat гораздо проще работать на родном языке, так что сравниваться на русском вполне нормально.
Более того, Malvina и на английском хорошо понимает инструкции, не хуже русского, попробуйте сами.

Почему же несправедливое?

Потому же, почему было бы смешно, если бы в СССР притащили суперкар и сравнили с Победой, заправляя обе 80м бензином ("у нас же все на нем ездят")

Модели ведь работают не со словами языков непосредственно, а с их эмбеддингами в латентном пространстве, которое для всех языков едино.

Это никак не отменяет того, что производительность модели на разных языках может быть разная. Вы всерьез заявляете, что все модели на всех языках справляются одинаково хорошо?

Gemini - крупная мультимодальная многоязыковая модель, она отлично понимает русский и общается на нём.

Мы тут говорим не про крупную Pro, а про быструю Gemini 2.0 Flash, и не про общение на русском, а про генерацию изображений. Вы утверждаете, что с русским она генерирует изображения не хуже, чем с английском?

К тому же, пользователям GigaChat гораздо проще работать на родном языке, так что сравниваться на русском вполне нормально.

Если качество на русском сломано, то в чем смысл такого сравнения? Можно тогда сравнить с моделью, которая вообще по-русски не понимает и заявить о победе с сухим счетом.

Более того, Malvina и на английском хорошо понимает инструкции, не хуже русского, попробуйте сами.

Я бы попробовал, но лично мне не хочется логиниться в сервис картиночек ключем от квартиры где деньги лежат.

Если что, я вашу работу поддерживаю и желаю успехов. Но вот такие сравнения вряд ли идут на пользу. В случае текстовых моделей, когда вы считали бенчи на русском, это могло быть справедливо для тех, кому надо русский, раз уж модели как-то справлялись. Но по сравнению с английским, генерация картинок Gemini Flash на русском по сути сломана.

Хорошо, если вы считаете наиболее честным сравнение на английском, то в статье ключевой метрикой мы представили VLM-score.
Метрика эта полностью считалась на английских инструкциях: Malvina показала результаты на голову выше open-source моделей и немного выше ключевых конкурентов, включая Gemini.

Верю, что примерно равны с Gemini. А то, насколько Gemini вышел ужасен на SBS показывает, насколько не нужен такой SBS.

А так, вы молодцы 🤗

Не справляется с заменой текста на картинках, вместо этого врисовывает какую-то нечитаемую мешанину.

Изначальная картинка
Изначальная картинка
Изначальная картинка
Результат замены
Промпт: Замени надпись на дощечке на «Ктолли»
Промпт: Замени надпись на дощечке на «Ктолли»

Тексты генерировать пока не умеет, да. В будущем научим

Да, команда работает над публикацией.

Измененное изображение
Измененное изображение
Оригинал
Оригинал
Измененное изображение
Измененное изображение
Ориг
Ориг
Измененное изображение
Измененное изображение
Ориг
Ориг
Ориг
Ориг
Необходимо добавить на фон незаметно глубинных(THE DEEP ONE's)
Необходимо добавить на фон незаметно глубинных(THE DEEP ONE's)
Добавь темные тучи
Добавь темные тучи
ориг
ориг
Добавь фильтр. Необходимо сделать фото в стилистике звездных войн
Добавь фильтр. Необходимо сделать фото в стилистике звездных войн
Измени фон на Венецию
Измени фон на Венецию
Измени свет на фото так, чтобы фон и перед сочетались
Измени свет на фото так, чтобы фон и перед сочетались

На первой фотке, с очками, Вы что хотели от ИИ? Какой промпт?

Как сделать откат на шаг назад?
Вот не получилось ничего, переделка всё портит, а если бы с предыдущего шага другим промптом попробовать? Пока приходится каждый раз пересохранять, перестартовывать диалог и переотсылать одну и ту же картинку снова и снова.

Пока да, нет такой возможности — сделаем обязательно. Пока что только заново загружать предыдущую версию картинки

Давайте я вам лучше сделаю нормальный Web UI, чтобы вы пользователей чатботами не мучали.

Чот пока нет. Поигрался с парой картинок, единственный удачный кейс - удалить фон.

Странно, у меня с первого раз очень даже неплохо получилось, держите:

Конечно, не всегда получается с первого, второго или даже третьего раза, так уж устроены модели, пока никто в мире не придумал, как сделать их консистентнее(
Поэтому пробуйте по нескольку раз, может с немного разными формулировками, - и всё обязательно выйдет!

Значыительно лучше, хоти и не идеально. Но что-то странным кажется, если такой разный результат бывает из-за того, что шум для генерации другой. А запрос у вас какой был?

Скажите, а так и на авто.ру можно фото отредактировать, правда?

Вы не зашли в функцию редактирования, нужно нажать на кнопку "редактировать изображение" в меню снизу.
Вот что у меня вышло с первого раза:

Да, сори, мой косяк

Разобрался и... ВАУ!!

Ну тут и файлы можно не прикладывать, и так видно, что перестаралась Мальвина.

А я уже хотел поверить в чудо и прорывной прорыв, но нет...

Хорошую нейросеть вы сделали, но пока ни одно средство не справилось с раскрашиванием этой фотографии...

Оригинал
Оригинал
Попытка 1
Раскрась фото
Раскрась фото
Попытка 2
Раскрась фото
Раскрась фото
Попытка 3
Раскрась фото
Раскрась фото

Не зря специалисты по фоторетуши берут деньги за свою работу:)

Используя 15 попыток, пришел к методу покраски используя команды "Раскрась [имя объекта] в [цвет]" для каждого объекта.

Результат
Снизу справа небо он тоже нарисовал
Снизу справа небо он тоже нарисовал

Протестировал Gemini, справился он хуже, помимо пониженного разрешения удалил детали на фото и изменил лицо. Использовал тоже метод "Раскрась [имя объекта] в [цвет]"

Результат 1
Результат 2

Flux справился лучше всех

Результат
restore the photo and color it. the photo shows spring, melted snow on the ground, a man in a soviet military uniform, houses with white walls
restore the photo and color it. the photo shows spring, melted snow on the ground, a man in a soviet military uniform, houses with white walls

А есть такое же, но для компьютерного Веб-браузера?

Пока доступно только в тг-боте, но планируем и раскатить в веб

Как всегда, в статье приведены самые удачные генерации, а когда сам пробуешь - ловишь кринж:)

Ну, если быть совсем честным, я когда собирал картинки для статьи, брал результаты по 1-2 генерациям, не более. Кроме того, полный СБС в статье доступен по ссылке, более 1100 сравнений, вручную отобрать только лучшее там в принципе нереально)

А в последних параграфах статьи написал, почему это нормально, что у нейросетей часто не получается решать с первого раза, и почему стоит пробовать 2-3-5 раз, разбивать инструкцию на более простые, ограничиваться хорошо работающими сценариями, и т.п.

Вот старались, делали статью, а пятилапый крокодил всё испортил :)) а я то ждал пятилапого крокодила, закованного в броню, pixel perfect же! Скажите честно, мухлевали слегка?:)

"Попиксельное редактирование должно затрагивать только указанные в инструкции участки, остальное оставляя неизменным." (с) над картинкой с крокодилом

Не волнуйтесь, он просто пятую лапу под броню спрятал)

очень попиксельная точность
очень попиксельная точность

Похоже, вы не вошли в режим редактирования - и гигачат просто перерисовал по мотивам, вообще не обращаясь к нашей модели. Для редактирования картинок нужно сперва нажать на кнопку "Редактирование картинок" снизу, в меню тг-бота

У меня получилось вот так
У меня получилось вот так
Sign up to leave a comment.