Comments / Profile of georfed / Habr

Георгий Федоров@georfed

User

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Похоже, вы не вошли в режим редактирования - и гигачат просто перерисовал по мотивам, вообще не обращаясь к нашей модели. Для редактирования картинок нужно сперва нажать на кнопку "Редактирование картинок" снизу, в меню тг-бота

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

@georfed Jun 4 at 12:11

Не волнуйтесь, он просто пятую лапу под броню спрятал)

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

@georfed Jun 4 at 12:10

Ну, если быть совсем честным, я когда собирал картинки для статьи, брал результаты по 1-2 генерациям, не более. Кроме того, полный СБС в статье доступен по ссылке, более 1100 сравнений, вручную отобрать только лучшее там в принципе нереально)

А в последних параграфах статьи написал, почему это нормально, что у нейросетей часто не получается решать с первого раза, и почему стоит пробовать 2-3-5 раз, разбивать инструкцию на более простые, ограничиваться хорошо работающими сценариями, и т.п.

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

@georfed Jun 4 at 12:05

Пока доступно только в тг-боте, но планируем и раскатить в веб

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

@georfed May 30 at 12:46

Вы не зашли в функцию редактирования, нужно нажать на кнопку "редактировать изображение" в меню снизу.
Вот что у меня вышло с первого раза:

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

@georfed May 30 at 10:29

Хорошо, если вы считаете наиболее честным сравнение на английском, то в статье ключевой метрикой мы представили VLM-score.
Метрика эта полностью считалась на английских инструкциях: Malvina показала результаты на голову выше open-source моделей и немного выше ключевых конкурентов, включая Gemini.

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

@georfed May 30 at 10:01

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

@georfed May 30 at 08:52

Странно, у меня с первого раз очень даже неплохо получилось, держите:

Конечно, не всегда получается с первого, второго или даже третьего раза, так уж устроены модели, пока никто в мире не придумал, как сделать их консистентнее(
Поэтому пробуйте по нескольку раз, может с немного разными формулировками, - и всё обязательно выйдет!

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

@georfed May 30 at 04:20

Почему же несправедливое?
Модели ведь работают не со словами языков непосредственно, а с их эмбеддингами в латентном пространстве, которое для всех языков едино.
Gemini - крупная мультимодальная многоязыковая модель, она отлично понимает русский и общается на нём. К тому же, пользователям GigaChat гораздо проще работать на родном языке, так что сравниваться на русском вполне нормально.
Более того, Malvina и на английском хорошо понимает инструкции, не хуже русского, попробуйте сами.

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

@georfed May 29 at 17:01

(он просто лапу под доспех спрятал)

А так это просто абстрактный пример, образно иллюстрирует отличие (практически) попиксельного подхода от "рисования по мотивам"

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

@georfed May 29 at 16:56

Спасибо за отзыв)
Да, минус диффузии в том, что она неизбежно оставляет остаточный шум, и в цепочке из множества операций он потихоньку копится, с этим пока ничего не поделаешь...

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

@georfed May 29 at 16:37

Конечно, для каждой задачи есть свой инструмент.
Pixel perfect сохраняет любые мелкие детали, которые могут быть важны: лица, памятники архитектуры, значки - да и любые другие важные элементы, которые прочий ИИ бы перерисовал, хотим мы того или нет.
В статье представлен значительный список случаев, когда как раз pixel perfect очень важен.

Если pixel perfect, наоборот, вообще не важен, то конечно авторегрессионные редакторы дадут лучшие результаты по исполнительности и эстетике.

Про точки и маски тоже зависит от задачи. Например, если нужно удалить забор, или разбросанный мусор, или мелкие силуэты людей на заднем фоне - то выделять все эти мелкие элементы масками нереально сложно.

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

@georfed May 29 at 14:31

Да, вы абсолютно правы!
1. многосоставные запросы ("смени на борщ, добавь хлеб и стопку водки") пока даются модели очень тяжело, рекомендуем разбить их на одиночные операции и применить по очереди.
2. добавление и замена - очень сложные для моделей операции, пока наша модель может добавлять достаточно примитивные, универсальные объекты (н., яблоко, чашка, ваза цветов) - красиво внедрять специфику вроде региональных кулинарных блюд модель ещё не осиливает, но мы активно работаем над этим.

Итого, фишка нашей модели - именно попиксельность: внедрение концепций может и не супер-сложных, но сохраняющих не затрагиваемые участки картинки. Примеров операций, в которых модель отрабатывает хорошо, множество и в статье, и в комментарии чуть выше вашего.
Если же вам сложная и специфичная генерация гораздо важнее сохранения частей изображения, то конечно лучше обратиться к генеративке без режима редактирования

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

@georfed May 29 at 08:55

Пока доступно только в ТГ-боте Гигачата, пожалуйста проследуйте туда - всё отлично работает

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

@georfed May 29 at 08:53

Нажмите, пожалуйста, на кнопку "редактировать изображение" снизу
Похоже, вы просто не были в режиме редактирования, внизу есть кнопка "отредактировать изображение" - и сам Гигачат тоже такое предлагает, а у вас на скриншоте почему-то такого не вижу
У меня получилось сделать вашу картинку реалистичной с первого раза:

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

@georfed May 29 at 08:40

Зато её можно найти в tg-боте GigaChat 😀

Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

@georfed Apr 23 at 04:31

Ага)
Дело в том, что работа GPT-4o с изображениями хоть и очень мощная, но далеко не pixel-perfect. Их редактирование - это не "умный фотошоп", а скорее "полная перерисовка основных идей", что-то вроде IP-адаптера.
Мы же в разборе акцентируемся именно на pixel-perfect методах, которые меняют только заданные участки, не искажая и не перепридумывая ничего лишнего