Похоже, вы не вошли в режим редактирования - и гигачат просто перерисовал по мотивам, вообще не обращаясь к нашей модели. Для редактирования картинок нужно сперва нажать на кнопку "Редактирование картинок" снизу, в меню тг-бота
Ну, если быть совсем честным, я когда собирал картинки для статьи, брал результаты по 1-2 генерациям, не более. Кроме того, полный СБС в статье доступен по ссылке, более 1100 сравнений, вручную отобрать только лучшее там в принципе нереально)
А в последних параграфах статьи написал, почему это нормально, что у нейросетей часто не получается решать с первого раза, и почему стоит пробовать 2-3-5 раз, разбивать инструкцию на более простые, ограничиваться хорошо работающими сценариями, и т.п.
Хорошо, если вы считаете наиболее честным сравнение на английском, то в статье ключевой метрикой мы представили VLM-score. Метрика эта полностью считалась на английских инструкциях: Malvina показала результаты на голову выше open-source моделей и немного выше ключевых конкурентов, включая Gemini.
Странно, у меня с первого раз очень даже неплохо получилось, держите:
Конечно, не всегда получается с первого, второго или даже третьего раза, так уж устроены модели, пока никто в мире не придумал, как сделать их консистентнее( Поэтому пробуйте по нескольку раз, может с немного разными формулировками, - и всё обязательно выйдет!
Почему же несправедливое? Модели ведь работают не со словами языков непосредственно, а с их эмбеддингами в латентном пространстве, которое для всех языков едино. Gemini - крупная мультимодальная многоязыковая модель, она отлично понимает русский и общается на нём. К тому же, пользователям GigaChat гораздо проще работать на родном языке, так что сравниваться на русском вполне нормально. Более того, Malvina и на английском хорошо понимает инструкции, не хуже русского, попробуйте сами.
Спасибо за отзыв) Да, минус диффузии в том, что она неизбежно оставляет остаточный шум, и в цепочке из множества операций он потихоньку копится, с этим пока ничего не поделаешь...
Конечно, для каждой задачи есть свой инструмент. Pixel perfect сохраняет любые мелкие детали, которые могут быть важны: лица, памятники архитектуры, значки - да и любые другие важные элементы, которые прочий ИИ бы перерисовал, хотим мы того или нет. В статье представлен значительный список случаев, когда как раз pixel perfect очень важен.
Если pixel perfect, наоборот, вообще не важен, то конечно авторегрессионные редакторы дадут лучшие результаты по исполнительности и эстетике.
Про точки и маски тоже зависит от задачи. Например, если нужно удалить забор, или разбросанный мусор, или мелкие силуэты людей на заднем фоне - то выделять все эти мелкие элементы масками нереально сложно.
Да, вы абсолютно правы! 1. многосоставные запросы ("смени на борщ, добавь хлеб и стопку водки") пока даются модели очень тяжело, рекомендуем разбить их на одиночные операции и применить по очереди. 2. добавление и замена - очень сложные для моделей операции, пока наша модель может добавлять достаточно примитивные, универсальные объекты (н., яблоко, чашка, ваза цветов) - красиво внедрять специфику вроде региональных кулинарных блюд модель ещё не осиливает, но мы активно работаем над этим.
Итого, фишка нашей модели - именно попиксельность: внедрение концепций может и не супер-сложных, но сохраняющих не затрагиваемые участки картинки. Примеров операций, в которых модель отрабатывает хорошо, множество и в статье, и в комментарии чуть выше вашего. Если же вам сложная и специфичная генерация гораздо важнее сохранения частей изображения, то конечно лучше обратиться к генеративке без режима редактирования
Нажмите, пожалуйста, на кнопку "редактировать изображение" снизу Похоже, вы просто не были в режиме редактирования, внизу есть кнопка "отредактировать изображение" - и сам Гигачат тоже такое предлагает, а у вас на скриншоте почему-то такого не вижу У меня получилось сделать вашу картинку реалистичной с первого раза:
Ага) Дело в том, что работа GPT-4o с изображениями хоть и очень мощная, но далеко не pixel-perfect. Их редактирование - это не "умный фотошоп", а скорее "полная перерисовка основных идей", что-то вроде IP-адаптера. Мы же в разборе акцентируемся именно на pixel-perfect методах, которые меняют только заданные участки, не искажая и не перепридумывая ничего лишнего
Похоже, вы не вошли в режим редактирования - и гигачат просто перерисовал по мотивам, вообще не обращаясь к нашей модели. Для редактирования картинок нужно сперва нажать на кнопку "Редактирование картинок" снизу, в меню тг-бота
Не волнуйтесь, он просто пятую лапу под броню спрятал)
Ну, если быть совсем честным, я когда собирал картинки для статьи, брал результаты по 1-2 генерациям, не более. Кроме того, полный СБС в статье доступен по ссылке, более 1100 сравнений, вручную отобрать только лучшее там в принципе нереально)
А в последних параграфах статьи написал, почему это нормально, что у нейросетей часто не получается решать с первого раза, и почему стоит пробовать 2-3-5 раз, разбивать инструкцию на более простые, ограничиваться хорошо работающими сценариями, и т.п.
Пока доступно только в тг-боте, но планируем и раскатить в веб
Вы не зашли в функцию редактирования, нужно нажать на кнопку "редактировать изображение" в меню снизу.
Вот что у меня вышло с первого раза:
Хорошо, если вы считаете наиболее честным сравнение на английском, то в статье ключевой метрикой мы представили VLM-score.
Метрика эта полностью считалась на английских инструкциях: Malvina показала результаты на голову выше open-source моделей и немного выше ключевых конкурентов, включая Gemini.
Странно, у меня с первого раз очень даже неплохо получилось, держите:
Конечно, не всегда получается с первого, второго или даже третьего раза, так уж устроены модели, пока никто в мире не придумал, как сделать их консистентнее(
Поэтому пробуйте по нескольку раз, может с немного разными формулировками, - и всё обязательно выйдет!
Почему же несправедливое?
Модели ведь работают не со словами языков непосредственно, а с их эмбеддингами в латентном пространстве, которое для всех языков едино.
Gemini - крупная мультимодальная многоязыковая модель, она отлично понимает русский и общается на нём. К тому же, пользователям GigaChat гораздо проще работать на родном языке, так что сравниваться на русском вполне нормально.
Более того, Malvina и на английском хорошо понимает инструкции, не хуже русского, попробуйте сами.
(он просто лапу под доспех спрятал)
А так это просто абстрактный пример, образно иллюстрирует отличие (практически) попиксельного подхода от "рисования по мотивам"
Спасибо за отзыв)
Да, минус диффузии в том, что она неизбежно оставляет остаточный шум, и в цепочке из множества операций он потихоньку копится, с этим пока ничего не поделаешь...
Конечно, для каждой задачи есть свой инструмент.
Pixel perfect сохраняет любые мелкие детали, которые могут быть важны: лица, памятники архитектуры, значки - да и любые другие важные элементы, которые прочий ИИ бы перерисовал, хотим мы того или нет.
В статье представлен значительный список случаев, когда как раз pixel perfect очень важен.
Если pixel perfect, наоборот, вообще не важен, то конечно авторегрессионные редакторы дадут лучшие результаты по исполнительности и эстетике.
Про точки и маски тоже зависит от задачи. Например, если нужно удалить забор, или разбросанный мусор, или мелкие силуэты людей на заднем фоне - то выделять все эти мелкие элементы масками нереально сложно.
Да, вы абсолютно правы!
1. многосоставные запросы ("смени на борщ, добавь хлеб и стопку водки") пока даются модели очень тяжело, рекомендуем разбить их на одиночные операции и применить по очереди.
2. добавление и замена - очень сложные для моделей операции, пока наша модель может добавлять достаточно примитивные, универсальные объекты (н., яблоко, чашка, ваза цветов) - красиво внедрять специфику вроде региональных кулинарных блюд модель ещё не осиливает, но мы активно работаем над этим.
Итого, фишка нашей модели - именно попиксельность: внедрение концепций может и не супер-сложных, но сохраняющих не затрагиваемые участки картинки. Примеров операций, в которых модель отрабатывает хорошо, множество и в статье, и в комментарии чуть выше вашего.
Если же вам сложная и специфичная генерация гораздо важнее сохранения частей изображения, то конечно лучше обратиться к генеративке без режима редактирования
Пока доступно только в ТГ-боте Гигачата, пожалуйста проследуйте туда - всё отлично работает
Нажмите, пожалуйста, на кнопку "редактировать изображение" снизу
Похоже, вы просто не были в режиме редактирования, внизу есть кнопка "отредактировать изображение" - и сам Гигачат тоже такое предлагает, а у вас на скриншоте почему-то такого не вижу
У меня получилось сделать вашу картинку реалистичной с первого раза:
Зато её можно найти в tg-боте GigaChat 😀
Ага)
Дело в том, что работа GPT-4o с изображениями хоть и очень мощная, но далеко не pixel-perfect. Их редактирование - это не "умный фотошоп", а скорее "полная перерисовка основных идей", что-то вроде IP-адаптера.
Мы же в разборе акцентируемся именно на pixel-perfect методах, которые меняют только заданные участки, не искажая и не перепридумывая ничего лишнего