Комментарии / Профиль kuznetsoff87 / Хабр

Как стать автором

Андрей Кузнецов @kuznetsoff87

In love with multimodal and generative research

Профиль Публикации 5Комментарии 61Закладки 1

SBER-MoVQGAN или новый эффективный Image Encoder для генеративных моделей

kuznetsoff87 8 июн 2023 в 16:20

Привет!

Да, мы этот термин в другой интерпретации "сжатия" использовали, поэтому заголовок в канале поправил и обсудили как раз с Георгием эту историю терминологической неточности)

Про JPEG AI не знал, теперь узнал и очень интересно, как этот проект развивается.

У нас прицел в сторону удобного векторного представления изображений для text2image моделей в первую очередь, поэтому и сжатие здесь подразумевает латентное представление картинки для использования в рамках image encoder блока в мультимодальных архитектурах.

Случайно потревожили сообщество image compression, не преследуя месса в терминах:) Но познакомиться с вашими исследованиями и поучаствовать в них были бы рады)

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 30 апр 2023 в 08:15

Запустили, но не раскатали на проде еще, проверяем разные образы и домены

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 17 апр 2023 в 16:28

Добрый день! Пока разрешение генераций 768x768, можно пользоваться технологиями суперразрешения для повышения разрешения изображений

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 13 апр 2023 в 20:20

Ну тут точно списка никогда никакого не было, был список на сайте rudalle, но этот список сейчас точно не функционирует для 2.1, она генерит в одном разрешении. Если нужен суперрез - это надо отдельным этапом вкручивать.

На fusionbrain.ai всегда был квадрат для 2.1, потому что пока модель генерит только 1:1 в настоящее время. Скоро обновим модель и будут другие соотношения сторон, тогда и за углы тянуть можно будет))

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 13 апр 2023 в 12:23

Добрый день! Вы про rudalle.ru я так понимаю?

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 12 апр 2023 в 18:41

Спасибо) Да, aspect-ratio отличающиеся от 1:1 скоро добавим, тюним как раз)

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 12 апр 2023 в 15:13

Да, но за счет комбинации негативных промтов в приоре и диффузии и естественного промт инжиниринга можно получить очень качественные результаты с минимумом ошибок.

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 12 апр 2023 в 15:12

Очень интересно, спасибо! Комьюнити - вещь! А меж тем Kandinsky 2.1 уже есть на FUUPS.AI и replicate.co. Скоро на grad.io появится

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 12 апр 2023 в 15:11

Планируем увеличивать как отдельные её компоненты, так и в целом менять архитектуру. Вычислительно это будет тяжелее, но всё равно кумулятивно менее затратно, чем авторегрессионные эксперименты)

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 12 апр 2023 в 15:10

Пока такого способа наружу нет. Бэкенды отрабатывают только запросы телеграм бота и сайтов

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 12 апр 2023 в 15:09

Да, если поиграться с образом человека с пропеллером, то Карлсона можно тоже годного получить))

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 12 апр 2023 в 15:09

Это интересно на самом деле. Вопрос в том, что надо такой сет где-то собрать. Есть идеи, где взять такие данные? Может быть есть сет у вас?

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 11 апр 2023 в 15:46

Для генерации текста действительно нужен специфический сет и модель бОльшего размера позволит получить лучшее качество таких генераций. Работаем в этом направлении - текст, как и руки, и другие сложные домены

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 11 апр 2023 в 15:42

Можно попробовать увеличить через SuperRes модель, генерация пока только в таком разрешении

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 11 апр 2023 в 13:49

Домен известных культурных образов и понятий дорабатываем как раз, собрать датасет такой непросто, чтобы всё было учтено

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 11 апр 2023 в 13:30

Да нет никакого страха, вы что) Просто это и правда очень известные решения: MidJourney, StableDiffusion, …

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 11 апр 2023 в 13:29

Моя команда занимается моделью, но ребята из команды фронта я передал ваши пожелания/замечания? Пусть чешут репу?

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 11 апр 2023 в 13:27

Да, это правда. С числительными сейчас работаем, чтобы понимание было

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 11 апр 2023 в 13:21

А где Вы генерировали изображение? Точно в модели 2.1?

Посмотреть

Kandinsky 2.1, или Когда +0,1 значит очень много

kuznetsoff87 8 апр 2023 в 08:13

Мы собрали датасет с типично русскими образами и понятиями, но не успели дотюнить из-за старта релиза - все силы сейчас там. Тюнинг много не займет, думаю, что где-то через неделю сделаем апдейт

Посмотреть

2

В рейтинге: Не участвует

Откуда: Самара, Самарская обл., Россия

Работает в: Сбер
Cloud.ru
SberDevices

Дата рождения: 30 июня 1987

Зарегистрирован: 22 октября 2021

Активность: сегодня в 02:45

Data Scientist, ML Engineer

Lead

Project management

Research work

Computer vision

Machine learning

Natural language processing

Pytorch

Deep Learning

Neural networks

Computer Science