Как стать автором
Обновить
43
0
Андрей Кузнецов @kuznetsoff87

In love with multimodal and generative research

Отправить сообщение

Привет!

Да, мы этот термин в другой интерпретации "сжатия" использовали, поэтому заголовок в канале поправил и обсудили как раз с Георгием эту историю терминологической неточности)

Про JPEG AI не знал, теперь узнал и очень интересно, как этот проект развивается.

У нас прицел в сторону удобного векторного представления изображений для text2image моделей в первую очередь, поэтому и сжатие здесь подразумевает латентное представление картинки для использования в рамках image encoder блока в мультимодальных архитектурах.

Случайно потревожили сообщество image compression, не преследуя месса в терминах:) Но познакомиться с вашими исследованиями и поучаствовать в них были бы рады)

Запустили, но не раскатали на проде еще, проверяем разные образы и домены

Добрый день! Пока разрешение генераций 768x768, можно пользоваться технологиями суперразрешения для повышения разрешения изображений

Ну тут точно списка никогда никакого не было, был список на сайте rudalle, но этот список сейчас точно не функционирует для 2.1, она генерит в одном разрешении. Если нужен суперрез - это надо отдельным этапом вкручивать.

На fusionbrain.ai всегда был квадрат для 2.1, потому что пока модель генерит только 1:1 в настоящее время. Скоро обновим модель и будут другие соотношения сторон, тогда и за углы тянуть можно будет))

Добрый день! Вы про rudalle.ru я так понимаю?

Спасибо) Да, aspect-ratio отличающиеся от 1:1 скоро добавим, тюним как раз)

Да, но за счет комбинации негативных промтов в приоре и диффузии и естественного промт инжиниринга можно получить очень качественные результаты с минимумом ошибок.

Очень интересно, спасибо! Комьюнити - вещь! А меж тем Kandinsky 2.1 уже есть на FUUPS.AI и replicate.co. Скоро на grad.io появится

Планируем увеличивать как отдельные её компоненты, так и в целом менять архитектуру. Вычислительно это будет тяжелее, но всё равно кумулятивно менее затратно, чем авторегрессионные эксперименты)

Пока такого способа наружу нет. Бэкенды отрабатывают только запросы телеграм бота и сайтов

Да, если поиграться с образом человека с пропеллером, то Карлсона можно тоже годного получить))

Это интересно на самом деле. Вопрос в том, что надо такой сет где-то собрать. Есть идеи, где взять такие данные? Может быть есть сет у вас?

Для генерации текста действительно нужен специфический сет и модель бОльшего размера позволит получить лучшее качество таких генераций. Работаем в этом направлении - текст, как и руки, и другие сложные домены

Можно попробовать увеличить через SuperRes модель, генерация пока только в таком разрешении

Домен известных культурных образов и понятий дорабатываем как раз, собрать датасет такой непросто, чтобы всё было учтено

Да нет никакого страха, вы что) Просто это и правда очень известные решения: MidJourney, StableDiffusion, …

Моя команда занимается моделью, но ребята из команды фронта я передал ваши пожелания/замечания? Пусть чешут репу?

Да, это правда. С числительными сейчас работаем, чтобы понимание было

А где Вы генерировали изображение? Точно в модели 2.1?

Мы собрали датасет с типично русскими образами и понятиями, но не успели дотюнить из-за старта релиза - все силы сейчас там. Тюнинг много не займет, думаю, что где-то через неделю сделаем апдейт

Информация

В рейтинге
Не участвует
Откуда
Самара, Самарская обл., Россия
Работает в
Дата рождения
Зарегистрирован
Активность

Специализация

Data Scientist, ML Engineer
Lead
Project management
Research work
Computer vision
Machine learning
Natural language processing
Pytorch
Deep Learning
Neural networks
Computer Science