kuznetsoff87 19 янв 2022 в 12:40

Большому художнику – большой критик: новые версии модели ruCLIP для ранжирования результатов ruDALL-E (и не только)

11 мин

5.7K

Блог компании СберБлог компании Cloud.ruОбработка изображений*Машинное обучение*Искусственный интеллект

+14

Комментарии 17

Nehc 19 янв 2022 в 13:12

В целом это очень правильно и нужно.

Вот в этой реплике: Нам удалось обучить несколько разных версий ruCLIP, которые на ряде датасетов успешно обошли оригинальную англоязычную модели CLIP с русско-английским переводчиком. Не хватает сопоставления, что бы понять на каких именно датасетах и насколько обогнали. Что бы понимать ради чего все это.

kuznetsoff87 19 янв 2022 в 13:19

В статье есть таблица сравнительная по различным датасетам - там сравниваются 6 версий наших и оригинальный CLIP с переводчиком OPUS-MT. Там как раз все видно

Nehc 19 янв 2022 в 13:43

Да, не увидел — мелким шрифтом в описании к таблице же: В 8 из 18 датасетов модель ruCLIP Large [vit-large-patch14-336] exclusive показывает лучший результат среди всех сравниваемых… Принято.

Ну т.е. для энтузиастов, для которых exclusive модели не доступны, как я понимаю, вариант «оригинальный CLIP с переводчиком OPUS-MT» — предпочтительнее, чем выложенные модели? ;)

kuznetsoff87 19 янв 2022 в 13:59

Нет, это не так) Если вы возьмете модель large-14-224, то получите результат, на уровне CLIP+OPUS-MT, а для ряда датасетов даже лучше, например, CIFAR10, Birdsnap, SUN397 и др.

kr12 22 янв 2022 в 16:53

Сомнительная фишка - выбор лучших для выдачи из уже сгенерированных. Пользователю - виднее, что ему надо. Оценить на глаз не утомительно и быстрее, чем ждать результатов генерации. Часть полезного материала неизбежно пропадает.

Лучше бы придумали как переделать только часть изображения, по маске или выделению.

kuznetsoff87 22 янв 2022 в 17:01

Ну вот запросили вы 512 изображений на генерации. Отсматривать их глазами утомительно все же. Плюс задачу zero shot классификации никто не отменял.

Отвечая на второй вопрос: уже придумали)

kr12 22 янв 2022 в 17:13

А не привидёт ли это к большей "стандиртизации" и уменьшению разнообразия до заученых и наиболее популярных лекал? А эти заученные образцы и так просматриваются в значительном количестве выдачи RuDALL-E. Искуство ведь ценно новизной. Отсюда ещё важный вопрос, есть ли метрика или механизм, позволяющая избегать сильно большого сходства с датасетами, чтоб не преврящаться в поиск по памяти нейросети и отрисовке просто оригинала, как его запомнило сеть?

kuznetsoff87 22 янв 2022 в 19:48

Отнюдь.

Пайплайн ruDALL-E состоит из собственно синтеза, ранжирования ruCLIP и следующем за ним блоке повышения разрешения. Генерация построена на специального вида энкодере, который позволяет в n-мерном пространстве признаков так строить кодированные вектора, чтобы близкие по смыслу слова давали случайный вектор из той области пространства, в которой находятся релевантые объекты. Чтобы избежать близких, похожих изображений, нужно в дальнейшем продолжать учить модель на бОльшем наборе данных, увеличивать размер модели и т.д.

Отвечая на вопрос про метрики. Используется метрика InceptionScore. Ее суть заключается в том, что при синтезе изображение было похоже и отличалось от известных в этой же области признакового пространства (созданная собака не совпадает с другими изображениями собаки) и в то же время было похоже на реальный объект (сгенерированная собака принадлежит классу "собака").

BelBES 25 янв 2022 в 20:46

Все новые версии ruCLIP были обучены на открытых данных, собранных из Рунета, а также на данных экосистемы Сбера. Всего удалось собрать около 240 млн уникальных пар “изображение-описание на естественном языке”.

А почему вы не используете LAION-400M? Он, конечно, не русскоязычный, но если цель в закидывании модели даткой, то даже автоматический перевод аннотаций может дать гейн (либо использовать multilingual обучение)

kuznetsoff87 25 янв 2022 в 20:50

В составе данных мы использовали наиболее удачный на наш взгляд подсет laion с автоматическими переводами аннотаций. С остальной частью ещё предстоит поработать!

BelBES 25 янв 2022 в 20:51

А какой процент пересечения с laion у вас в данных?

kuznetsoff87 25 янв 2022 в 20:56

20-25%

alliumnsk 26 янв 2022 в 10:53

А далеко ли до того, чтобы сеть стала правильно понимать запросы вида "машина без колес", "всадник без головы", "Сталин без усов"?

kuznetsoff87 26 янв 2022 в 12:21

Вопрос времени, данных, размера архитектуры, дальнейшего обучения... Можете шариить результаты тут: например, изображение с автомобилем без колес и набор текстовых описаний противоположных (машина на колесах, машина без колес).

cene655 27 янв 2022 в 22:13

А вы планируете выложить датасет в открытый доступ?

kuznetsoff87 28 янв 2022 в 19:49

В настоящее время не планируем

cene655 29 янв 2022 в 21:05

грустно

Зарегистрируйтесь на Хабре, чтобы оставить комментарий