Pull to refresh

Comments 17

В целом это очень правильно и нужно.

Вот в этой реплике: Нам удалось обучить несколько разных версий ruCLIP, которые на ряде датасетов успешно обошли оригинальную англоязычную модели CLIP с русско-английским переводчиком. Не хватает сопоставления, что бы понять на каких именно датасетах и насколько обогнали. Что бы понимать ради чего все это.

В статье есть таблица сравнительная по различным датасетам - там сравниваются 6 версий наших и оригинальный CLIP с переводчиком OPUS-MT. Там как раз все видно

Да, не увидел — мелким шрифтом в описании к таблице же: В 8 из 18 датасетов модель ruCLIP Large [vit-large-patch14-336] exclusive показывает лучший результат среди всех сравниваемых… Принято.

Ну т.е. для энтузиастов, для которых exclusive модели не доступны, как я понимаю, вариант «оригинальный CLIP с переводчиком OPUS-MT» — предпочтительнее, чем выложенные модели? ;)

Нет, это не так) Если вы возьмете модель large-14-224, то получите результат, на уровне CLIP+OPUS-MT, а для ряда датасетов даже лучше, например, CIFAR10, Birdsnap, SUN397 и др.

Сомнительная фишка - выбор лучших для выдачи из уже сгенерированных. Пользователю - виднее, что ему надо. Оценить на глаз не утомительно и быстрее, чем ждать результатов генерации. Часть полезного материала неизбежно пропадает.

Лучше бы придумали как переделать только часть изображения, по маске или выделению.

Ну вот запросили вы 512 изображений на генерации. Отсматривать их глазами утомительно все же. Плюс задачу zero shot классификации никто не отменял.

Отвечая на второй вопрос: уже придумали)

А не привидёт ли это к большей "стандиртизации" и уменьшению разнообразия до заученых и наиболее популярных лекал? А эти заученные образцы и так просматриваются в значительном количестве выдачи RuDALL-E. Искуство ведь ценно новизной. Отсюда ещё важный вопрос, есть ли метрика или механизм, позволяющая избегать сильно большого сходства с датасетами, чтоб не преврящаться в поиск по памяти нейросети и отрисовке просто оригинала, как его запомнило сеть?

Отнюдь.

Пайплайн ruDALL-E состоит из собственно синтеза, ранжирования ruCLIP и следующем за ним блоке повышения разрешения. Генерация построена на специального вида энкодере, который позволяет в n-мерном пространстве признаков так строить кодированные вектора, чтобы близкие по смыслу слова давали случайный вектор из той области пространства, в которой находятся релевантые объекты. Чтобы избежать близких, похожих изображений, нужно в дальнейшем продолжать учить модель на бОльшем наборе данных, увеличивать размер модели и т.д.

Отвечая на вопрос про метрики. Используется метрика InceptionScore. Ее суть заключается в том, что при синтезе изображение было похоже и отличалось от известных в этой же области признакового пространства (созданная собака не совпадает с другими изображениями собаки) и в то же время было похоже на реальный объект (сгенерированная собака принадлежит классу "собака").

Все новые версии ruCLIP были обучены на открытых данных, собранных из Рунета, а также на данных экосистемы Сбера. Всего удалось собрать около 240 млн уникальных пар “изображение-описание на естественном языке”.

А почему вы не используете LAION-400M? Он, конечно, не русскоязычный, но если цель в закидывании модели даткой, то даже автоматический перевод аннотаций может дать гейн (либо использовать multilingual обучение)

В составе данных мы использовали наиболее удачный на наш взгляд подсет laion с автоматическими переводами аннотаций. С остальной частью ещё предстоит поработать!

А какой процент пересечения с laion у вас в данных?

А далеко ли до того, чтобы сеть стала правильно понимать запросы вида "машина без колес", "всадник без головы", "Сталин без усов"?

Вопрос времени, данных, размера архитектуры, дальнейшего обучения... Можете шариить результаты тут: например, изображение с автомобилем без колес и набор текстовых описаний противоположных (машина на колесах, машина без колес).

А вы планируете выложить датасет в открытый доступ?

Sign up to leave a comment.