Comments 17
Вот в этой реплике: Нам удалось обучить несколько разных версий ruCLIP, которые на ряде датасетов успешно обошли оригинальную англоязычную модели CLIP с русско-английским переводчиком. Не хватает сопоставления, что бы понять на каких именно датасетах и насколько обогнали. Что бы понимать ради чего все это.
В статье есть таблица сравнительная по различным датасетам - там сравниваются 6 версий наших и оригинальный CLIP с переводчиком OPUS-MT. Там как раз все видно
Ну т.е. для энтузиастов, для которых exclusive модели не доступны, как я понимаю, вариант «оригинальный CLIP с переводчиком OPUS-MT» — предпочтительнее, чем выложенные модели? ;)
Сомнительная фишка - выбор лучших для выдачи из уже сгенерированных. Пользователю - виднее, что ему надо. Оценить на глаз не утомительно и быстрее, чем ждать результатов генерации. Часть полезного материала неизбежно пропадает.
Лучше бы придумали как переделать только часть изображения, по маске или выделению.
Ну вот запросили вы 512 изображений на генерации. Отсматривать их глазами утомительно все же. Плюс задачу zero shot классификации никто не отменял.
Отвечая на второй вопрос: уже придумали)
А не привидёт ли это к большей "стандиртизации" и уменьшению разнообразия до заученых и наиболее популярных лекал? А эти заученные образцы и так просматриваются в значительном количестве выдачи RuDALL-E. Искуство ведь ценно новизной. Отсюда ещё важный вопрос, есть ли метрика или механизм, позволяющая избегать сильно большого сходства с датасетами, чтоб не преврящаться в поиск по памяти нейросети и отрисовке просто оригинала, как его запомнило сеть?
Отнюдь.
Пайплайн ruDALL-E состоит из собственно синтеза, ранжирования ruCLIP и следующем за ним блоке повышения разрешения. Генерация построена на специального вида энкодере, который позволяет в n-мерном пространстве признаков так строить кодированные вектора, чтобы близкие по смыслу слова давали случайный вектор из той области пространства, в которой находятся релевантые объекты. Чтобы избежать близких, похожих изображений, нужно в дальнейшем продолжать учить модель на бОльшем наборе данных, увеличивать размер модели и т.д.
Отвечая на вопрос про метрики. Используется метрика InceptionScore. Ее суть заключается в том, что при синтезе изображение было похоже и отличалось от известных в этой же области признакового пространства (созданная собака не совпадает с другими изображениями собаки) и в то же время было похоже на реальный объект (сгенерированная собака принадлежит классу "собака").
Все новые версии ruCLIP были обучены на открытых данных, собранных из Рунета, а также на данных экосистемы Сбера. Всего удалось собрать около 240 млн уникальных пар “изображение-описание на естественном языке”.
А почему вы не используете LAION-400M? Он, конечно, не русскоязычный, но если цель в закидывании модели даткой, то даже автоматический перевод аннотаций может дать гейн (либо использовать multilingual обучение)
А далеко ли до того, чтобы сеть стала правильно понимать запросы вида "машина без колес", "всадник без головы", "Сталин без усов"?
А вы планируете выложить датасет в открытый доступ?
Большому художнику – большой критик: новые версии модели ruCLIP для ранжирования результатов ruDALL-E (и не только)