Прекрасно Вас понимаю. GPT-3 — не для смертных. DALL·E — еще не понятно, надеюсь, что хоть маленькую версию дадут в доступ. CLIP — доступен, например TorchScript для ViT-B/32 версии CLIP. Можно юзать.
Если есть предложения по поводу примеров, на чем продемонстрировать работу CLIP и какой классификатор собрать используя обучение без обучения, то пишите.
Спасибо за интерес к теме! Разница в том, что CLIP считатет этот скор, как cosine similarity в общем пространстве визуальных и текстовых репрезентаций.
1. Работа в этом направлении велась. Но, то, что Вы описываете не может быть «классическим» классификатором. Описанное Вами решение должно быть детектором + графом «вещь, свойство — отношение». Вот пример подобной работы:
2. Были попытки решения подобной задачи и через Dense Captioning:
Все эти варианты не являются старыми добрыми классификаторами по своей природе. Да и требуют они достаточно сложной и специфической разметки. CLIP же на этапе предобучения требует лишь пары изображения-текст, которых полно в интернете, откуда они и были взяты. Кроме того, CLIP, в отличие от подобных подходов, отлично показывает себя в режиме «обучение без обучения».
Большое спасибо за интерес к теме! Старался подробно и доступно разобрать детали. Согласен с тем, что сам процесс предобучения CLIP — supervised contrastive learning на парах изображение-текст. А процесс инференса CLIP под конкретную задачу или датасет может быть выполнен, как через обучение без учителя, так и через использование нового линейного слоя. Сами авторы делали и то и другое. И показали, что для большего класса задач, обучение без учителя показывает отличные результаты.
Спасибо за статью!
Исправьте плиз, а то аж не по себе стало, когда себе представил VGG-56)
Тут Res-Net должен быть. Я конечно могу представить такую махину, как VGG-56, но дело даже не в диком ее размере. Идея же ResNet именно в том, что 56 слойная сеть, без residual connection ведет себя хуже, чем 20-ти слойная.
посмотрев описание на оригинальном сайте с большим количеством примеров по которым видно закономерности (посмотрите на подсказки в виде фона), добавилось понимание, как это устроено
Так и есть! Зная архитектуру GPT-3 и VQVAE и то, что я писал выше:
Здесь нужно понимать как работают подобные трансформеры и как именно работает decoder часть encoder-decoder трансформеров. По сути вы можете интерпретировать работу DALL · E, как нейронный машинный перевод из текста в изображение. И оперировать токенами. В таком режиме (авторегрессивном) сеть способна генерировать как и новые изображения, так и заканчивать (догенеривать) уже начатые, как в примере с Гомером.
Напрашивается и сама реализация. Как Вы сказали:
добавилось понимание, как это устроено
Но пока еще множество неочевидных технических нюансов и догадок. Так что подождем пейпера. Сделаем и обсудим технический обзор!
Очень точно подмечено про CloseAI. Они уже об этом написали, и это тревожный звоночек.
We recognize that work involving generative models has the potential for significant, broad societal impacts. In the future, we plan to analyze how models like DALL·E relate to societal issues like economic impact on certain work processes and professions, the potential for bias in the model outputs, and the longer term ethical challenges implied by this technology.
Скорее всего в ближайшее время будет пейпер. Единственное, что я даже не представляю каких усилий будет стоить комьюнити сделать нечто подобное. Чтобы было действтительно Open.
Про Gan'ы. Да, тоже фиксирую такой тренд. Ну по сути сами Gan'ы могут остаться, как добавочный режим тренеровки. Уверен, что это просто будет рутинная возможноть получить дополнительные градиенты с дискриминатора, если это необходимо.
Даже не собираюсь этот бред переваривать.
Что при zero-shot новые градиенты не высчитываются не влияют на сеть, это и ежу понятно. Вы это пытались описать в сотне предложений…
К GPT-3 и к DALL·E может быть применим one-shot learning. Если Вы не согласны или не являетесь специалистом в этой сферы, или просто не владеете терминологией, то отличным решением будет написать еще сотню комментариев. Чем Вы, собственно, только и занимаетесь, судя по активности Вашего профиля.
Выйдет код. Вперед. Попробуйте one-shot learning. Если ничего не выйдет, то доказывайте. Пишите статьи. А не разбрасывайтесь словами и оскорблениями. С этого момента я перестаю Вам отвечать.
Также, сотрудники из openai выразили озадаченность тем, что уровень реалистичности и результаты работы современных генеративных моделей могут оказать сильное влияние на общество. И опасаются за возможные неоднозначные социальные и экономические последствия использования подобных технологий.
Теперь этот абзац не кажется таким уж абстрактным.
lpssp к DALL·E применим one-shot learning. И спасибо, мне ссылок не надо, терминологией я владею. Именно поэтому и не расписываю на десятки продолжений односложную мысль.
michael_v89 Оказался не прав в чем? О какой критике Вы говорите? У меня такое чувство, что спор беспредметный. И не только я это подмечал, если Вы заметили. А кого я обвинял и в чем? И, кстати, про интеллект. Ваша статья Что такое интеллект? и Ваш последний комментарий к ней:
Вот если бы вы изложили критику, можно было говорить более предметно, а так получается именно болтовня с оскорблениями.
1. Работа в этом направлении велась. Но, то, что Вы описываете не может быть «классическим» классификатором. Описанное Вами решение должно быть детектором + графом «вещь, свойство — отношение». Вот пример подобной работы:
2. Были попытки решения подобной задачи и через Dense Captioning:
Все эти варианты не являются старыми добрыми классификаторами по своей природе. Да и требуют они достаточно сложной и специфической разметки. CLIP же на этапе предобучения требует лишь пары изображения-текст, которых полно в интернете, откуда они и были взяты. Кроме того, CLIP, в отличие от подобных подходов, отлично показывает себя в режиме «обучение без обучения».
Исправьте плиз, а то аж не по себе стало, когда себе представил VGG-56)
Тут Res-Net должен быть. Я конечно могу представить такую махину, как VGG-56, но дело даже не в диком ее размере. Идея же ResNet именно в том, что 56 слойная сеть, без residual connection ведет себя хуже, чем 20-ти слойная.
Но не тратьте Ваше время на этот спор)
Кстати, по поводу Так и есть! Зная архитектуру GPT-3 и VQVAE и то, что я писал выше: Напрашивается и сама реализация. Как Вы сказали: Но пока еще множество неочевидных технических нюансов и догадок. Так что подождем пейпера. Сделаем и обсудим технический обзор!
Про Gan'ы. Да, тоже фиксирую такой тренд. Ну по сути сами Gan'ы могут остаться, как добавочный режим тренеровки. Уверен, что это просто будет рутинная возможноть получить дополнительные градиенты с дискриминатора, если это необходимо.
Что при zero-shot новые градиенты не высчитываются не влияют на сеть, это и ежу понятно. Вы это пытались описать в сотне предложений…
К GPT-3 и к DALL·E может быть применим one-shot learning. Если Вы не согласны или не являетесь специалистом в этой сферы, или просто не владеете терминологией, то отличным решением будет написать еще сотню комментариев. Чем Вы, собственно, только и занимаетесь, судя по активности Вашего профиля.
Выйдет код. Вперед. Попробуйте one-shot learning. Если ничего не выйдет, то доказывайте. Пишите статьи. А не разбрасывайтесь словами и оскорблениями. С этого момента я перестаю Вам отвечать.
michael_v89 Оказался не прав в чем? О какой критике Вы говорите? У меня такое чувство, что спор беспредметный. И не только я это подмечал, если Вы заметили. А кого я обвинял и в чем? И, кстати, про интеллект. Ваша статья Что такое интеллект? и Ваш последний комментарий к ней:
Может опять совпадение…