Обновить
39
0
Михаил Константинов@Dirac

Research Teem Lead at Squad, канал «Мишин Лернинг»

Отправить сообщение
Не за что! В этот раз, действительно, OpenAI оказался не совсем ClosedAI.
Прекрасно Вас понимаю. GPT-3 — не для смертных. DALL·E — еще не понятно, надеюсь, что хоть маленькую версию дадут в доступ. CLIP — доступен, например TorchScript для ViT-B/32 версии CLIP. Можно юзать.
Если есть предложения по поводу примеров, на чем продемонстрировать работу CLIP и какой классификатор собрать используя обучение без обучения, то пишите.
Если будет интересно, то могу сделать статью Собираем CLIP, где покажу как его юзать и подготовлю примеры кода.
Спасибо за интерес к теме! Разница в том, что CLIP считатет этот скор, как cosine similarity в общем пространстве визуальных и текстовых репрезентаций.

1. Работа в этом направлении велась. Но, то, что Вы описываете не может быть «классическим» классификатором. Описанное Вами решение должно быть детектором + графом «вещь, свойство — отношение». Вот пример подобной работы: image

2. Были попытки решения подобной задачи и через Dense Captioning:
image

Все эти варианты не являются старыми добрыми классификаторами по своей природе. Да и требуют они достаточно сложной и специфической разметки. CLIP же на этапе предобучения требует лишь пары изображения-текст, которых полно в интернете, откуда они и были взяты. Кроме того, CLIP, в отличие от подобных подходов, отлично показывает себя в режиме «обучение без обучения».
Большое спасибо за интерес к теме! Старался подробно и доступно разобрать детали. Согласен с тем, что сам процесс предобучения CLIP — supervised contrastive learning на парах изображение-текст. А процесс инференса CLIP под конкретную задачу или датасет может быть выполнен, как через обучение без учителя, так и через использование нового линейного слоя. Сами авторы делали и то и другое. И показали, что для большего класса задач, обучение без учителя показывает отличные результаты.
Забавно! Меня самого, кстати, мой же скрин тоже сбил с толку)
P.S. Статья появилась, именно благодаря таким запросам. Так, что если тебя интересует какая-то тема в машинном обучении — предлагай!
image
Сеть, ландшафт ошибки которой продемонстрирован, авторы публикации называют ResNet-56-noshort.

image
Спасибо за статью!
Исправьте плиз, а то аж не по себе стало, когда себе представил VGG-56)

image

Тут Res-Net должен быть. Я конечно могу представить такую махину, как VGG-56, но дело даже не в диком ее размере. Идея же ResNet именно в том, что 56 слойная сеть, без residual connection ведет себя хуже, чем 20-ти слойная.
image
Согласен с Вами, keydach555, так оно и есть.
image
Но не тратьте Ваше время на этот спор)

Не могу не согласиться!
«до чего дошел прогресс»

Кстати, по поводу
посмотрев описание на оригинальном сайте с большим количеством примеров по которым видно закономерности (посмотрите на подсказки в виде фона), добавилось понимание, как это устроено
Так и есть! Зная архитектуру GPT-3 и VQVAE и то, что я писал выше:
Здесь нужно понимать как работают подобные трансформеры и как именно работает decoder часть encoder-decoder трансформеров. По сути вы можете интерпретировать работу DALL · E, как нейронный машинный перевод из текста в изображение. И оперировать токенами. В таком режиме (авторегрессивном) сеть способна генерировать как и новые изображения, так и заканчивать (догенеривать) уже начатые, как в примере с Гомером.
Напрашивается и сама реализация. Как Вы сказали:
добавилось понимание, как это устроено
Но пока еще множество неочевидных технических нюансов и догадок. Так что подождем пейпера. Сделаем и обсудим технический обзор!
Очень точно подмечено про CloseAI. Они уже об этом написали, и это тревожный звоночек.
We recognize that work involving generative models has the potential for significant, broad societal impacts. In the future, we plan to analyze how models like DALL·E relate to societal issues like economic impact on certain work processes and professions, the potential for bias in the model outputs, and the longer term ethical challenges implied by this technology.
Скорее всего в ближайшее время будет пейпер. Единственное, что я даже не представляю каких усилий будет стоить комьюнити сделать нечто подобное. Чтобы было действтительно Open.
Про Gan'ы. Да, тоже фиксирую такой тренд. Ну по сути сами Gan'ы могут остаться, как добавочный режим тренеровки. Уверен, что это просто будет рутинная возможноть получить дополнительные градиенты с дискриминатора, если это необходимо.
Даже не собираюсь этот бред переваривать.
Что при zero-shot новые градиенты не высчитываются не влияют на сеть, это и ежу понятно. Вы это пытались описать в сотне предложений…
К GPT-3 и к DALL·E может быть применим one-shot learning. Если Вы не согласны или не являетесь специалистом в этой сферы, или просто не владеете терминологией, то отличным решением будет написать еще сотню комментариев. Чем Вы, собственно, только и занимаетесь, судя по активности Вашего профиля.
Выйдет код. Вперед. Попробуйте one-shot learning. Если ничего не выйдет, то доказывайте. Пишите статьи. А не разбрасывайтесь словами и оскорблениями. С этого момента я перестаю Вам отвечать.
Ясно, понятно. Спасибо за активность!
Также, сотрудники из openai выразили озадаченность тем, что уровень реалистичности и результаты работы современных генеративных моделей могут оказать сильное влияние на общество. И опасаются за возможные неоднозначные социальные и экономические последствия использования подобных технологий.
Теперь этот абзац не кажется таким уж абстрактным.
А как это все связано с «генерацией изображений по тексту» и с тематикой поста?
lpssp к DALL·E применим one-shot learning. И спасибо, мне ссылок не надо, терминологией я владею. Именно поэтому и не расписываю на десятки продолжений односложную мысль.

michael_v89 Оказался не прав в чем? О какой критике Вы говорите? У меня такое чувство, что спор беспредметный. И не только я это подмечал, если Вы заметили. А кого я обвинял и в чем? И, кстати, про интеллект. Ваша статья Что такое интеллект? и Ваш последний комментарий к ней:
Вот если бы вы изложили критику, можно было говорить более предметно, а так получается именно болтовня с оскорблениями.
Может опять совпадение…
Тогда к чему эта аналогия с незрячими?

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность