Pull to refresh
39
0
Михаил Константинов@Dirac

Research Teem Lead at Squad, канал «Мишин Лернинг»

Send message
Боюсь Вас огорчить, но к DALL · E применим one-shot learning. И никаких ограничений на это нет.
Все это позволяет говорить о том, что получить качественные разнообразные результаты(хотя бы как кресло-авокадо) с one-shot техникой не получится.
Но как-то получилось же. И даже без one-shot. Тут и zero-shot с головой, а с one-shot и подавно будет.

У меня возник вопрос… А Вы, случайно lpssp и michael_v89 не один и тот же человек?

Вот в комментариях к В работе сервисов Google произошёл масштабный сбой тоже вместе фигурируете.

Может и совпадение…

habr.com/ru/news/t/532968
1. Понял Вашу интерпретацию.
матрица инцидентности
имеет bool значения. А тут float (если без квантизации). Тут граф (его топология) задается уже архитектурой сети. Дальше при обучении меняется матрица перехода, если мы говорим про полносвязные слои (не касается DALL · E, просо легкий для понимания пример), то матрица инцидентности буде треугольная матрицей из единиц и нулей. Веса — это матрица трансформации. Умножаете ее на вход в слой и всех делов.
2. Зависит от числового типа. Умножаем кол-во параметров ~12 000 000 000 на кол-во бит, кодируем архитектуру сети со всеми операциями. Столько и будет весить.
То о чем вы говорите и называется few-shot-learning или one-shot-learning. В статье говорится про zero-shot возможности DALL · E на разном сете задач.
1. Почему Вы решили, что DALL · E не способен на n-shot-learning?
2. Почему GPT-3 по-Вашему может, а DALL · E нет?
3. Есть ли какие-то архитектурные ограничения DALL · E или какая-то другая причина?
Как точно подмечено!!! Если загуглить an emoji of a baby penguin wearing a blue hat, red gloves, green shirt, and yellow pants, то я увижу именно эти картинки. Правда им всем почему-то около суток… возможно совпадение… image

По любой из этих двух причин ваш аргумент про GPT-3 мне кажется не корректным и вторая причина объясняет необходимость «тысяч и тысяч картинок».
Откуда у Вас такие сведения, у меня другая информация.image
Видно DALL · E лучше сформировал скрытую репрезентацию Дарта Вейдера чем Йоды.
Но помни: гнев, страх — это всё ведет на темную сторону Силы.
Как только ты сделаешь первый шаг по темному пути,
ты уже не сможешь с него свернуть…
image
Спасибо за примеры! Действительно, с Йодой далеко не все изображения. Тоже выбрал этот вариант, не лучшие примеры выходят.
Близко. Это размер матрицы или тензора весов. И все зависит от типа слоя. Например, для полносвязных FC-слоев, если в предыдущем слое 512 нейронов, а в интересующем нас 1024 нейрона, то в это слое будет 512 * 1024 = 524288 обучаемых параметра, не учитывая bias'ы и обучаемы параметры в нормализациях и активациях, если такие параметры есть.
По сути количество обучаемых параметров зависит от «нейронов», ну а если более точно, то от типа операции в слое (или даже блоке) сети, bias'ов, функции активации (e.g., prelu), и типа нормализаций при этом слое.
Так и есть. CLIP это вторая
нейросеть, которая выделит 32 лучших примера из 512 сгенерированных первой сетью
DALL · E
1. Про «сомнительное утверждение». Можно прикинуть сколько визуальной информации проходит через наш мозг за жизнь.
2. Про то, сможет ли нейронка нарисовать «кресло в форме авокадо» если ей скормить 1 авокадо и 1 кресло. С чего вы решили, что 2х фотографий не будет достаточно? Зачем тысячи и сотни тысяч картинок авокадо и кресел? image Картинка из оригинального пейпера GPT-3, ссылка на предыдущий пост про Итоги ИИ 2020. Тут как раз видно сколько нужно shot'ов (примеров) для адаптации предобученной GPT-3 для адаптации под конкретный домен. А именно GPT-3, является основой DALL · E
И как мне кажется примеры с «Улиткой-Арфой» и «Гостиной с двумя белыми креслами и картиной Колизея, установленной ​​над современным камином» очень интересны и разнообразны. И показывают, что сеть справляется с этой задачей. Да не идеально. Но местами очень хорошо, и главное оригинально. А еще всего каких-то два года назад эта задача была вообще не решена. Разве это не восхитительно?
Действительно, а кто говорит о сильном ИИ? В статье рассказывается об актуальном на сегодняшний день нейросетевом методе генерации изображений из текста.
Не понял, что на входе, кроме текста, у нейросети?
Может быть только текст, а может быть и текст и начало изображения (для его продолжения):
DALL · E — это декодер-трансформер, который принимает и текст, и изображение в виде единой последовательности токенов (1280 токенов = 256 для текста + 1024 для изображения) и далее генерирует изображения авторегрессивном режиме.
Здесь нужно понимать как работают подобные трансформеры и как именно работает decoder часть encoder-decoder трансформеров. По сути вы можете интерпретировать работу DALL · E, как нейронный машинный перевод из текста в изображение. И оперировать токенами. В таком режиме (авторегрессивном) сеть способна генерировать как и новые изображения, так и заканчивать (догенеривать) уже начатые, как в примере с Гомером.
И что за 12 мрд параметров?
У нейронной сети есть своя архитектура (топология) и обучаемые парамтеры, кторые тренеруются в процессе обучения нейронной сети. У DALL · E этих обучаемых параметров ~12 000 000 000.

Я ответил на Ваш вопрос?
А что Вы пытаетесь показать? Не могу уловить месседж. Эта фраза:
Эта нейросеть пока не демонстрирует интеллект уровня человека, чтобы можно было сравнивать ее поведение с человеком.

  • Что значит интеллект уровня человека ? Человек не сможет так нарисовать..
  • Кто-то сравнивал ее с человеком? Если да, то кто и зачем?
  • Если что-то или кто-то не демонстрирует интеллект уровня человека, то с этим чем-то или кем-то нельзя сравнивать? Если да, то почему?
  • Что значит «эта сеть пока не демонстрирует»? Нейронные сети и конкретно DALL · E это одна развивающаяся во времени сеть?
  • Кто сравнивает поведение DALL · E с поведением человека?
  • О каком поведении идет речь? Это не rl модель. Она себя не ведет.


И последний вопрос: «У очков может быть только две дужки?»
Ну у Сальвадора Дали тоже не все прям ровно было..image«Постоянство памяти» (исп. La persistencia de la memoria, 1931)

Information

Rating
Does not participate
Registered
Activity