Dirac Jan 6 2021 at 01:31

DALL·E от OpenAI: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

5 min

80K

Python*Programming*Algorithms*Machine learning*Artificial Intelligence

+30

122

Comments 122

SinsI Jan 6 2021 at 06:24

Очень хотелось бы веб-морду, чтобы каждый мог поиграться с этой нейросетью самостоятельно…
Без этого как-то даже не верится, что это действительно результаты работы не человека.
Или это действительно нейросеть, но авторы вручную отфильтровали 99% шлака…

Dirac Jan 6 2021 at 09:49

И мне мы хотелось поиграть с моделью. По поводу качества результатов, у меня нет поводов не доверять ребятам из openai. Они написали, что не делали ручной «cherry picking»:

Давайте посмотрим на примеры, которые говорят сами за себя. Исследователи утверждают, что не использовали ручной «cherry picking». Примерами являются изображения, полученные при помощи DALL · E, в которых используются 32 лучших примера из 512-ти сгенерированных, отобранных созданным ранее (теми же openai) нейронным ранжированием CLIP.

То есть, по сути, это и есть cherry picking, но не ручной, а при помощи другой модели. Я считаю, что это вполне честно. Мы же не пишем и не говорим все то, что пришло к нам в голову, а фильтруем и выбираем, что говорить и что писать.

Tarson Jan 6 2021 at 19:52

Надо вторую нейросеть, которая выделит 32 лучших примера из 512 сгенерированных первой сетью…

Dirac Jan 6 2021 at 20:36

Так и есть. CLIP это вторая

нейросеть, которая выделит 32 лучших примера из 512 сгенерированных первой сетью

DALL · E

enclis Jan 7 2021 at 10:22

Не похоже, что они тщательно отбирали результаты. К примеру, a living room with two red armchairs and a painting of yoda. the painting is mounted behind a ceiling fan:

Я конечно сам делал «cherry picking» самых плохих вариантов. В остальных случаях оно заметно лучше. А вообще, года бы 3-4 назад даже такой результат считался бы просто сногшибательным.

Dirac Jan 7 2021 at 11:24

Спасибо за примеры! Действительно, с Йодой далеко не все изображения. Тоже выбрал этот вариант, не лучшие примеры выходят.

Dirac Jan 7 2021 at 11:33

Видно DALL · E лучше сформировал скрытую репрезентацию Дарта Вейдера чем Йоды.

Но помни: гнев, страх — это всё ведет на темную сторону Силы.
Как только ты сделаешь первый шаг по темному пути,
ты уже не сможешь с него свернуть…

Dirac Jan 7 2021 at 11:36

Dirac Jan 7 2021 at 12:09

Вставил два раза одно и тоже… Хотел это:

michael_v89 Jan 6 2021 at 07:00

Также, сотрудники из openai выразили озадаченность тем, что уровень реалистичности и результаты работы современных генеративных моделей могут оказать сильное влияние на общество.
например "кресло в форме авокадо."
a snail made of harp

Поискал картинки, везде рисуют каких-то несуществующих животных или мультяшные фигуры. Как-то не очень заметна реалистичность.
На рисунке с очками лишние дужки присутствуют, на рисунке со стаканами стаканы какие-то кривые.

Забавно, что алгоритм способен к мультимодальности, и справляется с неоднозначностью слова glasses в английском языке.

А по-моему нифига не справляется, то одно рисует, то другое. Если бы справлялся, то уточнил бы, или один и тот же смысл всегда выбирал. На первом в третьем ряду вообще оба сразу присутствуют.

DALL · E выучил исторический и географический контекст

А по-моему он просто запомнил связь слов с картинками — "1920" чаще встречается с одними картинками, "1940" с другими. ОБработка морфологии слов хорошая конечно, а вот про контекст как-то сомнительно.

В целом думаю так. Это все круто, но бесполезно. Ни для какого-то серьезного практического применения, ни для развития ИИ в целом. Вот научилась нейросеть картинки рисовать, приблизило это нас к пониманию, как сделать сильный ИИ? Похоже что нет. Новых закономерностей не выявлено, все подходы к обработке информации были известны и ранее. Как у нее кстати с русским языком, надо заново тренировать? Похоже что так.

Vinchi Jan 6 2021 at 08:50

С обобщением у вас точно не получилось. Я наоборот вчера только думал а как бы по тексту чтоб фильм автоматом создавался. А тут такое. Этот шаг с генерацией изображений по тексту очень важен. И в том числе для сильного ии. Когда мы говорим чтото друг другу мы порождаем образы у собеседника.

UFO landed and left these words here

Alexey2005 Jan 6 2021 at 12:46

Экскаватор не способен заменить человека с лопатой. Он может применяться лишь для весьма ограниченного числа задач, чрезвычайно дорог, требует обслуживания и квалифицированного оператора.
Значит ли это, что человечеству не нужны экскаваторы?

michael_v89 Jan 6 2021 at 13:07

Не значит. Но корректность аналогии данной сети с экскаватором не доказана. Поэтому вполне может быть так, что экскаваторы нужны, а эта нейросеть бесполезна.

inkelyad Jan 6 2021 at 13:14

Аналогия вполне хорошая. Экскаватор — усилитель умения копать.

Скажем, при помощи текстовой GPT-3 я могу накидать себе текст гораздо лучше, чем это получается только у меня самого. Имеем усилитель писательских талантов.

А эта сеть — позволит мне делать приемлемые иллюстрации для этого текста, когда я сам рисую почти никак. Получили усилитель умения рисовать.

michael_v89 Jan 6 2021 at 13:23

Так я и написал "серьезного практического применения". Для себя поиграться-то конечно можно с любой технологией.

Аналогия вполне хорошая. Экскаватор — усилитель умения копать.

Из этого не следует, что остальные их свойства (например полезность для человечества) тоже являются аналогичными. Аналогии вообще применяются для пояснения, а не для доказательства.

inkelyad Jan 6 2021 at 13:31

Так я и написал "серьезного практического применения".

Написание всяких речей для политиков разного калибра пойдет за 'серьезное'?

Все эти сценарии из разных антиутопий, где мифический правитель читает воодушевляющие автоматически сгенерированные речи — уже практически возможны.

Полезность тут, конечно, сильно зависит от того, в какую сторону используется, но тем не менее возможную серьёзность вполне демонстрирует.

michael_v89 Jan 6 2021 at 13:51

пойдет за 'серьезное'?

Неа. Сгенерировать 10 вариантов, из которых человек потом будет выбирать наиболее осмысленный, это несерьезно. Вот если бы ИИ сам наиболее осмысленный выбирал, тогда еще можно было бы согласиться.

Я вообще имел в виду то, что написано в статье — генерацию изображений по описанию.

Dirac Jan 6 2021 at 14:02

В этой работе как раз и используется подобный метод:

Исследователи утверждают, что не использовали ручной «cherry picking». Примерами являются изображения, полученные при помощи DALL · E, в которых используются 32 лучших примера из 512-ти сгенерированных, отобранных созданным ранее (теми же openai) нейронным ранжированием CLIP.

Именно то, что Вы описали:

Вот если бы ИИ сам наиболее осмысленный выбирал, тогда еще можно было бы согласиться.

michael_v89 Jan 6 2021 at 14:07

Нет, не то. Очки с 3 дужками и кривые стаканы это не "наиболее осмысленный".

Dirac Jan 6 2021 at 14:26

Ну у Сальвадора Дали тоже не все прям ровно было..

«Постоянство памяти» (исп. La persistencia de la memoria, 1931)

michael_v89 Jan 6 2021 at 14:44

А разве этой нейросети было задание сгенерировать изображения в стиле Дали? Если нет, значит это ошибка в выполнении задания.

Elegar Jan 6 2021 at 15:00

«Я художник, я так вижу»
Человек вполне может нарисовать очки как с тремя, так и вовсе без дужек и это назовут «творчество». Еще недавно ИИ обвиняли в том, что он действует сугубо по программе и не способен к творческому подходу. Теперь, когда он создает творческие образы, его обвиняют в том, что он не способен решить задачу достаточно четко. Да вам, человекам, не угодишь…

А как бы вы сами нарисовали очки, если бы у вас не было возможности уточнить запрос, но была бы возможность выдать несколько вариантов?

michael_v89 Jan 6 2021 at 16:28

Теперь, когда он создает творческие образы

Не создает. Сначала докажите, что это творческие образы, а не ошибка в выполнении задачи. А то так и генератор случайных чисел можно творческим назвать.

его обвиняют в том, что он не способен решить задачу достаточно четко. Да вам, человекам, не угодишь…

Да, если решать задачу не так как требуется, то будут обвинять в том, что задача не решена. Какая неожиданность)

А как бы вы сами нарисовали очки, если бы у вас не было возможности уточнить запрос, но была бы возможность выдать несколько вариантов?

Это некорректный вопрос. Эта нейросеть пока не демонстрирует интеллект уровня человека, чтобы можно было сравнивать ее поведение с человеком.
Проблема тут как раз в том, какого черта у нее один из вариантов это очки с 3 дужками. Она ведь точно знает, что у очков 2 дужки. Или… не знает?

Dirac Jan 6 2021 at 16:59

А что Вы пытаетесь показать? Не могу уловить месседж. Эта фраза:

Эта нейросеть пока не демонстрирует интеллект уровня человека, чтобы можно было сравнивать ее поведение с человеком.

Что значит интеллект уровня человека ? Человек не сможет так нарисовать..
Кто-то сравнивал ее с человеком? Если да, то кто и зачем?
Если что-то или кто-то не демонстрирует интеллект уровня человека, то с этим чем-то или кем-то нельзя сравнивать? Если да, то почему?
Что значит «эта сеть пока не демонстрирует»? Нейронные сети и конкретно DALL · E это одна развивающаяся во времени сеть?
Кто сравнивает поведение DALL · E с поведением человека?
О каком поведении идет речь? Это не rl модель. Она себя не ведет.

И последний вопрос: «У очков может быть только две дужки?»

michael_v89 Jan 6 2021 at 18:04

А что Вы пытаетесь показать?

"Если нет, значит это ошибка в выполнении задания".

Что значит интеллект уровня человека?

Я уже несколько раз повторил — применительно к данной нейросети это значит, что очки надо рисовать с 2 дужками, а стаканы в форме стаканов.

Кто-то сравнивал ее с человеком? Если да, то кто и зачем?
Кто сравнивает поведение DALL · E с поведением человека?

Да. Elegar в этом комментарии, во фразе, которую я процитировал. Зачем, не знаю, спросите у него.

Если что-то или кто-то не демонстрирует интеллект уровня человека, то с этим чем-то или кем-то нельзя сравнивать?

Если что-то или кто-то не демонстрирует интеллект уровня человека, то это что-то или этого кого-то нельзя сравнивать с человеком. В частности, вопросами "как бы вы сами это сделали". Неважно, как бы я это сделал, нейросеть (которая не демонстрирует интеллект уровня человека) делает это по другим причинам. Например, выбирает генератором случайных чисел.

Нейронные сети и конкретно DALL · E это одна развивающаяся во времени сеть?

Нет. Из моих слов это не следует.

Что значит «эта сеть пока не демонстрирует»?

Ну то и значит — нейросеть DALL · E, описанная в статье, на данный момент не демонстрирует интеллект уровня человека. Возможно кто-то через некоторое время найдет способ дообучить такую сеть, не добавляя какие-то новые принципы работы, и она будет демонстрировать интеллект уровня человека. Но я в этом сомневаюсь.

О каком поведении идет речь? Это не rl модель. Она себя не ведет.

Поведение (словарь Ушакова) — Совокупность поступков и действий
Поведение (справочник технического переводчика) — Совокупность действий, изменений изучаемой системы, ее всякая реакция на внешние воздействия

Любая система, совершающая какие-то действия, как-то себя ведет. Действия DALL-E — генерация изображений по заданному тексту.

У очков может быть только две дужки?

У очков не может быть такой дужки, которая указана на рисунке. Это некорректное выполнение задания "нарисуй очки". У нее вообще ни на одном рисунке нет правильно нарисованных дужек.

Elegar Jan 6 2021 at 17:51

Сперва докажите, что картина Ван Гога — это не ошибка в выполнении задачи:)

Разумеется, нейросеть не знает ничего про то, как и зачем устроены очки. Она не имела возможности одеть их или хотя бы покрутить в руках. Она знает лишь, что очки выглядят примерно вот так. С другой стороны, и требования рисовать исключительно реалистичные очки или очки с двумя дужками у нее не было. Вы сами придумали это требование. Возможно, если бы в запросе уточнили, что должно быть именно 2 дужки, то она бы так и нарисовала. То, что эта нейронка умеет считать (правда, всего до трех), вы бы поняли сами, если бы прочитали оригинал статьи — пример с очками иллюстрирует как раз это, только считает она там не дужки, а сами очки

PS Если бы мне сказали нарисовать 30 разных картинок с очками, я бы тоже стал всякие дурацкие вариации придумывать.

michael_v89 Jan 6 2021 at 18:24

Сперва докажите, что картина Ван Гога — это не ошибка в выполнении задачи:)

Да запросто — у Ван Гога была задача "нарисуй очки"? Если нет, то это не ошибка в выполнении задачи.
Кроме того, про челоека нам уже известно, что у него есть интеллект. Поэтому нестандартные выполнения задачи мы называем творчеством. Мы знаем, что если человек захочет сделать задачу правильно, то он так и сделает.
А про нейросети мы такого сказать не можем. Более того, если на уроке рисования ученик нарисует очки неправильно, учитель ему снизит оценку. Так как это тоже ошибка в выполнении задания.

С другой стороны, и требования рисовать исключительно реалистичные очки или очки с двумя дужками у нее не было.

Было. "a collection of glasses sitting on the table". Если не указано иное, надо рисовать правильно.
Это как раз к вопросу про интеллект уровня человека.

Возможно, если бы в запросе уточнили, что должно быть именно 2 дужки, то она бы так и нарисовала.

Это ничем не отличается от обычного программирования, какой же это тогда интеллект?

Если бы мне сказали нарисовать 30 разных картинок с очками, я бы тоже стал всякие дурацкие вариации придумывать.

А почему вы бы это стали делать? Какие понятия возникли бы в вашем воображении, какие информационные элементы активировались при выполнении этого решения? Разница именно в этом. Генератор случайных чисел тоже разные вариации придумывает. Будем считать его сильным ИИ?

Elegar Jan 6 2021 at 18:53

Так, погодите, о чем мы тут дискутируем вообще? Никто ни в коем случае не называет это сильным ИИ.

Если не указано иное, надо рисовать правильно.

Фактически, у нас тут безблагодатный спор об определениях. Вы считаете, что сеть обязана рисовать правильно. Я считаю, что не обязана. Как можно правильно нарисовать кресло в форме авокадо? Слона в форме арфы? Если мы хотим чтобы она рисовала абстрактные вещи, то мы должны прощать ей «свободу выражения» (пишу в кавычках, чтобы подчеркнуть, что не очеловечиваю ее).

michael_v89 Jan 7 2021 at 03:05

del

michael_v89 Jan 7 2021 at 03:22

Фактически, у нас тут безблагодатный спор об определениях. Вы считаете, что сеть обязана рисовать правильно.

Она обязана рисовать правильно, потому что ей не было задания рисовать неправильно.
Очки с 2 дужками это то, что представляет любой человек при слове "очки". Даже если он с 4 дужками представляет, он все равно знает, что другие люди подразумевают более стандартную форму. Это и есть интеллект уровня человека, и данная сеть его не демонстрирует. Поэтому я так и сказал.

И кстати об определениях.
Очки — Прибор с двумя стеклами для улучшения зрения или для защиты глаз, надеваемый на переносицу и держащийся на ней при помощи двух дужек, закладываемых за уши.

Как можно правильно нарисовать кресло в форме авокадо?
Если мы хотим чтобы она рисовала абстрактные вещи

А при чем тут авокадо и абстрактные вещи? Я говорил про очки и стаканы.
И да, на первом во втором ряду кресло нарисовано неправильно. Такой ножки у такого кресла быть не может, оно упадет. Тут конечно требуется понятие гравитации, с которым сеть не знакома, но нарисовать неправильно можно.

Bluefox Jan 7 2021 at 14:12

Можешь лучше? Сделай!

Dirac Jan 6 2021 at 18:54

Действительно, а кто говорит о сильном ИИ? В статье рассказывается об актуальном на сегодняшний день нейросетевом методе генерации изображений из текста.

Dirac Jan 6 2021 at 18:59

И как мне кажется примеры с «Улиткой-Арфой» и «Гостиной с двумя белыми креслами и картиной Колизея, установленной над современным камином» очень интересны и разнообразны. И показывают, что сеть справляется с этой задачей. Да не идеально. Но местами очень хорошо, и главное оригинально. А еще всего каких-то два года назад эта задача была вообще не решена. Разве это не восхитительно?

michael_v89 Jan 7 2021 at 03:29

Действительно, а кто говорит о сильном ИИ?

Ну я об этом сказал:
"Это все круто, но бесполезно. Ни для какого-то серьезного практического применения, ни для развития ИИ в целом."
А мне начали возражать, что это не так.

И потом Elegar задал вопрос "А как бы вы сами нарисовали очки?". Это тоже разговор о сильном ИИ, который есть у человека.

Разве это не восхитительно?

Я не говорил, что это не восхитительно. Я сразу сказал, что да, это круто. Только бесполезно.

keydach555 Jan 8 2021 at 19:17

я открою вам небольшой секрет — бывают очки с одной дужкой и вообще без дужек — монокль и пенсне называются ) поэтому требование наличия двух дужек это конкретно ваше требование. Я лично носил пару дней очки с одной отвалившейся дужкой, вторая сидела на ухе как влитая и очки продолжали быть очками. Это не требование к ИИ, а Ваши личные загоны

UFO landed and left these words here

michael_v89 Jan 9 2021 at 00:39

Открою вам небольшой секрет — монокль и пенсне называются "монокль" и "пенсне", а не "очки". На английском "monocle" и "pince-nez", а не "glasses".

А поиск в Google-картинках по запросу "glasses" выдает только очки с 2 дужками, а не монокль или пенсне.

Я лично носил пару дней очки с одной отвалившейся дужкой
Это не требование к ИИ, а Ваши личные загоны

То есть я должен был ожидать, что ИИ по текстовому запросу "glasses" должен нарисовать очки с 3 дужками, потому что вы носили пару дней очки с одной дужкой, причем об этом я вообще не знал до того, как вы про это сообщили? Извините, но это ваши загоны. А у остальных людей слово "очки" означает очки с 2 дужками, если иное не указано явно.

Dirac Jan 10 2021 at 17:03

Согласен с Вами, keydach555, так оно и есть.

Но не тратьте Ваше время на этот спор)

UFO landed and left these words here

inkelyad Jan 6 2021 at 14:12

И почему всегда желания такие максимальные?

Экскаватор — он же тоже не сам капает. Он помогает человеку выкопать больше. И радикально уменьшает требование к физической подготовке этого человека. И швейная машинка не сама шьет. А автомобиль до недавних пор не сам ездил.

И тут так же. GPT-3 помогает одному человеку налить больше красивой длинной воды на любую заданную тему, не особенно напрягаясь и значительно убирает требование умения красиво писать.

michael_v89 Jan 6 2021 at 14:20

Ну и пусть убирает. Обычные программы без ИИ тоже много работы за человека делают. Я не понимаю, на что вы возражаете.

"Налить больше красивой длинной воды" в моем понимании
это не "серьезное практическое применение искусственного интеллекта".

inkelyad Jan 6 2021 at 15:09

Я не понимаю, на что вы возражаете.
Против утверждения, что у того, что уже получилось, невозможно серьёзное практическое применение.

michael_v89 Jan 6 2021 at 16:32

Ну так и невозможно. Вернее, я сказал "бесполезно". Для развлечений всяких да. Для решения серьезных задач нет. Может быть можно придумать какую-то задачу, которую мы будем считать серьезной, специально для этой технологии, но в решении существующих серьезных задач она не помогает.

Dirac Jan 6 2021 at 13:25

«Вопрос о том, может ли компьютер думать, не более интересен,
чем вопрос о том, может ли субмарина плавать».

Эдсгер Вибе Дейкстра

UFO landed and left these words here

inkelyad Jan 6 2021 at 13:02

Можно считать, что данные сетки — это 'коллективное бессознательное' всего человечества. Вполне ценный артефакт для таканья палочкой и исследования.

Dirac Jan 6 2021 at 13:25

Интересная интерпретация

inkelyad Jan 6 2021 at 13:32

Очевидная интерпретация, если понимать что все эти сети 'ИИ' — не Искусственный Интеллект, а Искусственная Интуиция. Все понимает, 'нутром' ответ чует, но объяснить не может.

aropot Jan 6 2021 at 21:25

Человеческий мозг — примерно такая же статистическая система, только ещё более продвинутая. Сам человек по умолчанию тоже не может решить, что медведь — это очки, т.к. всё его знание — это опыт в том или ином виде. Если человека с рождения обучать радикально иному стилю мышления, то он будет пользоваться именно им. Что же, человек тогда тоже лишь мешок слов? Человек, воспринимая образ очков, тоже вряд ли считает их дужки, ведь фантастические очки с трёмя дужками на трёхухом человеке (или без него) мы распознаем как очки (но по другим их свойствам). Обобщение, абстрагирование — вот что важно. Думаю, что эти алгоритмы далеко продвинутся в этом деле чисто за счёт увеличения моделей. Хотя для сильного ИИ необходима, как мне кажется, намного большая динамика процессов (и петель обратной связи) и намного больше контекста.

rapatar Jan 7 2021 at 00:15

Спросил у девушки что она хочет на новый год, духи или планшет, выбрала второе, в итоге подарил ей клипборд.

michael_v89 Jan 6 2021 at 13:04

Этот шаг с генерацией изображений по тексту очень важен. И в том числе для сильного ии.

Как именно важен-то? Что он дает?

Когда мы говорим чтото друг другу мы порождаем образы у собеседника.

Да, только нам не надо для этого изучать миллионы изображений. И слово порождает именно образ, а не картинку. Образ это результат информационной обработки картинки, со всеми нужными ассоциациями. Он вообще может быть не визуальный, как шум моря например.

Dirac Jan 6 2021 at 13:16

Да, только нам не надо для этого изучать миллионы изображений

Скорее всего у нас (у людей) речь идет не о миллионах, а о миллиардах изображений.

michael_v89 Jan 6 2021 at 13:34

Нет. Есть люди, слепые от рождения. Но говорить они учатся примерно в одно время с обычными. Они понимают речь, отслеживают объекты, описанные в тексте, но миллиардов изображений тут нет. И миллиардов слов нет, люди не говорят слова с частотой 60 слов в секунду.

Dirac Jan 6 2021 at 14:06

К сожалению, слепые от рождения люди не могут решать задачу генерации изображений по текстовому описанию.

michael_v89 Jan 6 2021 at 14:14

Я отвечал на фразу "Когда мы говорим что-то друг другу, мы порождаем образы у собеседника", пример про миллион изображений относится к ней, а не к статье.

Я вам больше скажу, большинство людей не могут решать задачу генерации изображений по текстовому описанию. Не так уж много людей умеют хорошо рисовать. Значит это умение для возможностей интеллекта не требуется. Потому я и говорю, что для развития ИИ пользы от этого мало.

Dirac Jan 6 2021 at 14:23

Тогда не совсем понял, что именно Вы вкладываете в понятие ИИ. Данная сеть решает конкретную «интеллектуальную задачу» генерации изображений по текстовому описанию. Это же не general ИИ. Это инструмент для решения «интеллектуальных задач».

michael_v89 Jan 6 2021 at 14:40

Я написал "для развития ИИ". Пусть решает, я с этим не спорю. Только практической пользы в задачах, для решения которых хотят изобрести сильный ИИ, или пользы для собственно изобретения этого ИИ, пока не наблюдается. Это шаг в сторону. Круто, но бесполезно. Бесполезно не вообще, а для достижения изначальных целей, для которых это все затевалось.

Dirac Jan 6 2021 at 19:02

А для каких целей это все затевалось?

inkelyad Jan 6 2021 at 19:19

Чтобы выкинуть человека откуда возможно. И совершенно необязательно, чтобы замена проявляла человеческий интеллект или думала как человек.

Скажем, с этой сеткой заказчик даст задание 'нарисуй кресло в виде...', просмотрит 100 сгенерированных за час (ну или сколько они создаются — вряд ли медленней чем человеком) картинок и потом отдаст самый понравившийся результат дальше.

При этом нанимать толпу художников не потребовалось.

michael_v89 Jan 7 2021 at 03:34

И совершенно необязательно, чтобы замена проявляла человеческий интеллект или думала как человек.

Обязательно. Она как минимум должна выделять те же объекты и процессы, что и человек. Иначе она не сможет заменить человека в этих задачах, у человека будет преимущество.

UFO landed and left these words here

Dirac Jan 6 2021 at 20:34

1. Про «сомнительное утверждение». Можно прикинуть сколько визуальной информации проходит через наш мозг за жизнь.
2. Про то, сможет ли нейронка нарисовать «кресло в форме авокадо» если ей скормить 1 авокадо и 1 кресло. С чего вы решили, что 2х фотографий не будет достаточно? Зачем тысячи и сотни тысяч картинок авокадо и кресел?

Картинка из оригинального пейпера GPT-3, ссылка на предыдущий пост про Итоги ИИ 2020. Тут как раз видно сколько нужно shot'ов (примеров) для адаптации предобученной GPT-3 для адаптации под конкретный домен. А именно GPT-3, является основой DALL · E

UFO landed and left these words here

enclis Jan 7 2021 at 10:56

Zero-shot / one-shot / few-shot (learning) вам вообще ни о чём не говорит? DALL·E как и GPT-3 тоже умеет в такое. Раздел «Zero-shot visual reasoning» оригинальной статьи.

Dirac Jan 7 2021 at 11:41

По любой из этих двух причин ваш аргумент про GPT-3 мне кажется не корректным и вторая причина объясняет необходимость «тысяч и тысяч картинок».

Откуда у Вас такие сведения, у меня другая информация.

UFO landed and left these words here

Dirac Jan 7 2021 at 12:58

То о чем вы говорите и называется few-shot-learning или one-shot-learning. В статье говорится про zero-shot возможности DALL · E на разном сете задач.
1. Почему Вы решили, что DALL · E не способен на n-shot-learning?
2. Почему GPT-3 по-Вашему может, а DALL · E нет?
3. Есть ли какие-то архитектурные ограничения DALL · E или какая-то другая причина?

UFO landed and left these words here

Dirac Jan 7 2021 at 15:06

Боюсь Вас огорчить, но к DALL · E применим one-shot learning. И никаких ограничений на это нет.

Все это позволяет говорить о том, что получить качественные разнообразные результаты(хотя бы как кресло-авокадо) с one-shot техникой не получится.

Но как-то получилось же. И даже без one-shot. Тут и zero-shot с головой, а с one-shot и подавно будет.

У меня возник вопрос… А Вы, случайно lpssp и michael_v89 не один и тот же человек?

Вот в комментариях к В работе сервисов Google произошёл масштабный сбой тоже вместе фигурируете.

Может и совпадение…

habr.com/ru/news/t/532968

UFO landed and left these words here

michael_v89 Jan 7 2021 at 16:01

У меня возник вопрос… А Вы, случайно lpssp и michael_v89 не один и тот же человек? Вот в комментариях тоже вместе фигурируете.

А вы всегда на личности переходите, если других аргументов нет?
Вы вот в комментариях к данной статье вместе с парой десятков других людей фигурируете. Может вы один и тот же человек? Или может вы настолько не умеете воспринимать критику, что готовы обвинять окружающих направо и налево, лишь бы не признавать, что вы оказались не правы?

Dirac Jan 7 2021 at 16:50

lpssp к DALL·E применим one-shot learning. И спасибо, мне ссылок не надо, терминологией я владею. Именно поэтому и не расписываю на десятки продолжений односложную мысль.

michael_v89 Оказался не прав в чем? О какой критике Вы говорите? У меня такое чувство, что спор беспредметный. И не только я это подмечал, если Вы заметили. А кого я обвинял и в чем? И, кстати, про интеллект. Ваша статья Что такое интеллект? и Ваш последний комментарий к ней:

Вот если бы вы изложили критику, можно было говорить более предметно, а так получается именно болтовня с оскорблениями.

Может опять совпадение…

UFO landed and left these words here

Dirac Jan 7 2021 at 17:53

Даже не собираюсь этот бред переваривать.
Что при zero-shot новые градиенты не высчитываются не влияют на сеть, это и ежу понятно. Вы это пытались описать в сотне предложений…
К GPT-3 и к DALL·E может быть применим one-shot learning. Если Вы не согласны или не являетесь специалистом в этой сферы, или просто не владеете терминологией, то отличным решением будет написать еще сотню комментариев. Чем Вы, собственно, только и занимаетесь, судя по активности Вашего профиля.
Выйдет код. Вперед. Попробуйте one-shot learning. Если ничего не выйдет, то доказывайте. Пишите статьи. А не разбрасывайтесь словами и оскорблениями. С этого момента я перестаю Вам отвечать.

UFO landed and left these words here

michael_v89 Jan 7 2021 at 17:18

Оказался не прав в чем?

В споре с вашим собеседником.

О какой критике Вы говорите?

О критике ваших утверждений.

У меня такое чувство, что спор беспредметный.

А когда начинается переход на личности, обычно так и бывает. Из чего следует, что для конструктивной дискуссии переходить на личности не следует.

А кого я обвинял и в чем?

Обвиняли меня и/или lpssp в том, что я/он притворяюсь кем-то другим и пишу с двух разных аккаунтов, что не разрешается правилами данного сайта.

И, кстати, про интеллект. Ваша статья Что такое интеллект? и Ваш последний комментарий к ней:

Ну да, это мой комментарий к моей статье. Что следует из этого факта и с чем именно совпадение, я не понял, извините. Формулируйте выводы словами пожалуйста, я не умею мысли читать.

Dirac Jan 7 2021 at 17:48

Ясно, понятно. Спасибо за активность!

enclis Jan 9 2021 at 08:12

Почитайте про CLIP, что ли, если не верите в zero-shot. Задача там другая решается, но это не суть.

michael_v89 Jan 7 2021 at 04:01

Можно прикинуть сколько визуальной информации проходит через наш мозг за жизнь.

Я же вам уже приводил пример про людей, которые не видят. У них вообще нисколько визуальной информации не проходит. Тем не менее, они понимают речь, то есть слова "порождают у них образы".

Dirac Jan 7 2021 at 11:41

Визуальные образы?

michael_v89 Jan 7 2021 at 14:33

Нет, вряд ли они визуальные. А должны быть?

Dirac Jan 7 2021 at 15:19

Тогда к чему эта аналогия с незрячими?

michael_v89 Jan 7 2021 at 15:46

Ну раз вы за веткой не следите, и вам лень ее прочитать, скопирую специально для вас.

Vinchi:
Этот шаг с генерацией изображений по тексту очень важен. И в том числе для сильного ии. Когда мы говорим чтото друг другу мы порождаем образы у собеседника.

michael_v89:
Да, только нам не надо для этого изучать миллионы изображений.

Dirac:
Скорее всего у нас (у людей) речь идет не о миллионах, а о миллиардах изображений.

lpssp:
Очень сомнительное утверждение.

Dirac:
Можно прикинуть сколько визуальной информации проходит через наш мозг за жизнь.

michael_v89:
Я же вам уже приводил пример про людей, которые не видят. У них вообще нисколько визуальной информации не проходит. Тем не менее, они понимают речь, то есть слова "порождают у них образы".

Аналогия с незрячими здесь именно к тому, что для образов и понимания речи никакие миллиарды изображений не нужны.

Dirac Jan 7 2021 at 16:54

А как это все связано с «генерацией изображений по тексту» и с тематикой поста?

michael_v89 Jan 7 2021 at 17:08

Связано первым комментарием, где эта самая генерация изображений упоминается. Как это связано с тематикой поста, я не знаю, я просто отвечал на комментарий, но видимо так же, как и ваши "миллиарды изображений".

inkelyad Jan 6 2021 at 21:38

Вроде бы 'нарисовать похоже на это (показывается картинка), чего раньше никогда не видели' — это нейросети уже раньше научились.

А тут задача была нарисовать именно по понятому тексу. Если человеческому художнику сказать 'нарисуй мне ибиса гурилого в виде кониферуса шушпанчикого' — то он тоже ничего не сделает. Потому что у него предообученного представления о ибисе и кониферусе в голове нет.

Dirac Jan 6 2021 at 13:14

Действительно,

Этот шаг с генерацией изображений по тексту очень важен

И эта работа тоже, и, возможно, не просто маленький шаг, а рода технологический прорыв.

И в том числе для сильного ии

Если использовать такую терминологию. Ну и, конечно, важно так же смотреть на жту работу в историческом контексте:

Можно сказать, что уже были все предпосылки к созданию DALL · E: прошлогодний триумф GPT-3 и успешное создание Image GPT сети, способной к генерации изображений на основе текста, использующей языковую модель трансформер GPT-2. Все уже подходило к тому, чтобы создать новую модель, взяв в этот раз за основу GPT-3.

Naevus Jan 6 2021 at 13:19

Исторический и географический контекст — подразумевалось, что сеть по запросу дорисовала именно бородатых мужиков, а не Гомера Симпсона (которого бы дорисовал я, если бы мне дали такое задание)

michael_v89 Jan 6 2021 at 13:36

Там приводится пример с телефонами, Гомер был в предыдущем абзаце.

Vinchi Jan 6 2021 at 09:01

У меня вопрос — там еще отдельная статья про clip? Про нее напишете?

Dirac Jan 6 2021 at 09:43

Добрый день! CLIP действительно очень интересная работа. Особенно в контексте этой статьи и подобного нейронного ранжирования. Учту Ваши пожелания)

Dirac Jan 26 2021 at 10:33

Готово! habr.com/ru/post/539312

Agent_Smith Jan 6 2021 at 09:01

Её как-то можно на домашнем компе поднять? Или в небольшом клауде за разумные деньги, очень хочется поиграться.

Dirac Jan 6 2021 at 09:35

Прекрасно Вас понимаю. Но пока еще никак, но очень ждем. Боюсь, что далеко не всем дадут возможность «потрогать» и поиграть с моделью в ближайшее время.

RanmaSao Jan 6 2021 at 09:43

— Can a robot write a symphony? Can a robot turn a canvas into a beautiful masterpiece?
— Can you?

Dirac Jan 6 2021 at 09:51

Отлично подмечено!

— Can a robot write a symphony? Can a robot turn a canvas into a beautiful masterpiece?
— openai.com/blog/jukebox

RStarun Jan 6 2021 at 11:46

Может это… Надо было кибернетику запретить на планете в начале 50х. Ну или хотя бы в 90-е. или в 2010-е. Может хоть сейчас запретим развитие? Это уже не просто пугает, это хоррор с претензией.

Dirac Jan 6 2021 at 12:01

Так пытались уже бороться с продажной девкой империализма… Мне кажется что такое стремительное развитие методов машинного обучения должно мотивировать, воодушевлять и вдохновлять, а не пугать.

inkelyad Jan 6 2021 at 12:16

А, собственно, что пугает-то?

По идее, одновременно развиваются и средства распознавания вот этого вот всего. Так что просто к каждой картинке или тексту будет навешиваться 'коэффициент осмысленности и новизны — x%. Вероятность, что сделано не человеком — y%'. Другое дело, что куча творений вполне живых людей попадет под false positive — но это и к лучшему, скорее всего.

Alexey2005 Jan 6 2021 at 12:51

Ну например из-за резкого прогресса в области распознавания изображений капчи усложнились настолько, что гуглокапча уже находится на пределе человеческих возможностей (по крайней мере для части людей). Замечаю, что уже практически никогда не могу её правильно распознать с первого раза.

inkelyad Jan 6 2021 at 12:59

Так ее явно специально так настраивают, чтобы не с первого раза. Вполне возможно, что 'не с первого' — это как раз одна из весомых характеристик именно человека.

Dirac Jan 6 2021 at 13:07

То что сейчас происходит с капчами это невероятно интересная тема. Если инетесно, могу подготовить материал именно по ним: как взламывать капчи и капчи взламывают нейронные сети. Пока скажем так, это настоящая война с нейросетями не на жизнь, а насмерть!

Elegar Jan 6 2021 at 15:16

Конечно же интересно!

Dirac Jan 6 2021 at 15:29

Договорились, будет!

Ranyee Jan 6 2021 at 17:01

Не понял, что на входе, кроме текста, у нейросети? И что за 12 мрд параметров?

Dirac Jan 6 2021 at 17:11

Не понял, что на входе, кроме текста, у нейросети?

Может быть только текст, а может быть и текст и начало изображения (для его продолжения):

DALL · E — это декодер-трансформер, который принимает и текст, и изображение в виде единой последовательности токенов (1280 токенов = 256 для текста + 1024 для изображения) и далее генерирует изображения авторегрессивном режиме.

Здесь нужно понимать как работают подобные трансформеры и как именно работает decoder часть encoder-decoder трансформеров. По сути вы можете интерпретировать работу DALL · E, как нейронный машинный перевод из текста в изображение. И оперировать токенами. В таком режиме (авторегрессивном) сеть способна генерировать как и новые изображения, так и заканчивать (догенеривать) уже начатые, как в примере с Гомером.

И что за 12 мрд параметров?

У нейронной сети есть своя архитектура (топология) и обучаемые парамтеры, кторые тренеруются в процессе обучения нейронной сети. У DALL · E этих обучаемых параметров ~12 000 000 000.

Я ответил на Ваш вопрос?

vics001 Jan 6 2021 at 20:57

Параметры — это нейроны? Промежуточных, входных, выходных или всего 12 млрд?

Dirac Jan 6 2021 at 21:22

Близко. Это размер матрицы или тензора весов. И все зависит от типа слоя. Например, для полносвязных FC-слоев, если в предыдущем слое 512 нейронов, а в интересующем нас 1024 нейрона, то в это слое будет 512 * 1024 = 524288 обучаемых параметра, не учитывая bias'ы и обучаемы параметры в нормализациях и активациях, если такие параметры есть.
По сути количество обучаемых параметров зависит от «нейронов», ну а если более точно, то от типа операции в слое (или даже блоке) сети, bias'ов, функции активации (e.g., prelu), и типа нормализаций при этом слое.

vics001 Jan 7 2021 at 12:37

Получается матрица инцидентности, а параметры это количество edges в графе. Короче, если я правильно понял, топология сети это граф с функциями перехода, а параметры — это и есть функции перехода. И любая нейронная сеть описывается топологией и состоянием (значением параметров). Соответственно, если сеть состоит 12 B параметров (чисел), то она занимает минимум 50 ГБ :-)
Правильно я понимаю?

Dirac Jan 7 2021 at 13:10

1. Понял Вашу интерпретацию.

матрица инцидентности

имеет bool значения. А тут float (если без квантизации). Тут граф (его топология) задается уже архитектурой сети. Дальше при обучении меняется матрица перехода, если мы говорим про полносвязные слои (не касается DALL · E, просо легкий для понимания пример), то матрица инцидентности буде треугольная матрицей из единиц и нулей. Веса — это матрица трансформации. Умножаете ее на вход в слой и всех делов.
2. Зависит от числового типа. Умножаем кол-во параметров ~12 000 000 000 на кол-во бит, кодируем архитектуру сети со всеми операциями. Столько и будет весить.

vics001 Jan 17 2021 at 11:21

Благодаря вам, засел за изучение :-) И много, чего узнал и понял.
В общем, где я ошибался и где возникала путаница терминов.
1. Параметры. Нужно рассматривать именно как метапараметры функции (по другому веса). Вычисление нейронной сети является функцией R^n x R^wn -> R^m, где n — количество входных данных, wn — количество параметров (весов), m — количество выходных классов.

2. Сверточные сети не являются линейной функцией!, 1) сами активаторы не обязательно линейные 2) max-pool нелинейная функция

3. Из-за нелинейности Нейронные сети не являются Тензором в математическом смысле. Тензором в НН называется строгий multidimensional массив (размерность всех поддеревьев одинакова!). Основной confusion пошел из библиотеки TensorFlow. stats.stackexchange.com/questions/198061/why-the-sudden-fascination-with-tensors/198395#198395

4. Операция свертки не является Тензорной операцией свертки. Свертка в сетях пришла из алгоритмов работы с изображениями (Jpeg), а там использовалось преобразование Фурье (для лучшего сжатия картинок). www.reg.ru/blog/svyortka-v-deep-learning-prostymi-slovami

К сожалению, терминология в нейронных сетях немного отличается от физмат, что создает некоторые проблемы неокрепшим умам.

v1000 Jan 6 2021 at 17:16

Эмодзи пингвиненка, одетого в голубую шапку, красные перчатки, зеленую футболку и желтые штаны

Осталось только подписать под каждым соотвествующий дистрибутив линукса (сарказм).

copenhagen72 Jan 6 2021 at 22:23

О Х Р Е Н Е Т Ь.

super-guest Jan 7 2021 at 01:14

Похоже просто на поиск по гугл-картинкам, если честно… не верится.

Dirac Jan 7 2021 at 11:44

Как точно подмечено!!! Если загуглить an emoji of a baby penguin wearing a blue hat, red gloves, green shirt, and yellow pants, то я увижу именно эти картинки. Правда им всем почему-то около суток… возможно совпадение…

SensDj Jan 7 2021 at 11:21

А что мы увидим введя текст "nude Gal Gadot"? :)
(наверняка и разработчикам подобное приходило в голову...)

Dirac Jan 7 2021 at 16:57

Также, сотрудники из openai выразили озадаченность тем, что уровень реалистичности и результаты работы современных генеративных моделей могут оказать сильное влияние на общество. И опасаются за возможные неоднозначные социальные и экономические последствия использования подобных технологий.

Теперь этот абзац не кажется таким уж абстрактным.

G1lgamesh Jan 7 2021 at 19:25

Еще когда увидел iGPT, подумал, что стандартным ганам можно потихоньку присматривать стенд в музее. Теперь моя вера в это утвердилась)
Одно жаль, (OpenAI) CloseAI, как обычно, не выпустит модельку с кодом, а будет заявлять во все горло про опасность, как это было с GPT. Надеюсь, кто-то более открытый таки сможет повторить успех и позволит сообществу исследовать по факту новую область.

Dirac Jan 7 2021 at 19:38

Очень точно подмечено про CloseAI. Они уже об этом написали, и это тревожный звоночек.

We recognize that work involving generative models has the potential for significant, broad societal impacts. In the future, we plan to analyze how models like DALL·E relate to societal issues like economic impact on certain work processes and professions, the potential for bias in the model outputs, and the longer term ethical challenges implied by this technology.

Скорее всего в ближайшее время будет пейпер. Единственное, что я даже не представляю каких усилий будет стоить комьюнити сделать нечто подобное. Чтобы было действтительно Open.
Про Gan'ы. Да, тоже фиксирую такой тренд. Ну по сути сами Gan'ы могут остаться, как добавочный режим тренеровки. Уверен, что это просто будет рутинная возможноть получить дополнительные градиенты с дискриминатора, если это необходимо.

DIMooo Jan 8 2021 at 10:22

Возникли три последовательных реакции. Сперва эти картинки показались качественным розыгрышем, потом восхищение «до чего дошел прогресс» и наконец, посмотрев описание на оригинальном сайте с большим количеством примеров по которым видно закономерности (посмотрите на подсказки в виде фона), добавилось понимание, как это устроено. Думаю обещанный технический обзор покажет, как все просто и ловко устроено, при этом все воспроизводимо. Про нейронные ранжирование, которое тоже важно.
Применение технологии наверно пока может быть только для как игрушка или генерации тонн «годного» контента или подпитка иссякающих фонтанов идей дизайнеров. А потом оно станет частью чего более впечатляющего и важного, например когда это можно будет не только понять или услышать, но и увидеть.

Dirac Jan 8 2021 at 10:30

Не могу не согласиться!

«до чего дошел прогресс»

Кстати, по поводу

посмотрев описание на оригинальном сайте с большим количеством примеров по которым видно закономерности (посмотрите на подсказки в виде фона), добавилось понимание, как это устроено

Так и есть! Зная архитектуру GPT-3 и VQVAE и то, что я писал выше:

Здесь нужно понимать как работают подобные трансформеры и как именно работает decoder часть encoder-decoder трансформеров. По сути вы можете интерпретировать работу DALL · E, как нейронный машинный перевод из текста в изображение. И оперировать токенами. В таком режиме (авторегрессивном) сеть способна генерировать как и новые изображения, так и заканчивать (догенеривать) уже начатые, как в примере с Гомером.

Напрашивается и сама реализация. Как Вы сказали:

добавилось понимание, как это устроено

Но пока еще множество неочевидных технических нюансов и догадок. Так что подождем пейпера. Сделаем и обсудим технический обзор!