DALL·E от OpenAi: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

    Пару дней назад мы подводили ИИ итоги 2020-го года в мире машинного обучения. 2021-й год только начался, но мы определенно видим одну из важнейших работ в области ИИ текущего года.

    Итак, исследователи в области искусственного интеллекта из openai создали нейронную сеть под названием DALL·E, которая генерирует изображения из текстового описания на естественном языке.

    Если тебе интересно машинное обучение, то приглашаю в «Мишин Лернинг» — мой субъективный телеграм-канал об искусстве глубокого обучения, нейронных сетях и новостях из мира искусственного интеллекта.

    DALL·E представляет собой версию GPT-3 с 12 миллиардами параметров, обученную генерировать изображения из текстовых описаний на датасете из пар текст-изображение. Исследователи обнаружили, что DALL·E обладает огромным репертуаром генеративных возможностей, включая возможность создания антропоморфных животных и других необычных объектов, комбинирующих совершенно нетривиальные свойства, например "кресло в форме авокадо."

    Изображения, сгенерированные DALL·E на основании текстового описания "кресло в форме авокадо"
    Изображения, сгенерированные DALL·E на основании текстового описания "кресло в форме авокадо"

    Можно сказать, что уже были все предпосылки к созданию DALL·E: прошлогодний триумф GPT-3 и успешное создание Image GPT сети, способной к генерации изображений на основе текста, использующей языковую модель трансформер GPT-2. Все уже подходило к тому, чтобы создать новую модель, взяв в этот раз за основу GPT-3. И теперь DALL·E показывает невиданные доселе чудеса манипулирования визуальными концепциями с помощью естественного языка!

    Как и GPT-3, DALL·E — это языковая модель-трансформер, принимающая на вход текст и изображение, как последовательность размером до 1280 токенов. Модель обучена максимизировать правдоподобие при генерации токенов, следующих один за другим.

    Также, сотрудники из openai выразили озадаченность тем, что уровень реалистичности и результаты работы современных генеративных моделей могут оказать сильное влияние на общество. И опасаются за возможные неоднозначные социальные и экономические последствия использования подобных технологий.

    Давайте посмотрим на примеры, которые говорят сами за себя. Исследователи утверждают, что не использовали ручной "cherry picking". Примерами являются изображения, полученные при помощи DALL·E, в которых используются 32 лучших примера из 512-ти сгенерированных, отобранных созданным ранее (теми же openai) нейронным ранжированием CLIP.

    Text: a collection of glasses sitting on the table

    Изображения, сгенерированные DALL·E
    Изображения, сгенерированные DALL·E

    Забавно, что алгоритм способен к мультимодальности, и справляется с неоднозначностью слова glasses в английском языке.

    Text: an emoji of a baby penguin wearing a blue hat, red gloves, green shirt, and yellow pants

    Эмодзи пингвиненка, одетого в голубую шапку, красные перчатки, зеленую футболку и желтые штаны
    Эмодзи пингвиненка, одетого в голубую шапку, красные перчатки, зеленую футболку и желтые штаны

    DALL·E может не только генерировать изображение с нуля, но и регенерировать (достраивать) любую прямоугольную область существующего изображения, вплоть до нижнего правого угла изображения, в соответствии с текстовым описанием. В качестве примера за основу взяли верхнюю часть фотографии бюста Гомера. Модель принимает на вход это изображение и текст: a photograph of a bust of homer

    Text: a photograph of a bust of homer

    Фотография бюста Гомера
    Фотография бюста Гомера

    Особенно поражает то, что DALL·E выучил исторический и географический контекст. Модель способна к обобщению тенденций в дизайне и технологиях. Вот пример того, как DALL·E генерирует телефонные аппараты разных десятилетий двадцатого века.

    Text: a photo of phone from the ...

    Фотографии телефонов разных десятилетий XX века
    Фотографии телефонов разных десятилетий XX века

    DALL·E попросили сгенерировать изображение по следующему описанию: "гостиная с двумя белыми креслами и картиной Колизея, картина установлена ​​над современным камином". Как оказалось DALL·E может создавать картины на самые разные темы, включая реальные локации, такие как «Колизей», и вымышленных персонажей, таких как «йода». Для каждого объекта DALL·E предлагает множество вариантов. В то время как картина почти всегда присутствует на изображении, DALL·E иногда не может нарисовать камин или правильное количество кресел.

    Text: a living room with two white armchairs and painting of the colosseum. the painting is mounted above a modern fireplace

    Гостиная с двумя белыми креслами и картиной Колизея, висящей ​​над современным камином
    Гостиная с двумя белыми креслами и картиной Колизея, висящей ​​над современным камином

    Название модели DALL·E (DALL-E, DALL E) является словослиянием имени художника Сальвадора Дали и робота WALL·E от Pixar. Вышел такой своеобразный Вали-Дали. Вообще в мире ИИ "придумывание" таких оригинальных названий это некий тренд. Что определенно радует, и делает эту область еще более оригинальной.

    Старый добрый перенос стиля WALL · E  в Dalí
    Старый добрый перенос стиля WALL · E в Dalí

    Для пущего сюрреализма и оправдания своего названия DALL·E "попросили" сгенерировать животных, синтезированных из множества понятий, включая музыкальные инструменты, продукты питания и предметы домашнего обихода. Хотя это не всегда удавалось, исследователи обнаруживали, что DALL·E иногда принимает во внимание формы двух объектов при решении о том, как их объединить. Например, когда предлагается нарисовать «улитку-арфу».

    Text: a snail made of harp

    Улитка-Арфа. Фантастические твари и где они обитают..
    Улитка-Арфа. Фантастические твари и где они обитают..

    Вывод

    DALL·E — это декодер-трансформер, который принимает и текст, и изображение в виде единой последовательности токенов (1280 токенов = 256 для текста + 1024 для изображения) и далее генерирует изображения авторегрессивном режиме. По-видимому, авторегрессивный режим работы трансформера создает дискретную репрезентацию в разрешении 32х32, после чего VQVAE предобученный энкодер-декодер "завершает генерацию" до разрешения 256x256. Оговорюсь, что последнее предложение — это мое предположение, нужно подождать выхода самого пейпера.

    Что можно сказать? Наступает эра "великого объединения" языковых моделей, компьютерного зрения и генеративных сетей. То что мы видим сейчас, уже поражает воображение своими результатами, не говоря уже о том, насколько подобные подходы могут изменить процесс генерации контента.

    Как будет возможность, подготовлю уже технический разбор самой модели DALL·E, учитывая, что ребята из openai обещают предоставить более подробную информацию об архитектуре и обучении модели в ближайшее время.

    Что ты думаешь о DALL·E и подобных генеративных нейронных моделях, способных создавать визуальный контент по текстовому описанию? Где может быть полезна такая технология? Насколько тебя впечатлили результаты? Давай обсудим в комментариях.

    Комментарии 121

      +3
      Очень хотелось бы веб-морду, чтобы каждый мог поиграться с этой нейросетью самостоятельно…
      Без этого как-то даже не верится, что это действительно результаты работы не человека.
      Или это действительно нейросеть, но авторы вручную отфильтровали 99% шлака…
        +2
        И мне мы хотелось поиграть с моделью. По поводу качества результатов, у меня нет поводов не доверять ребятам из openai. Они написали, что не делали ручной «cherry picking»:
        Давайте посмотрим на примеры, которые говорят сами за себя. Исследователи утверждают, что не использовали ручной «cherry picking». Примерами являются изображения, полученные при помощи DALL · E, в которых используются 32 лучших примера из 512-ти сгенерированных, отобранных созданным ранее (теми же openai) нейронным ранжированием CLIP.
        То есть, по сути, это и есть cherry picking, но не ручной, а при помощи другой модели. Я считаю, что это вполне честно. Мы же не пишем и не говорим все то, что пришло к нам в голову, а фильтруем и выбираем, что говорить и что писать.
          0
          Надо вторую нейросеть, которая выделит 32 лучших примера из 512 сгенерированных первой сетью…
            +2
            Так и есть. CLIP это вторая
            нейросеть, которая выделит 32 лучших примера из 512 сгенерированных первой сетью
            DALL · E
          +1
          Не похоже, что они тщательно отбирали результаты. К примеру, a living room with two red armchairs and a painting of yoda. the painting is mounted behind a ceiling fan:



          Я конечно сам делал «cherry picking» самых плохих вариантов. В остальных случаях оно заметно лучше. А вообще, года бы 3-4 назад даже такой результат считался бы просто сногшибательным.
            0
            Спасибо за примеры! Действительно, с Йодой далеко не все изображения. Тоже выбрал этот вариант, не лучшие примеры выходят.
              +1
              Видно DALL · E лучше сформировал скрытую репрезентацию Дарта Вейдера чем Йоды.
              Но помни: гнев, страх — это всё ведет на темную сторону Силы.
              Как только ты сделаешь первый шаг по темному пути,
              ты уже не сможешь с него свернуть…
              image
                0
                image
                  +1
                  Вставил два раза одно и тоже… Хотел это:image
              –4
              Также, сотрудники из openai выразили озадаченность тем, что уровень реалистичности и результаты работы современных генеративных моделей могут оказать сильное влияние на общество.
              например "кресло в форме авокадо."
              a snail made of harp

              Поискал картинки, везде рисуют каких-то несуществующих животных или мультяшные фигуры. Как-то не очень заметна реалистичность.
              На рисунке с очками лишние дужки присутствуют, на рисунке со стаканами стаканы какие-то кривые.


              Забавно, что алгоритм способен к мультимодальности, и справляется с неоднозначностью слова glasses в английском языке.

              А по-моему нифига не справляется, то одно рисует, то другое. Если бы справлялся, то уточнил бы, или один и тот же смысл всегда выбирал. На первом в третьем ряду вообще оба сразу присутствуют.


              DALL · E выучил исторический и географический контекст

              А по-моему он просто запомнил связь слов с картинками — "1920" чаще встречается с одними картинками, "1940" с другими. ОБработка морфологии слов хорошая конечно, а вот про контекст как-то сомнительно.


              В целом думаю так. Это все круто, но бесполезно. Ни для какого-то серьезного практического применения, ни для развития ИИ в целом. Вот научилась нейросеть картинки рисовать, приблизило это нас к пониманию, как сделать сильный ИИ? Похоже что нет. Новых закономерностей не выявлено, все подходы к обработке информации были известны и ранее. Как у нее кстати с русским языком, надо заново тренировать? Похоже что так.

                +3

                С обобщением у вас точно не получилось. Я наоборот вчера только думал а как бы по тексту чтоб фильм автоматом создавался. А тут такое. Этот шаг с генерацией изображений по тексту очень важен. И в том числе для сильного ии. Когда мы говорим чтото друг другу мы порождаем образы у собеседника.

                  0

                  Тут важно добавить, что образы поражаются осмысленные, а не просто связанные статистической закономерностью(по тому, какие "глупые" ошибки совершает сеть, рисуя очки с 3мя душами, например, можно понять, что она не знает об отдельных частях очков, а просто старается приблизиться к уже увиденному, собственно так сети и работают:) Вероятно это можно исправить добавив ещё пару миллиардов параметров, но это не исправит фундаментальную проблему — это всего лишь очень продвинутая статистическая система). Простой пример, если человечество завтра решмт, что слово медведь теперь означает очки и нагенерирует достаточно контента на эту тему, эта нейронка будет рисовать именно это:). Сама же она решить, что медведь — это очки она не может. Ну, то есть по сути это просто продвинутый(очень продвинутый) мешок визуальных слов. Так, что соглашусь с первым комментатором. Ни к какому сильному ии(если, и это большое если, он вообще возможен) это нас не приблизило и фундаментальной ценности имеет мало, т.к. все это достигается просто количественным наращиванием параметров.

                    +2
                    Экскаватор не способен заменить человека с лопатой. Он может применяться лишь для весьма ограниченного числа задач, чрезвычайно дорог, требует обслуживания и квалифицированного оператора.
                    Значит ли это, что человечеству не нужны экскаваторы?
                      +1

                      Не значит. Но корректность аналогии данной сети с экскаватором не доказана. Поэтому вполне может быть так, что экскаваторы нужны, а эта нейросеть бесполезна.

                        +3

                        Аналогия вполне хорошая. Экскаватор — усилитель умения копать.


                        Скажем, при помощи текстовой GPT-3 я могу накидать себе текст гораздо лучше, чем это получается только у меня самого. Имеем усилитель писательских талантов.


                        А эта сеть — позволит мне делать приемлемые иллюстрации для этого текста, когда я сам рисую почти никак. Получили усилитель умения рисовать.

                          –1

                          Так я и написал "серьезного практического применения". Для себя поиграться-то конечно можно с любой технологией.


                          Аналогия вполне хорошая. Экскаватор — усилитель умения копать.

                          Из этого не следует, что остальные их свойства (например полезность для человечества) тоже являются аналогичными. Аналогии вообще применяются для пояснения, а не для доказательства.

                            0
                            Так я и написал "серьезного практического применения".

                            Написание всяких речей для политиков разного калибра пойдет за 'серьезное'?


                            Все эти сценарии из разных антиутопий, где мифический правитель читает воодушевляющие автоматически сгенерированные речи — уже практически возможны.


                            Полезность тут, конечно, сильно зависит от того, в какую сторону используется, но тем не менее возможную серьёзность вполне демонстрирует.

                              –1
                              пойдет за 'серьезное'?

                              Неа. Сгенерировать 10 вариантов, из которых человек потом будет выбирать наиболее осмысленный, это несерьезно. Вот если бы ИИ сам наиболее осмысленный выбирал, тогда еще можно было бы согласиться.


                              Я вообще имел в виду то, что написано в статье — генерацию изображений по описанию.

                                0
                                В этой работе как раз и используется подобный метод:
                                Исследователи утверждают, что не использовали ручной «cherry picking». Примерами являются изображения, полученные при помощи DALL · E, в которых используются 32 лучших примера из 512-ти сгенерированных, отобранных созданным ранее (теми же openai) нейронным ранжированием CLIP.
                                Именно то, что Вы описали:
                                Вот если бы ИИ сам наиболее осмысленный выбирал, тогда еще можно было бы согласиться.
                                  –1

                                  Нет, не то. Очки с 3 дужками и кривые стаканы это не "наиболее осмысленный".

                                    0
                                    Ну у Сальвадора Дали тоже не все прям ровно было..image«Постоянство памяти» (исп. La persistencia de la memoria, 1931)
                                      –1

                                      А разве этой нейросети было задание сгенерировать изображения в стиле Дали? Если нет, значит это ошибка в выполнении задания.

                                        +4
                                        «Я художник, я так вижу»
                                        Человек вполне может нарисовать очки как с тремя, так и вовсе без дужек и это назовут «творчество». Еще недавно ИИ обвиняли в том, что он действует сугубо по программе и не способен к творческому подходу. Теперь, когда он создает творческие образы, его обвиняют в том, что он не способен решить задачу достаточно четко. Да вам, человекам, не угодишь…

                                        А как бы вы сами нарисовали очки, если бы у вас не было возможности уточнить запрос, но была бы возможность выдать несколько вариантов?
                                          –1
                                          Теперь, когда он создает творческие образы

                                          Не создает. Сначала докажите, что это творческие образы, а не ошибка в выполнении задачи. А то так и генератор случайных чисел можно творческим назвать.


                                          его обвиняют в том, что он не способен решить задачу достаточно четко. Да вам, человекам, не угодишь…

                                          Да, если решать задачу не так как требуется, то будут обвинять в том, что задача не решена. Какая неожиданность)


                                          А как бы вы сами нарисовали очки, если бы у вас не было возможности уточнить запрос, но была бы возможность выдать несколько вариантов?

                                          Это некорректный вопрос. Эта нейросеть пока не демонстрирует интеллект уровня человека, чтобы можно было сравнивать ее поведение с человеком.
                                          Проблема тут как раз в том, какого черта у нее один из вариантов это очки с 3 дужками. Она ведь точно знает, что у очков 2 дужки. Или… не знает?

                                            +1
                                            А что Вы пытаетесь показать? Не могу уловить месседж. Эта фраза:
                                            Эта нейросеть пока не демонстрирует интеллект уровня человека, чтобы можно было сравнивать ее поведение с человеком.

                                            • Что значит интеллект уровня человека ? Человек не сможет так нарисовать..
                                            • Кто-то сравнивал ее с человеком? Если да, то кто и зачем?
                                            • Если что-то или кто-то не демонстрирует интеллект уровня человека, то с этим чем-то или кем-то нельзя сравнивать? Если да, то почему?
                                            • Что значит «эта сеть пока не демонстрирует»? Нейронные сети и конкретно DALL · E это одна развивающаяся во времени сеть?
                                            • Кто сравнивает поведение DALL · E с поведением человека?
                                            • О каком поведении идет речь? Это не rl модель. Она себя не ведет.


                                            И последний вопрос: «У очков может быть только две дужки?»
                                              0
                                              А что Вы пытаетесь показать?

                                              "Если нет, значит это ошибка в выполнении задания".


                                              Что значит интеллект уровня человека?

                                              Я уже несколько раз повторил — применительно к данной нейросети это значит, что очки надо рисовать с 2 дужками, а стаканы в форме стаканов.


                                              Кто-то сравнивал ее с человеком? Если да, то кто и зачем?
                                              Кто сравнивает поведение DALL · E с поведением человека?

                                              Да. Elegar в этом комментарии, во фразе, которую я процитировал. Зачем, не знаю, спросите у него.


                                              Если что-то или кто-то не демонстрирует интеллект уровня человека, то с этим чем-то или кем-то нельзя сравнивать?

                                              Если что-то или кто-то не демонстрирует интеллект уровня человека, то это что-то или этого кого-то нельзя сравнивать с человеком. В частности, вопросами "как бы вы сами это сделали". Неважно, как бы я это сделал, нейросеть (которая не демонстрирует интеллект уровня человека) делает это по другим причинам. Например, выбирает генератором случайных чисел.


                                              Нейронные сети и конкретно DALL · E это одна развивающаяся во времени сеть?

                                              Нет. Из моих слов это не следует.


                                              Что значит «эта сеть пока не демонстрирует»?

                                              Ну то и значит — нейросеть DALL · E, описанная в статье, на данный момент не демонстрирует интеллект уровня человека. Возможно кто-то через некоторое время найдет способ дообучить такую сеть, не добавляя какие-то новые принципы работы, и она будет демонстрировать интеллект уровня человека. Но я в этом сомневаюсь.


                                              О каком поведении идет речь? Это не rl модель. Она себя не ведет.

                                              Поведение (словарь Ушакова) — Совокупность поступков и действий
                                              Поведение (справочник технического переводчика) — Совокупность действий, изменений изучаемой системы, ее всякая реакция на внешние воздействия


                                              Любая система, совершающая какие-то действия, как-то себя ведет. Действия DALL-E — генерация изображений по заданному тексту.


                                              У очков может быть только две дужки?

                                              У очков не может быть такой дужки, которая указана на рисунке. Это некорректное выполнение задания "нарисуй очки". У нее вообще ни на одном рисунке нет правильно нарисованных дужек.

                                              0
                                              Сперва докажите, что картина Ван Гога — это не ошибка в выполнении задачи:)

                                              Разумеется, нейросеть не знает ничего про то, как и зачем устроены очки. Она не имела возможности одеть их или хотя бы покрутить в руках. Она знает лишь, что очки выглядят примерно вот так. С другой стороны, и требования рисовать исключительно реалистичные очки или очки с двумя дужками у нее не было. Вы сами придумали это требование. Возможно, если бы в запросе уточнили, что должно быть именно 2 дужки, то она бы так и нарисовала. То, что эта нейронка умеет считать (правда, всего до трех), вы бы поняли сами, если бы прочитали оригинал статьи — пример с очками иллюстрирует как раз это, только считает она там не дужки, а сами очки

                                              PS Если бы мне сказали нарисовать 30 разных картинок с очками, я бы тоже стал всякие дурацкие вариации придумывать.
                                                0
                                                Сперва докажите, что картина Ван Гога — это не ошибка в выполнении задачи:)

                                                Да запросто — у Ван Гога была задача "нарисуй очки"? Если нет, то это не ошибка в выполнении задачи.
                                                Кроме того, про челоека нам уже известно, что у него есть интеллект. Поэтому нестандартные выполнения задачи мы называем творчеством. Мы знаем, что если человек захочет сделать задачу правильно, то он так и сделает.
                                                А про нейросети мы такого сказать не можем. Более того, если на уроке рисования ученик нарисует очки неправильно, учитель ему снизит оценку. Так как это тоже ошибка в выполнении задания.


                                                С другой стороны, и требования рисовать исключительно реалистичные очки или очки с двумя дужками у нее не было.

                                                Было. "a collection of glasses sitting on the table". Если не указано иное, надо рисовать правильно.
                                                Это как раз к вопросу про интеллект уровня человека.


                                                Возможно, если бы в запросе уточнили, что должно быть именно 2 дужки, то она бы так и нарисовала.

                                                Это ничем не отличается от обычного программирования, какой же это тогда интеллект?


                                                Если бы мне сказали нарисовать 30 разных картинок с очками, я бы тоже стал всякие дурацкие вариации придумывать.

                                                А почему вы бы это стали делать? Какие понятия возникли бы в вашем воображении, какие информационные элементы активировались при выполнении этого решения? Разница именно в этом. Генератор случайных чисел тоже разные вариации придумывает. Будем считать его сильным ИИ?

                                                  +1
                                                  Так, погодите, о чем мы тут дискутируем вообще? Никто ни в коем случае не называет это сильным ИИ.
                                                  Если не указано иное, надо рисовать правильно.
                                                  Фактически, у нас тут безблагодатный спор об определениях. Вы считаете, что сеть обязана рисовать правильно. Я считаю, что не обязана. Как можно правильно нарисовать кресло в форме авокадо? Слона в форме арфы? Если мы хотим чтобы она рисовала абстрактные вещи, то мы должны прощать ей «свободу выражения» (пишу в кавычках, чтобы подчеркнуть, что не очеловечиваю ее).
                                                    0

                                                    del

                                                      –2
                                                      Фактически, у нас тут безблагодатный спор об определениях. Вы считаете, что сеть обязана рисовать правильно.

                                                      Она обязана рисовать правильно, потому что ей не было задания рисовать неправильно.
                                                      Очки с 2 дужками это то, что представляет любой человек при слове "очки". Даже если он с 4 дужками представляет, он все равно знает, что другие люди подразумевают более стандартную форму. Это и есть интеллект уровня человека, и данная сеть его не демонстрирует. Поэтому я так и сказал.


                                                      И кстати об определениях.
                                                      Очки — Прибор с двумя стеклами для улучшения зрения или для защиты глаз, надеваемый на переносицу и держащийся на ней при помощи двух дужек, закладываемых за уши.


                                                      Как можно правильно нарисовать кресло в форме авокадо?
                                                      Если мы хотим чтобы она рисовала абстрактные вещи

                                                      А при чем тут авокадо и абстрактные вещи? Я говорил про очки и стаканы.
                                                      И да, на первом во втором ряду кресло нарисовано неправильно. Такой ножки у такого кресла быть не может, оно упадет. Тут конечно требуется понятие гравитации, с которым сеть не знакома, но нарисовать неправильно можно.

                                                        0
                                                        Можешь лучше? Сделай!
                                                      +1
                                                      Действительно, а кто говорит о сильном ИИ? В статье рассказывается об актуальном на сегодняшний день нейросетевом методе генерации изображений из текста.
                                                        +1
                                                        И как мне кажется примеры с «Улиткой-Арфой» и «Гостиной с двумя белыми креслами и картиной Колизея, установленной ​​над современным камином» очень интересны и разнообразны. И показывают, что сеть справляется с этой задачей. Да не идеально. Но местами очень хорошо, и главное оригинально. А еще всего каких-то два года назад эта задача была вообще не решена. Разве это не восхитительно?
                                                          –1
                                                          Действительно, а кто говорит о сильном ИИ?

                                                          Ну я об этом сказал:
                                                          "Это все круто, но бесполезно. Ни для какого-то серьезного практического применения, ни для развития ИИ в целом."
                                                          А мне начали возражать, что это не так.


                                                          И потом Elegar задал вопрос "А как бы вы сами нарисовали очки?". Это тоже разговор о сильном ИИ, который есть у человека.


                                                          Разве это не восхитительно?

                                                          Я не говорил, что это не восхитительно. Я сразу сказал, что да, это круто. Только бесполезно.

                                                            +1

                                                            я открою вам небольшой секрет — бывают очки с одной дужкой и вообще без дужек — монокль и пенсне называются ) поэтому требование наличия двух дужек это конкретно ваше требование. Я лично носил пару дней очки с одной отвалившейся дужкой, вторая сидела на ухе как влитая и очки продолжали быть очками. Это не требование к ИИ, а Ваши личные загоны

                                                              0
                                                              А с тремя душками, одна из которых размыта и торчит из нижней правой части оправы, как на картинках из примера бывают?
                                                              Просто если так подумать, то вообще все наши загоны, а на самом деле ничего не существует, правда ведь?
                                                                –1

                                                                Открою вам небольшой секрет — монокль и пенсне называются "монокль" и "пенсне", а не "очки". На английском "monocle" и "pince-nez", а не "glasses".


                                                                А поиск в Google-картинках по запросу "glasses" выдает только очки с 2 дужками, а не монокль или пенсне.



                                                                Я лично носил пару дней очки с одной отвалившейся дужкой
                                                                Это не требование к ИИ, а Ваши личные загоны

                                                                То есть я должен был ожидать, что ИИ по текстовому запросу "glasses" должен нарисовать очки с 3 дужками, потому что вы носили пару дней очки с одной дужкой, причем об этом я вообще не знал до того, как вы про это сообщили? Извините, но это ваши загоны. А у остальных людей слово "очки" означает очки с 2 дужками, если иное не указано явно.

                                                                  0
                                                                  Согласен с Вами, keydach555, так оно и есть.
                                                                  image
                                                                  Но не тратьте Ваше время на этот спор)

                                                                    0

                                                                    Послушайте, ну вы что серьезно будете утверждать, что очки на некоторых сгенереных картинках — это очки?:) Ну там же три душки причем некоторые размыты и торчат в таких конфигурациях, что эти "очки" совершенно не юзабельны. Очевидно же, что это просто артефакт, а не какое-то "особое прочтение слова очки нейросетью". Такими темпами вообще любую мазню можно очками назвать.

                                            0

                                            Неа. Сгенерировать 10 вариантов, из которых человек потом будет выбирать наиболее осмысленный, это несерьезно. Вот если бы ИИ сам наиболее осмысленный выбирал, тогда еще можно было бы согласиться.


                                            И почему всегда желания такие максимальные?


                                            Экскаватор — он же тоже не сам капает. Он помогает человеку выкопать больше. И радикально уменьшает требование к физической подготовке этого человека. И швейная машинка не сама шьет. А автомобиль до недавних пор не сам ездил.


                                            И тут так же. GPT-3 помогает одному человеку налить больше красивой длинной воды на любую заданную тему, не особенно напрягаясь и значительно убирает требование умения красиво писать.

                                              –1

                                              Ну и пусть убирает. Обычные программы без ИИ тоже много работы за человека делают. Я не понимаю, на что вы возражаете.


                                              "Налить больше красивой длинной воды" в моем понимании
                                              это не "серьезное практическое применение искусственного интеллекта".

                                                0

                                                Я не понимаю, на что вы возражаете.
                                                Против утверждения, что у того, что уже получилось, невозможно серьёзное практическое применение.

                                                  –1

                                                  Ну так и невозможно. Вернее, я сказал "бесполезно". Для развлечений всяких да. Для решения серьезных задач нет. Может быть можно придумать какую-то задачу, которую мы будем считать серьезной, специально для этой технологии, но в решении существующих серьезных задач она не помогает.

                                    +1
                                    «Вопрос о том, может ли компьютер думать, не более интересен,
                                    чем вопрос о том, может ли субмарина плавать».
                                    Эдсгер Вибе Дейкстра
                                      –1

                                      Я отвечу на ваш вопрос, когда вы мне покажите где я сказал, что нейронные сети вообще или эта конкретно не нужны.

                                      +4

                                      Можно считать, что данные сетки — это 'коллективное бессознательное' всего человечества. Вполне ценный артефакт для таканья палочкой и исследования.

                                        0
                                        Интересная интерпретация
                                          +1

                                          Очевидная интерпретация, если понимать что все эти сети 'ИИ' — не Искусственный Интеллект, а Искусственная Интуиция. Все понимает, 'нутром' ответ чует, но объяснить не может.

                                        +1
                                        Человеческий мозг — примерно такая же статистическая система, только ещё более продвинутая. Сам человек по умолчанию тоже не может решить, что медведь — это очки, т.к. всё его знание — это опыт в том или ином виде. Если человека с рождения обучать радикально иному стилю мышления, то он будет пользоваться именно им. Что же, человек тогда тоже лишь мешок слов? Человек, воспринимая образ очков, тоже вряд ли считает их дужки, ведь фантастические очки с трёмя дужками на трёхухом человеке (или без него) мы распознаем как очки (но по другим их свойствам). Обобщение, абстрагирование — вот что важно. Думаю, что эти алгоритмы далеко продвинутся в этом деле чисто за счёт увеличения моделей. Хотя для сильного ИИ необходима, как мне кажется, намного большая динамика процессов (и петель обратной связи) и намного больше контекста.
                                          0
                                          Спросил у девушки что она хочет на новый год, духи или планшет, выбрала второе, в итоге подарил ей клипборд.
                                          –1
                                          Этот шаг с генерацией изображений по тексту очень важен. И в том числе для сильного ии.

                                          Как именно важен-то? Что он дает?


                                          Когда мы говорим чтото друг другу мы порождаем образы у собеседника.

                                          Да, только нам не надо для этого изучать миллионы изображений. И слово порождает именно образ, а не картинку. Образ это результат информационной обработки картинки, со всеми нужными ассоциациями. Он вообще может быть не визуальный, как шум моря например.

                                            +1
                                            Да, только нам не надо для этого изучать миллионы изображений
                                            Скорее всего у нас (у людей) речь идет не о миллионах, а о миллиардах изображений.
                                              –1

                                              Нет. Есть люди, слепые от рождения. Но говорить они учатся примерно в одно время с обычными. Они понимают речь, отслеживают объекты, описанные в тексте, но миллиардов изображений тут нет. И миллиардов слов нет, люди не говорят слова с частотой 60 слов в секунду.

                                                +2
                                                К сожалению, слепые от рождения люди не могут решать задачу генерации изображений по текстовому описанию.
                                                  –1

                                                  Я отвечал на фразу "Когда мы говорим что-то друг другу, мы порождаем образы у собеседника", пример про миллион изображений относится к ней, а не к статье.


                                                  Я вам больше скажу, большинство людей не могут решать задачу генерации изображений по текстовому описанию. Не так уж много людей умеют хорошо рисовать. Значит это умение для возможностей интеллекта не требуется. Потому я и говорю, что для развития ИИ пользы от этого мало.

                                                    0
                                                    Тогда не совсем понял, что именно Вы вкладываете в понятие ИИ. Данная сеть решает конкретную «интеллектуальную задачу» генерации изображений по текстовому описанию. Это же не general ИИ. Это инструмент для решения «интеллектуальных задач».
                                                      –1

                                                      Я написал "для развития ИИ". Пусть решает, я с этим не спорю. Только практической пользы в задачах, для решения которых хотят изобрести сильный ИИ, или пользы для собственно изобретения этого ИИ, пока не наблюдается. Это шаг в сторону. Круто, но бесполезно. Бесполезно не вообще, а для достижения изначальных целей, для которых это все затевалось.

                                                        0
                                                        А для каких целей это все затевалось?
                                                          0

                                                          Чтобы выкинуть человека откуда возможно. И совершенно необязательно, чтобы замена проявляла человеческий интеллект или думала как человек.


                                                          Скажем, с этой сеткой заказчик даст задание 'нарисуй кресло в виде...', просмотрит 100 сгенерированных за час (ну или сколько они создаются — вряд ли медленней чем человеком) картинок и потом отдаст самый понравившийся результат дальше.


                                                          При этом нанимать толпу художников не потребовалось.

                                                            –1
                                                            И совершенно необязательно, чтобы замена проявляла человеческий интеллект или думала как человек.

                                                            Обязательно. Она как минимум должна выделять те же объекты и процессы, что и человек. Иначе она не сможет заменить человека в этих задачах, у человека будет преимущество.

                                                –1
                                                Скорее всего у нас (у людей) речь идет не о миллионах, а о миллиардах изображений.

                                                Очень сомнительное утверждение.
                                                Любой художник, если ему показать несколько вещей, которых он раньше не видел легко нарисует какую-то их комбинацию(да, что там художник, даже я это худо-бедно сделаю).
                                                Сможет ли нейронка нарисовать «кресло в форме авокадо» если ей скормить 1 авокадо и 1 кресло, а не тысячи и сотни тысяч картинок авокадо и кресел? Кажется, что нет, даже не близко.
                                                  0
                                                  1. Про «сомнительное утверждение». Можно прикинуть сколько визуальной информации проходит через наш мозг за жизнь.
                                                  2. Про то, сможет ли нейронка нарисовать «кресло в форме авокадо» если ей скормить 1 авокадо и 1 кресло. С чего вы решили, что 2х фотографий не будет достаточно? Зачем тысячи и сотни тысяч картинок авокадо и кресел? image Картинка из оригинального пейпера GPT-3, ссылка на предыдущий пост про Итоги ИИ 2020. Тут как раз видно сколько нужно shot'ов (примеров) для адаптации предобученной GPT-3 для адаптации под конкретный домен. А именно GPT-3, является основой DALL · E
                                                    –1
                                                    1. Про «сомнительное утверждение». Можно прикинуть сколько визуальной информации проходит через наш мозг за жизнь.

                                                    Я видел 5 — летних детей, которые прекрасно рисуют и уж точно они могут совместить стул и авокадо, даже если первый раз его увидят.
                                                    2. Про то, сможет ли нейронка нарисовать «кресло в форме авокадо» если ей скормить 1 авокадо и 1 кресло. С чего вы решили, что 2х фотографий не будет достаточно? Зачем тысячи и сотни тысяч картинок авокадо и кресел?

                                                    С того, что ее предобучают на сотнях терабайт информации и в этих сотнях терабайт были тысячи картинок кресел и авокадо.
                                                    Картинка из оригинального пейпера GPT-3, ссылка на предыдущий пост про Итоги ИИ 2020. Тут как раз видно сколько нужно shot'ов (примеров) для адаптации предобученной GPT-3 для адаптации под конкретный домен. А именно GPT-3, является основой DALL · E

                                                    Во первых, мы все таки говорили не про языковую модель, а про генерацию изображений, GPT-3 там, насколько я понимаю, используется все таки для того чтобы сеть «понимала», что от нее хотят. Во вторых, адаптация под конкретный домен заключается в том, что сеть будет генерировать текст определенной стилистики, по затравке. Скорее всего, все те слова, которые я использую в затравке уже были представлены сети как примеры в процессе предобучения и из затравки сеть просто вычленяет информацию о стиле, а не учит новые слова и их сочетания. Если, гипотетически, ей в затравке дать слова, которых она никогда не встречала, то она ничего осмысленного не выдаст. Собственно — это просто принцип работы любой нейронной сети, это вычленитель статистической информации, а статистическая информация по определинию собирается на исходах, поэтому-то любой нейронке и нужны такие огромные массивы данных чтобы выполнять даже относительно простые задачи. По любой из этих двух причин ваш аргумент про GPT-3 мне кажется не корректным и вторая причина объясняет необходимость «тысяч и тысяч картинок».
                                                      +1
                                                      Zero-shot / one-shot / few-shot (learning) вам вообще ни о чём не говорит? DALL·E как и GPT-3 тоже умеет в такое. Раздел «Zero-shot visual reasoning» оригинальной статьи.
                                                        0
                                                        По любой из этих двух причин ваш аргумент про GPT-3 мне кажется не корректным и вторая причина объясняет необходимость «тысяч и тысяч картинок».
                                                        Откуда у Вас такие сведения, у меня другая информация.image
                                                          –1
                                                          Вы же не прочитали мой предыдущий комментарий, да?
                                                          Я же там написал, что да сеть не нужно тренировать каждый раз отвечать на конкретные запросы, но это только потому, что вся эта информация уже заложена в процессе предобучения. Тоесть перенося на ваш пример — сеть уже прогнали по огромному корпусу английских и французских текстов и она выучила эту информацию.
                                                          Я же говорю про случай, когда в корпусе текстов на которой тренировалась сеть, допустим, не было слова чайник. Ей в промте дают «Чайник на английском — teapot», а потом спрашивают «предложение „налей воды из чайника“ на английском» и она выдает что-то вроде «pour water from a teapot». То-есть сеть встретила слово teapot всего один раз, включая процесс обучения, и смогла корректно его использовать. Кажется, на такое GPT-3 не способна. Точно так же и с картинками — сеть может нарисовать кота, только потому, что в процессе предобучения ей показали тысячи картинок котов. Человек же способен нарисовать кота, увидев его всего один раз в жизни, как и выучить корректно использовать слово чайник после первого примера того, что это.
                                                          Причем тут zero-shot reasoning в том понимании в котором привели его вы и товарищ выше — не понятно.
                                                          То-есть если резюмировать вопрос такой. Способна ли сеть, у которой не было в предобучении котов, по всего лишь одному примеру «кот-картинка кота» выдать что-то осмысленное на запрос «нарисуй кота в виде кресла»?

                                                          Пример слепых людей вам уже тоже приводили. И да, таки у них появляются визуальные образы. Гуглить «слепой от рождения художник», например. Да и сами слепые говорят, что визуальные образы у них есть. Насколько они похожи на образы не слепых — другой вопрос.
                                                            0
                                                            То о чем вы говорите и называется few-shot-learning или one-shot-learning. В статье говорится про zero-shot возможности DALL · E на разном сете задач.
                                                            1. Почему Вы решили, что DALL · E не способен на n-shot-learning?
                                                            2. Почему GPT-3 по-Вашему может, а DALL · E нет?
                                                            3. Есть ли какие-то архитектурные ограничения DALL · E или какая-то другая причина?
                                                              –1
                                                              «В статье говорится про zero-shot возможности DALL · E на разном сете задач.» — спасибо, я в курсе, это же вы стали отвечать zero-shot аргументом на мое замечание про, условный, one-shot :). Название, мне кажется, не особо удачное т.к. информация уже заложена на этапе предобучения, но это не суть.
                                                              1. Почему Вы решили, что DALL · E не способен на n-shot-learning?

                                                              Задам вам встречные вопрос — почему вы решили, что способен на хотя бы удовлетворительном уровне качества. Мое мнение основывается на известных всем ограничениях one-shot learning(они рассматриваются в любой статье о каких-нибудь Siamese-сетях).
                                                              2. Почему GPT-3 по-Вашему может, а DALL · E нет?

                                                              Потому что zero-shot reasoning != one-shot learning. Схожа только терминология.
                                                              3. Есть ли какие-то архитектурные ограничения DALL · E или какая-то другая причина?

                                                              Есть архитектурные ограничения one-shot learning, которые заключаются в том, что
                                                              1. Это все таки не совсем one-shot(на мой взгляд не очень удачная терминология) потому что там таки делается многократный прогон по positive-negative парам, там желательно все таки иметь не один пример, а хотя бы с десяток и так далее. Человек отличает авокадо от не авокадо с первого показа(Даже на фотографии, где его нельзя рассмотреть с разных сторон), нарисовать он может тоже с первого показа, причем в разных ракурсах и состояниях\позах. То-есть на мой взгляд — это просто PR-термин которого вокруг нейронок и машин лернинга сейчас очень много.
                                                              2. one-shot learning очень специфичен и сеть таки надо тренировать специально под эту задачу
                                                              3. Результаты one-shot learning плохо масштабируются.
                                                              4. Ну и наконец, даже на примерах из вашей статьи видно, что чтобы получить удовлетворительные результаты надо описывать то, что ты хочешь очень специфичным образом и даже тогда результаты получаются не всегда такие, которые ожидаешь.

                                                              Все это позволяет говорить о том, что получить качественные разнообразные результаты(хотя бы как кресло-авокадо) с one-shot техникой не получится.
                                                                0
                                                                Боюсь Вас огорчить, но к DALL · E применим one-shot learning. И никаких ограничений на это нет.
                                                                Все это позволяет говорить о том, что получить качественные разнообразные результаты(хотя бы как кресло-авокадо) с one-shot техникой не получится.
                                                                Но как-то получилось же. И даже без one-shot. Тут и zero-shot с головой, а с one-shot и подавно будет.

                                                                У меня возник вопрос… А Вы, случайно lpssp и michael_v89 не один и тот же человек?

                                                                Вот в комментариях к В работе сервисов Google произошёл масштабный сбой тоже вместе фигурируете.

                                                                Может и совпадение…

                                                                habr.com/ru/news/t/532968
                                                                  –1
                                                                  Боюсь Вас огорчить, но к DALL · E применим one-shot learning. И никаких ограничений на это нет.

                                                                  Ну, вы можете называть это one-shot learning конечно. Но, во первых, GPT-3 — это не one-shot модель. В лучшем лучшем few-shot(вот в этой статье прямо так и написано, да), но и там все довольно печально. Так что я не знаю откуда вы это взяли, можете поделиться источником? Вот почитайте, если мне не верите. В этой статье, кстати, разбирается и понятие этих вот n-shot, которые по факту ими не являются, как и в ориганиальном пейпере, собственно, но тут более популярно. Вы уже на протяжении 3х комментариев это понять не можете.
                                                                  Но как-то получилось же. И даже без one-shot. Тут и zero-shot с головой, а с one-shot и подавно будет.

                                                                  Так потому что это не one-shot, друг мой. Я уж не знаю сколько вам это повторять. Изучите, что термины значат, чтооли, ссылки на статьи я вам дал.
                                                                  Я могу хоть -1-shot термин придумать. Смысл в том, то информация о словах или картинках УЖЕ ЗАЛОЖЕНА НА ЭТАПЕ ОБУЧЕНИЯ. One-zero-shot тут только в том смысле, что сеть не учили специально отвечать на вопросы, напрмер, а она на основе уже показанных ей кучи слов и их сочетаний(в любом случае на порядки большего чем знает любой человек) это может делать. Потому что там уже была эта информация. Ничего нового тут нет, свойство нейронок неконтролиуемо улавливать информацию(часто даже ту, которую не надо) известно давно. Точно так же и с картинками. Сети показали тысячи картинок котов, поэтому она и может их рисовать, если бы при обучении был показан один кот она бы этого сделать не смогла. Вы прицепились к термину zero-one-shot, но не понимаете, что он на самом деле значит.
                                                                  У меня возник вопрос… А Вы, случайно lpssp и michael_v89 не один и тот же человек?

                                                                  Вот в комментариях к В работе сервисов Google произошёл масштабный сбой тоже вместе фигурируете.

                                                                  Может и совпадение…

                                                                  habr.com/ru/news/t/532968

                                                                  Эмммммм… неееет. А что если два человека написали в одной ветке — это сразу должен быть один и тот же человек? Странная логика так-то :). А вы, что за нами следите?

                                                                  Вы может быть думаете, что я хочу сказать, что технология плохая или еще что-то. Если так, то знаейте — я такого сказать не хочу, я просто вижу ее очевидные ограничения.
                                                                    0
                                                                    У меня возник вопрос… А Вы, случайно lpssp и michael_v89 не один и тот же человек? Вот в комментариях тоже вместе фигурируете.

                                                                    А вы всегда на личности переходите, если других аргументов нет?
                                                                    Вы вот в комментариях к данной статье вместе с парой десятков других людей фигурируете. Может вы один и тот же человек? Или может вы настолько не умеете воспринимать критику, что готовы обвинять окружающих направо и налево, лишь бы не признавать, что вы оказались не правы?

                                                                      0
                                                                      lpssp к DALL·E применим one-shot learning. И спасибо, мне ссылок не надо, терминологией я владею. Именно поэтому и не расписываю на десятки продолжений односложную мысль.

                                                                      michael_v89 Оказался не прав в чем? О какой критике Вы говорите? У меня такое чувство, что спор беспредметный. И не только я это подмечал, если Вы заметили. А кого я обвинял и в чем? И, кстати, про интеллект. Ваша статья Что такое интеллект? и Ваш последний комментарий к ней:
                                                                      Вот если бы вы изложили критику, можно было говорить более предметно, а так получается именно болтовня с оскорблениями.
                                                                      Может опять совпадение…
                                                                        –1
                                                                        pssp к DALL·E применим one-shot learning. И спасибо, мне ссылок не надо, терминологией я владею. Именно поэтому и не расписываю на десятки продолжений односложную мысль.

                                                                        Ээээммммм, ну авторы GPT-3 с вами, мягко говоря, не согласны, может стоит ознакомиться с оригинальным пейпером прежде чем бред то писать? :) А так-как GPT-3 — это основная часть DALL-E, то он и к нему неприменим :). Вы ознакомьтесь со ссылками все таки :)
                                                                        Все ваши аргументы пока что начинаются и заканчиваются на фразе
                                                                        «к DALL·E применим one-shot learning» без каких либо доказательств, предполагаю — это ваше личное мнение, проблема только в том, что оно противоречит мнению авторов GPT-3, здравому смыслу и ничем не подкрепляется. Я же вам привел ссылку на 2 статьи, одна из которых от авторов GPT-3 где они прямым текстом называют GPT-3 few-shot моделью с очень важными оговорками, а именно, цитирую: «We further specialize the description to “zero-shot”, “one-shot”, or “few-shot” depending on how many demonstrations are provided at inference time. These terms are intended to remain agnostic on the question of whether the model learns new tasks from scratch at inference time or simply recognizes patterns seen during training».
                                                                        И, простите, уж но нет, терминологией вы если и владеете, то как папугай или GPT-3 — выучили названия терминов, только смысла их не понимаете. Собственно поэтому вы и пытаетесь свести диалог к переходу на личности.
                                                                          0
                                                                          Даже не собираюсь этот бред переваривать.
                                                                          Что при zero-shot новые градиенты не высчитываются не влияют на сеть, это и ежу понятно. Вы это пытались описать в сотне предложений…
                                                                          К GPT-3 и к DALL·E может быть применим one-shot learning. Если Вы не согласны или не являетесь специалистом в этой сферы, или просто не владеете терминологией, то отличным решением будет написать еще сотню комментариев. Чем Вы, собственно, только и занимаетесь, судя по активности Вашего профиля.
                                                                          Выйдет код. Вперед. Попробуйте one-shot learning. Если ничего не выйдет, то доказывайте. Пишите статьи. А не разбрасывайтесь словами и оскорблениями. С этого момента я перестаю Вам отвечать.
                                                                            –1

                                                                            Вы очень смешной, потому что пока что разбрасываетесь словами и оскорблениями вы сами:). Я же как минимум привел ссылку на статью авторов GPT-3, с разъяснениями:). Видимо это вас так и бесит:).
                                                                            "Вы это пытались описать в сотне предложений…" — нет, не это друг мой. Впрочем, чему тут удивляться, судя по вашему способу общения у вас с пониманием вообще очень плохо. Вы бы все таки прочитали хотя бы 2ю статью, что я скинул, там очень популярно объяснена моя мысль. Причем человек доказывает ее с примерами на GPT-3.
                                                                            "К GPT-3 и к DALL·E может быть применим one-shot learning" — пруфы то будут или только слова?:)
                                                                            "Если Вы не согласны или не являетесь специалистом в этой сферы, или просто не владеете терминологией" — а может быть это вы являетесь плохим специалистом в этой области?;) Гонора много, а аргументов никаких.
                                                                            "Чем Вы, собственно, только и занимаетесь, судя по активности Вашего профиля." — именно поэтому, за неимением лучшего, постоянно переходите на личности как сейчас:).
                                                                            "Выйдет код. Вперед. Попробуйте one-shot learning. Если ничего не выйдет, то доказывайте." — так если код не вышел с чего вы взяли, что это возможно, гениальный вы наш?:)
                                                                            "С этого момента я перестаю Вам отвечать." — вот это разочарование, вы ведь вели такую содержательную беседу(нет).
                                                                            Кстати, замечу ещё, что термины zero-one и прочее шот в беседу ввели именно вы, я же специально их избегал потому что, то о чем я писал не "agnostic" к тому inference это или собственно learning. Вы же видимо об этой особенности, рассмотренной впрочем в статье о GPT-3, не в курсе, поэтому и употребляет их не к месту.

                                                                          –1
                                                                          Оказался не прав в чем?

                                                                          В споре с вашим собеседником.


                                                                          О какой критике Вы говорите?

                                                                          О критике ваших утверждений.


                                                                          У меня такое чувство, что спор беспредметный.

                                                                          А когда начинается переход на личности, обычно так и бывает. Из чего следует, что для конструктивной дискуссии переходить на личности не следует.


                                                                          А кого я обвинял и в чем?

                                                                          Обвиняли меня и/или lpssp в том, что я/он притворяюсь кем-то другим и пишу с двух разных аккаунтов, что не разрешается правилами данного сайта.


                                                                          И, кстати, про интеллект. Ваша статья Что такое интеллект? и Ваш последний комментарий к ней:

                                                                          Ну да, это мой комментарий к моей статье. Что следует из этого факта и с чем именно совпадение, я не понял, извините. Формулируйте выводы словами пожалуйста, я не умею мысли читать.

                                                                            0
                                                                            Ясно, понятно. Спасибо за активность!
                                                                  +1
                                                                  Почитайте про CLIP, что ли, если не верите в zero-shot. Задача там другая решается, но это не суть.
                                                              –1
                                                              Можно прикинуть сколько визуальной информации проходит через наш мозг за жизнь.

                                                              Я же вам уже приводил пример про людей, которые не видят. У них вообще нисколько визуальной информации не проходит. Тем не менее, они понимают речь, то есть слова "порождают у них образы".

                                                                0
                                                                Визуальные образы?
                                                                  0

                                                                  Нет, вряд ли они визуальные. А должны быть?

                                                                    0
                                                                    Тогда к чему эта аналогия с незрячими?
                                                                      –1

                                                                      Ну раз вы за веткой не следите, и вам лень ее прочитать, скопирую специально для вас.


                                                                      Vinchi:
                                                                      Этот шаг с генерацией изображений по тексту очень важен. И в том числе для сильного ии. Когда мы говорим чтото друг другу мы порождаем образы у собеседника.

                                                                      michael_v89:
                                                                      Да, только нам не надо для этого изучать миллионы изображений.

                                                                      Dirac:
                                                                      Скорее всего у нас (у людей) речь идет не о миллионах, а о миллиардах изображений.

                                                                      lpssp:
                                                                      Очень сомнительное утверждение.

                                                                      Dirac:
                                                                      Можно прикинуть сколько визуальной информации проходит через наш мозг за жизнь.

                                                                      michael_v89:
                                                                      Я же вам уже приводил пример про людей, которые не видят. У них вообще нисколько визуальной информации не проходит. Тем не менее, они понимают речь, то есть слова "порождают у них образы".

                                                                      Аналогия с незрячими здесь именно к тому, что для образов и понимания речи никакие миллиарды изображений не нужны.

                                                                        0
                                                                        А как это все связано с «генерацией изображений по тексту» и с тематикой поста?
                                                                          –1

                                                                          Связано первым комментарием, где эта самая генерация изображений упоминается. Как это связано с тематикой поста, я не знаю, я просто отвечал на комментарий, но видимо так же, как и ваши "миллиарды изображений".

                                                              +1

                                                              Вроде бы 'нарисовать похоже на это (показывается картинка), чего раньше никогда не видели' — это нейросети уже раньше научились.


                                                              А тут задача была нарисовать именно по понятому тексу. Если человеческому художнику сказать 'нарисуй мне ибиса гурилого в виде кониферуса шушпанчикого' — то он тоже ничего не сделает. Потому что у него предообученного представления о ибисе и кониферусе в голове нет.

                                                          0
                                                          Действительно,
                                                          Этот шаг с генерацией изображений по тексту очень важен
                                                          И эта работа тоже, и, возможно, не просто маленький шаг, а рода технологический прорыв.
                                                          И в том числе для сильного ии
                                                          Если использовать такую терминологию. Ну и, конечно, важно так же смотреть на жту работу в историческом контексте:
                                                          Можно сказать, что уже были все предпосылки к созданию DALL · E: прошлогодний триумф GPT-3 и успешное создание Image GPT сети, способной к генерации изображений на основе текста, использующей языковую модель трансформер GPT-2. Все уже подходило к тому, чтобы создать новую модель, взяв в этот раз за основу GPT-3.
                                                          +1
                                                          Исторический и географический контекст — подразумевалось, что сеть по запросу дорисовала именно бородатых мужиков, а не Гомера Симпсона (которого бы дорисовал я, если бы мне дали такое задание)
                                                            +1

                                                            Там приводится пример с телефонами, Гомер был в предыдущем абзаце.

                                                          +1

                                                          У меня вопрос — там еще отдельная статья про clip? Про нее напишете?

                                                            0
                                                            Добрый день! CLIP действительно очень интересная работа. Особенно в контексте этой статьи и подобного нейронного ранжирования. Учту Ваши пожелания)
                                                            +1

                                                            Её как-то можно на домашнем компе поднять? Или в небольшом клауде за разумные деньги, очень хочется поиграться.

                                                              0
                                                              Прекрасно Вас понимаю. Но пока еще никак, но очень ждем. Боюсь, что далеко не всем дадут возможность «потрогать» и поиграть с моделью в ближайшее время.
                                                              +3
                                                              — Can a robot write a symphony? Can a robot turn a canvas into a beautiful masterpiece?
                                                              — Can you?
                                                                0
                                                                Отлично подмечено!

                                                                — Can a robot write a symphony? Can a robot turn a canvas into a beautiful masterpiece?
                                                                openai.com/blog/jukebox
                                                                –1
                                                                Может это… Надо было кибернетику запретить на планете в начале 50х. Ну или хотя бы в 90-е. или в 2010-е. Может хоть сейчас запретим развитие? Это уже не просто пугает, это хоррор с претензией.
                                                                  0
                                                                  Так пытались уже бороться с продажной девкой империализма… Мне кажется что такое стремительное развитие методов машинного обучения должно мотивировать, воодушевлять и вдохновлять, а не пугать.
                                                                    +1

                                                                    А, собственно, что пугает-то?


                                                                    По идее, одновременно развиваются и средства распознавания вот этого вот всего. Так что просто к каждой картинке или тексту будет навешиваться 'коэффициент осмысленности и новизны — x%. Вероятность, что сделано не человеком — y%'. Другое дело, что куча творений вполне живых людей попадет под false positive — но это и к лучшему, скорее всего.

                                                                      0
                                                                      Ну например из-за резкого прогресса в области распознавания изображений капчи усложнились настолько, что гуглокапча уже находится на пределе человеческих возможностей (по крайней мере для части людей). Замечаю, что уже практически никогда не могу её правильно распознать с первого раза.
                                                                        0

                                                                        Так ее явно специально так настраивают, чтобы не с первого раза. Вполне возможно, что 'не с первого' — это как раз одна из весомых характеристик именно человека.

                                                                          +2
                                                                          То что сейчас происходит с капчами это невероятно интересная тема. Если инетесно, могу подготовить материал именно по ним: как взламывать капчи и капчи взламывают нейронные сети. Пока скажем так, это настоящая война с нейросетями не на жизнь, а насмерть!
                                                                            +2
                                                                            Конечно же интересно!
                                                                              +1
                                                                              Договорились, будет!
                                                                      0
                                                                      Не понял, что на входе, кроме текста, у нейросети? И что за 12 мрд параметров?
                                                                        0
                                                                        Не понял, что на входе, кроме текста, у нейросети?
                                                                        Может быть только текст, а может быть и текст и начало изображения (для его продолжения):
                                                                        DALL · E — это декодер-трансформер, который принимает и текст, и изображение в виде единой последовательности токенов (1280 токенов = 256 для текста + 1024 для изображения) и далее генерирует изображения авторегрессивном режиме.
                                                                        Здесь нужно понимать как работают подобные трансформеры и как именно работает decoder часть encoder-decoder трансформеров. По сути вы можете интерпретировать работу DALL · E, как нейронный машинный перевод из текста в изображение. И оперировать токенами. В таком режиме (авторегрессивном) сеть способна генерировать как и новые изображения, так и заканчивать (догенеривать) уже начатые, как в примере с Гомером.
                                                                        И что за 12 мрд параметров?
                                                                        У нейронной сети есть своя архитектура (топология) и обучаемые парамтеры, кторые тренеруются в процессе обучения нейронной сети. У DALL · E этих обучаемых параметров ~12 000 000 000.

                                                                        Я ответил на Ваш вопрос?
                                                                          +1
                                                                          Параметры — это нейроны? Промежуточных, входных, выходных или всего 12 млрд?
                                                                            0
                                                                            Близко. Это размер матрицы или тензора весов. И все зависит от типа слоя. Например, для полносвязных FC-слоев, если в предыдущем слое 512 нейронов, а в интересующем нас 1024 нейрона, то в это слое будет 512 * 1024 = 524288 обучаемых параметра, не учитывая bias'ы и обучаемы параметры в нормализациях и активациях, если такие параметры есть.
                                                                            По сути количество обучаемых параметров зависит от «нейронов», ну а если более точно, то от типа операции в слое (или даже блоке) сети, bias'ов, функции активации (e.g., prelu), и типа нормализаций при этом слое.
                                                                              +1
                                                                              Получается матрица инцидентности, а параметры это количество edges в графе. Короче, если я правильно понял, топология сети это граф с функциями перехода, а параметры — это и есть функции перехода. И любая нейронная сеть описывается топологией и состоянием (значением параметров). Соответственно, если сеть состоит 12 B параметров (чисел), то она занимает минимум 50 ГБ :-)
                                                                              Правильно я понимаю?
                                                                                0
                                                                                1. Понял Вашу интерпретацию.
                                                                                матрица инцидентности
                                                                                имеет bool значения. А тут float (если без квантизации). Тут граф (его топология) задается уже архитектурой сети. Дальше при обучении меняется матрица перехода, если мы говорим про полносвязные слои (не касается DALL · E, просо легкий для понимания пример), то матрица инцидентности буде треугольная матрицей из единиц и нулей. Веса — это матрица трансформации. Умножаете ее на вход в слой и всех делов.
                                                                                2. Зависит от числового типа. Умножаем кол-во параметров ~12 000 000 000 на кол-во бит, кодируем архитектуру сети со всеми операциями. Столько и будет весить.
                                                                                  0
                                                                                  Благодаря вам, засел за изучение :-) И много, чего узнал и понял.
                                                                                  В общем, где я ошибался и где возникала путаница терминов.
                                                                                  1. Параметры. Нужно рассматривать именно как метапараметры функции (по другому веса). Вычисление нейронной сети является функцией R^n x R^wn -> R^m, где n — количество входных данных, wn — количество параметров (весов), m — количество выходных классов.

                                                                                  2. Сверточные сети не являются линейной функцией!, 1) сами активаторы не обязательно линейные 2) max-pool нелинейная функция

                                                                                  3. Из-за нелинейности Нейронные сети не являются Тензором в математическом смысле. Тензором в НН называется строгий multidimensional массив (размерность всех поддеревьев одинакова!). Основной confusion пошел из библиотеки TensorFlow. stats.stackexchange.com/questions/198061/why-the-sudden-fascination-with-tensors/198395#198395

                                                                                  4. Операция свертки не является Тензорной операцией свертки. Свертка в сетях пришла из алгоритмов работы с изображениями (Jpeg), а там использовалось преобразование Фурье (для лучшего сжатия картинок). www.reg.ru/blog/svyortka-v-deep-learning-prostymi-slovami

                                                                                  К сожалению, терминология в нейронных сетях немного отличается от физмат, что создает некоторые проблемы неокрепшим умам.
                                                                        +3
                                                                        Эмодзи пингвиненка, одетого в голубую шапку, красные перчатки, зеленую футболку и желтые штаны
                                                                        Осталось только подписать под каждым соотвествующий дистрибутив линукса (сарказм).
                                                                          +2
                                                                          О Х Р Е Н Е Т Ь.
                                                                            –1
                                                                            Похоже просто на поиск по гугл-картинкам, если честно… не верится.
                                                                              0
                                                                              Как точно подмечено!!! Если загуглить an emoji of a baby penguin wearing a blue hat, red gloves, green shirt, and yellow pants, то я увижу именно эти картинки. Правда им всем почему-то около суток… возможно совпадение… image

                                                                              0

                                                                              А что мы увидим введя текст "nude Gal Gadot"? :)
                                                                              (наверняка и разработчикам подобное приходило в голову...)

                                                                                0
                                                                                Также, сотрудники из openai выразили озадаченность тем, что уровень реалистичности и результаты работы современных генеративных моделей могут оказать сильное влияние на общество. И опасаются за возможные неоднозначные социальные и экономические последствия использования подобных технологий.
                                                                                Теперь этот абзац не кажется таким уж абстрактным.
                                                                                +1

                                                                                Еще когда увидел iGPT, подумал, что стандартным ганам можно потихоньку присматривать стенд в музее. Теперь моя вера в это утвердилась)
                                                                                Одно жаль, (OpenAI) CloseAI, как обычно, не выпустит модельку с кодом, а будет заявлять во все горло про опасность, как это было с GPT. Надеюсь, кто-то более открытый таки сможет повторить успех и позволит сообществу исследовать по факту новую область.

                                                                                  0
                                                                                  Очень точно подмечено про CloseAI. Они уже об этом написали, и это тревожный звоночек.
                                                                                  We recognize that work involving generative models has the potential for significant, broad societal impacts. In the future, we plan to analyze how models like DALL·E relate to societal issues like economic impact on certain work processes and professions, the potential for bias in the model outputs, and the longer term ethical challenges implied by this technology.
                                                                                  Скорее всего в ближайшее время будет пейпер. Единственное, что я даже не представляю каких усилий будет стоить комьюнити сделать нечто подобное. Чтобы было действтительно Open.
                                                                                  Про Gan'ы. Да, тоже фиксирую такой тренд. Ну по сути сами Gan'ы могут остаться, как добавочный режим тренеровки. Уверен, что это просто будет рутинная возможноть получить дополнительные градиенты с дискриминатора, если это необходимо.
                                                                                    +1
                                                                                    Возникли три последовательных реакции. Сперва эти картинки показались качественным розыгрышем, потом восхищение «до чего дошел прогресс» и наконец, посмотрев описание на оригинальном сайте с большим количеством примеров по которым видно закономерности (посмотрите на подсказки в виде фона), добавилось понимание, как это устроено. Думаю обещанный технический обзор покажет, как все просто и ловко устроено, при этом все воспроизводимо. Про нейронные ранжирование, которое тоже важно.
                                                                                    Применение технологии наверно пока может быть только для как игрушка или генерации тонн «годного» контента или подпитка иссякающих фонтанов идей дизайнеров. А потом оно станет частью чего более впечатляющего и важного, например когда это можно будет не только понять или услышать, но и увидеть.
                                                                                      0
                                                                                      Не могу не согласиться!
                                                                                      «до чего дошел прогресс»

                                                                                      Кстати, по поводу
                                                                                      посмотрев описание на оригинальном сайте с большим количеством примеров по которым видно закономерности (посмотрите на подсказки в виде фона), добавилось понимание, как это устроено
                                                                                      Так и есть! Зная архитектуру GPT-3 и VQVAE и то, что я писал выше:
                                                                                      Здесь нужно понимать как работают подобные трансформеры и как именно работает decoder часть encoder-decoder трансформеров. По сути вы можете интерпретировать работу DALL · E, как нейронный машинный перевод из текста в изображение. И оперировать токенами. В таком режиме (авторегрессивном) сеть способна генерировать как и новые изображения, так и заканчивать (догенеривать) уже начатые, как в примере с Гомером.
                                                                                      Напрашивается и сама реализация. Как Вы сказали:
                                                                                      добавилось понимание, как это устроено
                                                                                      Но пока еще множество неочевидных технических нюансов и догадок. Так что подождем пейпера. Сделаем и обсудим технический обзор!

                                                                                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                                                    Самое читаемое