Доработанная версия теперь генерирует до четырёх раз более качественные изображения, чем предыдущая. Результат получается быстрее и в размере 1024×1024 пикселей вместо 256×256 пикселей.
Нейросеть может брать изображение и создавать различные его вариации, изменяя композицию, тени и текстуру, говорится на сайте компании. Она научилась добавлять и удалять новые объекты и редактировать фотографии. DALL-E 2 может, например, добавить объект в интерьер или заменить одну его деталь на другую.
Ещё одна функция — создание картинок, похожих на оригинальный вариант. Пользователи таке смогут смешивать два изображения, чтобы получить третье.
DALL-E 2 также может объединять чуждые друг другу концепции и генерировать правдоподобное изображение.
Старший вице-президент по исследованиям и продукту OpenAI Мира Мурати показала возможности алгоритма в твиттере, сгенерировав картинку по запросу «фотография в макросъемке на 35-мм пленке большой мышиной семьи в шляпах у камина».
DALL-E 2 основана на CLIP, системе компьютерного зрения, которую OpenAI анонсировала в 2021 году. Пока доступ к новой версии открыт только для группы пользователей через список ожидания. Пользователям запрещено загружать или создавать изображения, которые «могут причинить вред», включая все, что связано с символами ненависти, наготой, непристойными жестами или «заговорами или событиями, связанными с текущими геополитическими событиями». Они также должны раскрывать роль ИИ в создании изображений. Позже нейросеть добавят в API, чтобы ей могли пользоваться сторонние разработчики.
Первую версию нейросети запустили в январе 2021 года. DALL–E представляет собой версию GPT-3 с 12 миллиардами параметров, обученную генерировать изображения из текстовых описаний на датасете из пар текст-изображение.
В то время OpenAI заявила, что продолжит развивать систему, изучая потенциальные опасности, такие как предвзятость при создании изображений или создание дезинформации. Компания пытается решить эти проблемы с помощью технических средств защиты и новой политики в отношении контента, одновременно снижая вычислительную нагрузку и расширяя базовые возможности модели.