Комментарии 14
Авторы, впрочем, осторожны и корректны в выводах. Никакого «созданного нейросетью языка» в их интерпретации нет, лишь некий vocabulary, то есть словарный запас, лексикаА чуть выше написано, что авторы скормили нейросети википедию. Какая неожиданность.
Естественно, модель будет на любой непонятный ей запрос выдавать результаты, сдвинутые определённым, нестабильным, зависящим от процесса обучения, образом во внутреннем пространстве представлений, ведь выдавать что-то надо. И это отлично согласуется с предложенными в статье фактами о похожести выдачи на опечатки, другие языки и классификацию.
Получился очень наглядный пример работы принципа garbage in, garbage out.
Удивление здесь могла бы вызвать согласованность текстовой выдачи внутри изображения и текстом запроса, если бы мы не знали, что такое сопоставление -- и есть scoring-функция сети, она обучалась именно сопоставлению текстов и изображений, хоть и из более узкого множества языковой лексики.
ИМХО это чем-то похоже на "неподвижные точки" - текст, который отображается на рисунки с этим же текстом ...
DALL-E Mini забавная. Она настолько отчаянно отказывается генерить текст, что создается впечатление, будто это специально подрезали. По запросу "advertisement billboard" генерирует чисто белый биллбоард, например :)
Да в общем ничего удивительно, слова проецируются в токены. Причем даже можно подобрать кучу разных написаний (и весьма неожиданных, если брать редкие символы), приводящим к близким токенам. Потом при генерации сетка просто никак не может отличить слово абракодабру от исходного слова (при обучении дискриминтора, например). Апприорно наделили систему дислексией - странно что неправильные слова пишет потом и читает :).
c GPU нет серверов у вас ?
DALLE-mini не связана с Open AI, это независимый опен-соурс проект, вдохновленный первой DALLE. И Open AI сейчас пытаются их вынудить сменить название, чтобы схожесть названий людей в заблуждение не вводила.
Что отчасти объясняет разницу в результатах - это в принципе разные модели)
Ну зато в остальном статья очень даже разумная, все по делу.
Ждём когда ИИ научиться генерировать полноценное кино с видеорядом и диалогами, тогда точно можно будет улететь в мир грёз наяву.
А почему в экспериментах использовалось слово vicootes, если на сгенерированной картинке было vicootess (с двумя s)?
Кажется, мы приближаемся к разгадке языка рукописи Войнича.
Нейросеть DALL-E 2 создала собственный язык: правда, не совсем, и совсем не?