Комментарии 5
Раздел про решение обратной задачи выглядит сомнительно. Описание картинки робота заставляет меня сделать вывод, что используется контекст, потому что лично я там робота вот совсем не вижу. Скорее младенца.
Возможно, запросы делались в одном чате и действительно подтянулся контекст. У меня по этой картинке чатгпт выдало следующее:
На изображении, которое вы загрузили, выполнено в стиле ASCII-арта. Оно представляет собой схематическое изображение человека. Присутствуют черты лица, шея, плечи, туловище, руки и ноги, сделанные из символов, таких как вертикальные линии, горизонтальные линии, косые черты и другие.
Так что, как минимум, LLM действительно знает что такое ascii-арт и понимает как его переложить на реальные объекты. Вполне возможно, в датасете для обучения было много ascii-картинок людей и она просто знает, какая комбинация символов должна представлять человеческое лицо.
Мне ChatGPT выдал такого "программиста за работой".
Кажется, я знаю, под какую ОС этот программист пишет.
Отличная статья, спасибо. Больше удивили результаты обратной задачи: подобный "image" captioning - крайне любопытное свойство LLM
Я случайно нашел ещё одну интересную способность ChatGPT - он может понимать изображение, если прислать его текстом в base64, без использования vision.
LLM и ее невозможный ASCII art