Pull to refresh

Comments 5

Раздел про решение обратной задачи выглядит сомнительно. Описание картинки робота заставляет меня сделать вывод, что используется контекст, потому что лично я там робота вот совсем не вижу. Скорее младенца.

Возможно, запросы делались в одном чате и действительно подтянулся контекст. У меня по этой картинке чатгпт выдало следующее:

На изображении, которое вы загрузили, выполнено в стиле ASCII-арта. Оно представляет собой схематическое изображение человека. Присутствуют черты лица, шея, плечи, туловище, руки и ноги, сделанные из символов, таких как вертикальные линии, горизонтальные линии, косые черты и другие.

Так что, как минимум, LLM действительно знает что такое ascii-арт и понимает как его переложить на реальные объекты. Вполне возможно, в датасете для обучения было много ascii-картинок людей и она просто знает, какая комбинация символов должна представлять человеческое лицо.

Мне ChatGPT выдал такого "программиста за работой".

Кажется, я знаю, под какую ОС этот программист пишет.

Отличная статья, спасибо. Больше удивили результаты обратной задачи: подобный "image" captioning - крайне любопытное свойство LLM

Я случайно нашел ещё одну интересную способность ChatGPT - он может понимать изображение, если прислать его текстом в base64, без использования vision.

Sign up to leave a comment.

Articles