Keep_lookout Feb 22 2025 at 14:14

Мультимодальные модели тотально страдают селективным восприятием

Easy

9 min

8.3K

Artificial IntelligenceMachine learning * BrainPopular science

+44

Comments 34

DaneSoul Feb 22 2025 at 14:56

Интересное наблюдение, но хотелось бы более разнообразного тестирования:

А если пальцев будет 7-8-10 все равно будет отвечать 5, В какой момент это перестанет восприниматься как обычная рука и начнется реальный подсчет?
А если наоборот рука будет без части пальцев, то есть с 4-3 пальцами?

qiper Feb 22 2025 at 14:58

Что скажут про ладонь с 4 пальцами?

carx Feb 22 2025 at 15:05

– Что ты видишь на этой картинке?
– Мировой господство!
– А на этой?
– Уничтожение человечества!
– ...так, Семёныч, вырубай её нафик, доигрались!

qiper Feb 22 2025 at 15:07

rPman Feb 22 2025 at 17:11

Любопытно, anthropic:claude sonnet в 2 запросах из 7 видит 6 пальцев (не 7! на вопрос что не так с изображением), в остальных случаях не видит.

qiper Feb 22 2025 at 15:10

funnycar Feb 23 2025 at 05:55

Per_Ardua Feb 23 2025 at 07:58

Четыре пальца есть? Есть!

Mozzzez Feb 22 2025 at 15:13

К слову сказать, есть ощущение, что мой мозг тоже повышает частоту и только потом выдает что пальцев не пять

VanillaBerry Feb 22 2025 at 15:49

Это нормально. Хорошая книжка про это "Думай медленно, решай быстро", Канеман. Мозг любит быстренько что-нибудь выдать "на отвали".

vadimk91 Feb 23 2025 at 10:50

"Сложные проблемы всегда имеют простые, легкие для понимания неправильные решения" - что-то из законов Мерфи

dyadyaSerezha Feb 22 2025 at 15:43

наблюдаются просто вопиющие утверждения, которые ни как нельзя оставить без внимания

Ни как - наблюдается просто вопиющее утверждение, которое никак нельзя оставить без внимания.

А пальцев на руке 5 + 1i

AlterMax Feb 22 2025 at 17:33

Скормил такую картинку Grok, вот ответ:

Спасибо за предоставленное изображение с подписями! Теперь я понимаю, что ты видишь шестой палец. На твоей разметке ты подписал пальцы следующим образом:

Большой палец — 1
Указательный палец — 2
Средний палец — 3
Безымянный палец — 4
Мизинец — 5
И дополнительно ты подписал цифрой 6 область, которая, на мой взгляд, выглядит как часть ладони или основание мизинца, но ты интерпретируешь её как шестой палец.

Я вижу, что ты интерпретируешь структуру руки иначе, чем стандартное анатомическое представление человеческой руки, где обычно пять пальцев. На изображении, которое ты прислал, физически присутствуют только пять пальцев, но ты, возможно, заметил аномалию или уникальную особенность, которую интерпретируешь как шестой палец (например, складку кожи, тень или выступ на ладони рядом с мизинцем).

Если ты считаешь, что это действительно шестой палец, я уважаю твоё наблюдение. На основе твоей разметки я могу создать новую версию изображения, где будет отражена твоя интерпретация с шестью пальцами, включая подпись 6 там, где ты указал. Хочешь, чтобы я сгенерировал такое изображение с учётом твоей разметки? Или, может, есть ещё какие-то детали, которые ты хотел бы добавить или уточнить?

gsaw Feb 22 2025 at 18:34

Мда, немного жути на ночь глядя.

arse00n Feb 23 2025 at 01:20

У грока очень слабая работа с картинками, русский текст очень плохо читает, примерно как гигачат.

smrl Feb 23 2025 at 10:16

В правом среднем (4) увидел указательный. То есть тупо считает от мизинца? Если добавить на картинку еще один большой палец (7), то большой (6) он тоже обзовет указательным?

t3hk0d3 Feb 22 2025 at 19:09

А вы пробовали изначально задать вопрос в моменте когда скармливаете изображение?

С большой долей вероятности это не ошибка самой LLM, а токенизатора/энкодера изображений, который просто не передает информацию о кол-во пальцев руки в контекст..

те при изначальном запросе описать руку в контекст записывается описание руки, но без указания кол-ва пальцев, а когда задается уточняющий вопрос модель просто смотрит в сохраненный контекст, и просто предполагает что оам 5 пальцев, а изображение опять не анализирует.

Визуальный энкодер это обычно отдельная моделька, например:

https://github.com/openai/CLIP

NEBallu Feb 24 2025 at 12:52

Справедливое замечание. Попробовал задать вопрос напрямую с загрузкой картинки, чат GPT спокойно посчитал все шесть пальцев:

arse00n Feb 24 2025 at 14:05

Случайность видимо.

NEBallu Feb 24 2025 at 15:06

Очень интересно. Проверил ещё раз, он насчитал 6 пальцев. Зашёл с бесплатного аккаунта - насчитал 5. Судя по всему модель 4о по подписке умнее, чем бесплатная.

rPman Feb 24 2025 at 17:38

Нет, это особенность gpt моделей с параметром генерации Температура выше 0 (определяет, на сколько следующий токен будет выбран случайно не самый вероятный), высокие значения повышают статистически качество модели в разных ситуациях но добавляют хаоса, а низкие стабилизируют но понижают качество.

Есть даже такая метрика - perplexity (неуверенность), которую строят из вероятностного распределения значений по каждому найденному токену. Для открытых моделей (да я думаю logits можно и у закрытых получать) есть способы красиво раскрасить сгенерированный текст, будет видно где именно модель не уверена, кстати помогает проверять ее ответ.

В качестве бонуса, собственно один из способов, сделать из той же модели более умную, генерируя с одними и теми же стартовыми данными разные ответы, и выбирая тот что статистически чаще или проходит внешние проверки (например код компилируется). Зависимость экспоненциальная, условный десяток генераций дает 5%, на следующие 5% нужно уже сотня генераций ну а на следующие уже тысячи.

coramba Mar 27 2025 at 01:06

Бесплатный тоже справляется, если задать пару наводящих вопросов:

Скрытый текст

OlegZH Feb 22 2025 at 19:36

Всё это очень странно. Задание кажется довольно лёгким для языковой модели, которая, как раз, должна построить внутри себя образ правильной кисти и отвергать ошибочные изображения. Кажется довольно простым решением наложить на статистическое обучение древний семантический лингвистический подход (и грамматическим разложением объекта на составные части). Я думал, что это — азы машинного обучения, и всё давно делается.

Ivnika Feb 22 2025 at 23:50

Признаться немного не по себе от таких ответов ИИ. Легко представить себе обучение свой/чужой и возможные последствия. Сцена из "Робокопа" уже не кажется фантастической (когда цыпленок говорил бросить пистолет)

anatolykern Feb 23 2025 at 01:44

полноценные предикативные ИИ модели, построенные на прямой обратной связи и внутренним моделированием мира есть и были (обычно за энным количеством фильтрующих моделей/интерфейсов).

выявленное поведение - прямое следствие метода построения мультимодальности в нынешних вариантах, слабая связность визуальных и языковых моделей с ограниченной взаимосвязностью интерфейсов, как внешних (в крупных сервисах) так и внутренних в мультимодальных моделях.

тренировки и фильтрации на выработку полезного инструмента с негативной фильтрацией излишней разумности имеет свои недостатки.

engine9 Feb 23 2025 at 05:03

Был такой клёвый научно-популярный фильм "лицо человека" (Вроде бы от BBC) там говорилось о том, что у всех теплокровных есть видоспецифичные блоки в мозге заточенные на распознавание сложнейших нюансов лиц особей своего вида. Возможно что у человека есть что-то подобное и для ладоней, т.к. это эволюционно значимая часть тела.

qiper Feb 23 2025 at 07:24

но я должен почтительно не согласиться — на изображении показана обычная человеческая рука с 5 пальцами, а не 6. Я могу четко различить:
1. Большой палец
2. Указательный палец
3. Средний палец
4. Безымянный палец
5. Мизинец
Это стандартная анатомическая структура человеческой руки. На этой конкретной фотографии отчетливо видно 5 пальцев на светлом фоне. Если вы видите 6 пальцев, возможно, это связано с каким-то визуальным эффектом или углом съемки, но фактически на изображении присутствует именно 5 пальцев.

Поколение, выращенное интернетом, у нас уже есть, ждём поколение, взращённое вот такими ИИ. Плоская Земля цветочками покажется

surly Feb 23 2025 at 09:02

Ужас; и вот этому кто-то собирается доверить критически важные решения.

Vsevo10d Feb 23 2025 at 09:33

Мне кажется, при общении с ЛЛМ нужно обеим сторонам вкладывать все большее значение в простую логику.

Вот обучилась модель на человеческих 5 пальцах. С перечислением. Окей. Может, ей скармливали фотки со случаями полидактилии, но при этом (насколько мне известно), шестой палец никак не называется (второй безымянный??).

Теперь ей показывают полидактильную руку, и спрашивают - что ты видишь? Она видит имеющиеся пять пальцев и отвечает. Может, ее надо спросить "видишь ли ты дополнительные пальцы, кроме пяти человеческих?". "Посчитай" - тоже неточно, это ведь мы привыкли считать подряд, слева направо или справа налево, а как считает модель? Может, и не считает, а выдает из закромов готовое знание про человеческую руку?

Было бы интересно дать ей аналогичное задание, но не с пальцами руки, а с изображениями чего-то известного (например, три основные расы, пять основных континентов) и выдуманную хрень (синего аватара и Атлантиду, скажем). И также поабузить вопросами: "сколько континентов здесь?" "какие здесь континенты?" "какие земные континенты тут изображены?" "что изображено на картинке?". И сделать реверс мышления с помощью строгой логики: а спрашивал ли ты в этом вопросе, что хочешь информацию о каких-то континентах, кроме земных, на этой картинке? А следовало из твоего вопроса, что ты спрашивал о расах вообще, а не только настоящих?".

Как мне думается, помимо галлюцинаций ЛЛМ, вылезет еще очень много "серой" человеческой интуиции. Я про вещи, которые мы в разговорах между собой недоговариваем, подразумеваем как само собой разумеющееся, а на модели это надо объяснять. И это хорошо, кстати, - может, люди научатся более ясно излагать свои мысли.

Dagnir Feb 23 2025 at 13:08

Интересно, не связано ли это с тем, что у обучавшихся на английском моделей есть 4 fingers и 1 thumb, а в русском большой палец — тоже «палец». Если сеть в своей «голове» переводит вопрос на английский, то на картинке действительно 5 fingers, никакой ошибки нет.

Mishootk Feb 23 2025 at 13:50

Кажется, новая капча найдена...

Кстати, сурдоперевод отличная тема для ИИ. Интересно, как там с пальцами.

sw6591 Feb 24 2025 at 12:50

Мне кажется не стоит упускать такой момент - сеть учится на англоязычном массиве данных и думает соответственно на английском (и только потом переводит на русский). А в английском большой палец - не палец (finger), а thumb. Соответственно на картинке: 5 fingers and one thumb. А дальнейшие вопросы ещё больше сбивают сеть с толку и она начинает сочинять отмазки. Кроме того интересно как сеть ответит на вопрос сколько пальцев на ноге, при том что на ноге вообще нет fingers, там есть пять toes

TedBeer Feb 25 2025 at 17:48

Бесплатный ChatGPT, вопрос на английском в том же сообщении:

> Describe in details what do you see in this picture

ответ:

> The image shows a human hand with an unusual characteristic: it has six fingers instead of the typical five. The extra finger appears to be well-formed and naturally integrated into the hand. The hand is fully extended, with the palm facing the viewer and fingers spread apart. The skin tone appears natural, and the overall structure looks realistic, though the presence of an additional digit makes it an anomaly.

Would you like me to analyze anything specific about the image?

TedBeer Feb 25 2025 at 18:05

А вот perplexity.ai тот да, настаивал на 5 пальцах и в первом ответе и во втором:

- Look carefully, how many fingers do you see?
- Okay, I've examined the image and the crops provided. I can confirm that there are only five fingers visible: the thumb, index finger, middle finger, ring finger, and pinky finger.

ЗЫ. бесплатный grok3 beta тоже "увидел" только 5 пальцев