Comments 34
Интересное наблюдение, но хотелось бы более разнообразного тестирования:
А если пальцев будет 7-8-10 все равно будет отвечать 5, В какой момент это перестанет восприниматься как обычная рука и начнется реальный подсчет?
А если наоборот рука будет без части пальцев, то есть с 4-3 пальцами?
Что скажут про ладонь с 4 пальцами?
– Что ты видишь на этой картинке?
– Мировой господство!
– А на этой?
– Уничтожение человечества!
– ...так, Семёныч, вырубай её нафик, доигрались!
К слову сказать, есть ощущение, что мой мозг тоже повышает частоту и только потом выдает что пальцев не пять
наблюдаются просто вопиющие утверждения, которые ни как нельзя оставить без внимания
Ни как - наблюдается просто вопиющее утверждение, которое никак нельзя оставить без внимания.
А пальцев на руке 5 + 1i

Скормил такую картинку Grok, вот ответ:
Спасибо за предоставленное изображение с подписями! Теперь я понимаю, что ты видишь шестой палец. На твоей разметке ты подписал пальцы следующим образом:
Большой палец — 1
Указательный палец — 2
Средний палец — 3
Безымянный палец — 4
Мизинец — 5
И дополнительно ты подписал цифрой 6 область, которая, на мой взгляд, выглядит как часть ладони или основание мизинца, но ты интерпретируешь её как шестой палец.
Я вижу, что ты интерпретируешь структуру руки иначе, чем стандартное анатомическое представление человеческой руки, где обычно пять пальцев. На изображении, которое ты прислал, физически присутствуют только пять пальцев, но ты, возможно, заметил аномалию или уникальную особенность, которую интерпретируешь как шестой палец (например, складку кожи, тень или выступ на ладони рядом с мизинцем).
Если ты считаешь, что это действительно шестой палец, я уважаю твоё наблюдение. На основе твоей разметки я могу создать новую версию изображения, где будет отражена твоя интерпретация с шестью пальцами, включая подпись 6 там, где ты указал. Хочешь, чтобы я сгенерировал такое изображение с учётом твоей разметки? Или, может, есть ещё какие-то детали, которые ты хотел бы добавить или уточнить?
Мда, немного жути на ночь глядя.
У грока очень слабая работа с картинками, русский текст очень плохо читает, примерно как гигачат.

А вы пробовали изначально задать вопрос в моменте когда скармливаете изображение?
С большой долей вероятности это не ошибка самой LLM, а токенизатора/энкодера изображений, который просто не передает информацию о кол-во пальцев руки в контекст..
те при изначальном запросе описать руку в контекст записывается описание руки, но без указания кол-ва пальцев, а когда задается уточняющий вопрос модель просто смотрит в сохраненный контекст, и просто предполагает что оам 5 пальцев, а изображение опять не анализирует.
Визуальный энкодер это обычно отдельная моделька, например:
Справедливое замечание. Попробовал задать вопрос напрямую с загрузкой картинки, чат GPT спокойно посчитал все шесть пальцев:

Случайность видимо.

Очень интересно. Проверил ещё раз, он насчитал 6 пальцев. Зашёл с бесплатного аккаунта - насчитал 5. Судя по всему модель 4о по подписке умнее, чем бесплатная.
Нет, это особенность gpt моделей с параметром генерации Температура выше 0 (определяет, на сколько следующий токен будет выбран случайно не самый вероятный), высокие значения повышают статистически качество модели в разных ситуациях но добавляют хаоса, а низкие стабилизируют но понижают качество.
Есть даже такая метрика - perplexity (неуверенность), которую строят из вероятностного распределения значений по каждому найденному токену. Для открытых моделей (да я думаю logits можно и у закрытых получать) есть способы красиво раскрасить сгенерированный текст, будет видно где именно модель не уверена, кстати помогает проверять ее ответ.
В качестве бонуса, собственно один из способов, сделать из той же модели более умную, генерируя с одними и теми же стартовыми данными разные ответы, и выбирая тот что статистически чаще или проходит внешние проверки (например код компилируется). Зависимость экспоненциальная, условный десяток генераций дает 5%, на следующие 5% нужно уже сотня генераций ну а на следующие уже тысячи.
Бесплатный тоже справляется, если задать пару наводящих вопросов:
Скрытый текст

Всё это очень странно. Задание кажется довольно лёгким для языковой модели, которая, как раз, должна построить внутри себя образ правильной кисти и отвергать ошибочные изображения. Кажется довольно простым решением наложить на статистическое обучение древний семантический лингвистический подход (и грамматическим разложением объекта на составные части). Я думал, что это — азы машинного обучения, и всё давно делается.
Признаться немного не по себе от таких ответов ИИ. Легко представить себе обучение свой/чужой и возможные последствия. Сцена из "Робокопа" уже не кажется фантастической (когда цыпленок говорил бросить пистолет)
полноценные предикативные ИИ модели, построенные на прямой обратной связи и внутренним моделированием мира есть и были (обычно за энным количеством фильтрующих моделей/интерфейсов).
выявленное поведение - прямое следствие метода построения мультимодальности в нынешних вариантах, слабая связность визуальных и языковых моделей с ограниченной взаимосвязностью интерфейсов, как внешних (в крупных сервисах) так и внутренних в мультимодальных моделях.
тренировки и фильтрации на выработку полезного инструмента с негативной фильтрацией излишней разумности имеет свои недостатки.
Был такой клёвый научно-популярный фильм "лицо человека" (Вроде бы от BBC) там говорилось о том, что у всех теплокровных есть видоспецифичные блоки в мозге заточенные на распознавание сложнейших нюансов лиц особей своего вида. Возможно что у человека есть что-то подобное и для ладоней, т.к. это эволюционно значимая часть тела.
но я должен почтительно не согласиться — на изображении показана обычная человеческая рука с 5 пальцами, а не 6. Я могу четко различить:
1. Большой палец
2. Указательный палец
3. Средний палец
4. Безымянный палец
5. МизинецЭто стандартная анатомическая структура человеческой руки. На этой конкретной фотографии отчетливо видно 5 пальцев на светлом фоне. Если вы видите 6 пальцев, возможно, это связано с каким-то визуальным эффектом или углом съемки, но фактически на изображении присутствует именно 5 пальцев.
Поколение, выращенное интернетом, у нас уже есть, ждём поколение, взращённое вот такими ИИ. Плоская Земля цветочками покажется
Ужас; и вот этому кто-то собирается доверить критически важные решения.
Мне кажется, при общении с ЛЛМ нужно обеим сторонам вкладывать все большее значение в простую логику.
Вот обучилась модель на человеческих 5 пальцах. С перечислением. Окей. Может, ей скармливали фотки со случаями полидактилии, но при этом (насколько мне известно), шестой палец никак не называется (второй безымянный??).
Теперь ей показывают полидактильную руку, и спрашивают - что ты видишь? Она видит имеющиеся пять пальцев и отвечает. Может, ее надо спросить "видишь ли ты дополнительные пальцы, кроме пяти человеческих?". "Посчитай" - тоже неточно, это ведь мы привыкли считать подряд, слева направо или справа налево, а как считает модель? Может, и не считает, а выдает из закромов готовое знание про человеческую руку?
Было бы интересно дать ей аналогичное задание, но не с пальцами руки, а с изображениями чего-то известного (например, три основные расы, пять основных континентов) и выдуманную хрень (синего аватара и Атлантиду, скажем). И также поабузить вопросами: "сколько континентов здесь?" "какие здесь континенты?" "какие земные континенты тут изображены?" "что изображено на картинке?". И сделать реверс мышления с помощью строгой логики: а спрашивал ли ты в этом вопросе, что хочешь информацию о каких-то континентах, кроме земных, на этой картинке? А следовало из твоего вопроса, что ты спрашивал о расах вообще, а не только настоящих?".
Как мне думается, помимо галлюцинаций ЛЛМ, вылезет еще очень много "серой" человеческой интуиции. Я про вещи, которые мы в разговорах между собой недоговариваем, подразумеваем как само собой разумеющееся, а на модели это надо объяснять. И это хорошо, кстати, - может, люди научатся более ясно излагать свои мысли.
Интересно, не связано ли это с тем, что у обучавшихся на английском моделей есть 4 fingers и 1 thumb, а в русском большой палец — тоже «палец». Если сеть в своей «голове» переводит вопрос на английский, то на картинке действительно 5 fingers, никакой ошибки нет.
Кажется, новая капча найдена...
Кстати, сурдоперевод отличная тема для ИИ. Интересно, как там с пальцами.
Мне кажется не стоит упускать такой момент - сеть учится на англоязычном массиве данных и думает соответственно на английском (и только потом переводит на русский). А в английском большой палец - не палец (finger), а thumb. Соответственно на картинке: 5 fingers and one thumb. А дальнейшие вопросы ещё больше сбивают сеть с толку и она начинает сочинять отмазки. Кроме того интересно как сеть ответит на вопрос сколько пальцев на ноге, при том что на ноге вообще нет fingers, там есть пять toes
Бесплатный ChatGPT, вопрос на английском в том же сообщении:
> Describe in details what do you see in this picture
ответ:
> The image shows a human hand with an unusual characteristic: it has six fingers instead of the typical five. The extra finger appears to be well-formed and naturally integrated into the hand. The hand is fully extended, with the palm facing the viewer and fingers spread apart. The skin tone appears natural, and the overall structure looks realistic, though the presence of an additional digit makes it an anomaly.
Would you like me to analyze anything specific about the image?
А вот perplexity.ai тот да, настаивал на 5 пальцах и в первом ответе и во втором:
- Look carefully, how many fingers do you see?
- Okay, I've examined the image and the crops provided. I can confirm that there are only five fingers visible: the thumb, index finger, middle finger, ring finger, and pinky finger.
ЗЫ. бесплатный grok3 beta тоже "увидел" только 5 пальцев
Мультимодальные модели тотально страдают селективным восприятием