Как стать автором
Обновить
395.62
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

Исследователи внедряют COLORBENCH для проверки понимания цвета в моделях зрительного языка

Время на прочтение3 мин
Количество просмотров303

Группа ученых из Мэрилендского университета разработала COLORBENCH — первый специализированный тест для систематической оценки того, как модели зрительного языка (VLM) воспринимают и обрабатывают цвет. По словам исследователей, результаты выявили фундаментальные недостатки в восприятии цвета — даже среди самых крупных моделей, доступных в настоящее время.

Цвет играет центральную роль в визуальном познании человека и имеет решающее значение в таких областях, как медицинская визуализация, дистанционное зондирование и распознавание продуктов. Однако остается неясным, интерпретируют ли и используют ли VLM цвет сопоставимыми способами.

COLORBENCH оценивает модели по трем основным параметрам: цветовосприятие, цветовая аргументация и устойчивость к изменениям цвета. Тест включает 11 задач с общим количеством 1448 экземпляров и 5814 запросов изображения-текста. Задачи требуют от моделей распознавать цвета, оценивать пропорции цвета, подсчитывать объекты определенных цветов или противостоять распространенным цветовым иллюзиям. Например, в одном тесте модели оцениваются на предмет согласованности, когда определенные сегменты изображения вращаются через разные цвета.

Тест использовался для тестирования 32 широко используемых VLM, таких как GPT-4o, Gemini 2 и ряда моделей с открытым исходным кодом с 78 миллиардами параметров. Результаты показывают, что более крупные модели, как правило, работают лучше, но эффект менее выражен, чем в других тестах. Разрыв в производительности между моделями с открытым исходным кодом и фирменными моделями также относительно невелик.

Все протестированные модели показали особенно слабую производительность в таких задачах, как подсчет цветов или тесты на дальтонизм, часто набирая менее 30% точности. Даже в задачах по извлечению цвета, где модели просят идентифицировать определенные значения HSV или RGB, большие модели обычно набирали лишь умеренные баллы. Они лучше справлялись с задачами, связанными с распознаванием объектов или цветов, что исследователи связывают с характером обучающих данных.

Одним из ключевых выводов является то, что хотя VLM часто полагаются на цветовые подсказки, эти сигналы иногда могут приводить к неверным выводам. В задачах, связанных с цветовыми иллюзиями или обнаружением замаскированных объектов, производительность модели улучшалась, когда изображения были преобразованы в оттенки серого, что говорит о том, что цветовая информация в этих случаях была скорее вводящей в заблуждение, чем полезной. И наоборот, некоторые задачи не могли быть осмысленно выполнены без цвета.

Исследование также показало, что рассуждения с цепочкой мыслей (CoT) повысили не только производительность в задачах на рассуждение, но и устойчивость к изменениям цвета, даже если были изменены только цвета изображения, а не вопросы. Например, с подсказками CoT показатель устойчивости GPT-4o вырос с 46,2% до 69,9%.

Исследователи заметили, что производительность модели сильнее коррелирует с размером языковой модели, чем с кодировщиком зрения. Большинство кодировщиков зрения остаются относительно небольшими — обычно около 300–400 миллионов параметров — что ограничивает возможность оценки их роли в понимании цвета. Группа определяет это как структурное ограничение в текущей конструкции VLM и рекомендует дальнейшую разработку визуальных компонентов.

COLORBENCH доступен для общественности и предназначен для поддержки разработки более чувствительных к цвету и надежных систем зрительного языка. Ожидается, что будущие версии бенчмарка будут включать задачи, сочетающие цвет с текстурой, формой и пространственными отношениями.

Источник

Теги:
Хабы:
+1
Комментарии0

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
veseluha