MichaelDichenko 25 мар 2022 в 18:08

Привлекательность изображения: человек vs алгоритм (обзор результатов анкетирования 2282 человек)

23 мин

3.8K

Блог компании JUG Ru GroupОбработка изображений*

Я страдаю частичным дальтонизмом (не различаю некоторые оттенки) и всегда затруднялся в магазине выбрать галстук к рубашке и пиджаку, а потом каждое утро составлять комбинацию из многих вариантов. В результате жена делала мне комплекты, и я просто выбирал «комплект 1» или «комплект 9».

В моём случае, как и во многих других, пригодился бы автоматический способ определять, что выглядит привлекательнее для большинства людей. В итоге я создал такой способ и хочу рассказать Хабру об этом.

Вступление

Вот известный тест на наличие частичного дальтонизма:

Посчитайте, сколько цветов видите? Только честно :) Я вижу 29.

Менее 20 цветов. Вы — дихромат. То есть у вас только два типа цветочувствительных колбочек в глазу. Возможно, чаще всего вы носите чёрную, бежевую или синюю одежду. 25% людей попадают в эту категорию.
От 20 до 32 цветов. Вы — трихромат. У вас есть три вида колбочек в глазу. Вы можете различать многие оттенки в фиолетовой, синей, зелёной и красной областях спектра. В эту категорию попадает около 50% населения Земли.
От 32 до 39 цветов. Поздравляем! Вы — тетрахромат. У таких людей работает четыре вида колбочек. Скорее всего, вас раздражает жёлтый. Около 25% людей — тетрахроматы.

То есть только каждый четвёртый из нас видит все цвета. 75% страдают той или иной формой цветовой слепоты. Свыше 30% людей считают, что их предпочтения отличаются от предпочтений большинства людей. Таким людям очень полезен совет со стороны. Однако, всё большее количество людей начинают жить поодиночке. Эта тенденция особенно заметна в развитых странах, представляющих наиболее платежеспособный рынок. Это означает, что большинству населения потенциально необходим помощник в случае оценки привлекательности того или иного изображения, дизайна одежды или интерьера.

Изобретение алгоритма, который определяет приятность изображения, видео и звука с точки зрения большинства людей, произошло в 2012-2013 годах. Работы по созданию программного обеспечения и верификации алгоритма происходили в 2018-2019 годах. По причине ограниченного финансирования было создано программное обеспечение по определению привлекательности только изображений, без видео и звука (эти направления ждут своего финансирования).

USPTO признало изобретение и выдало патент 27 апреля 2021 года за номером 10991082. Полное описание патента доступно абсолютно бесплатно на сайте USPTO, а также в Google Patents, где легко ищется по номеру патента. Процесс патентования я уже излагал подробно на Хабре в тексте «Получение патента на свой алгоритм: личный опыт».

Проверка эффективности алгоритма заключалась в определении степени совпадения оценок живых людей с коэффициентом привлекательности, вычисленного софтом на основе алгоритма. Были использованы четыре разных метода:

оценить приятность;
оценить неприятность;
выбрать три самые приятные/неприятные;
оценить каждое изображение по пятибалльной шкале по степени приятности.

Были опрошены жители разных стран, разных регионов одной страны, разного пола, возраста. Респондентам предлагались различные типы изображений: пейзажи, портреты, абстрактные композиции.

От респондентов требовалось оценить изображения по шкале «приятность-неприятность». Человек способен легко и быстро выбрать, например, три самые приятные или самые неприятные картинки из 9 или 13 предложенных. Человек также легко и быстро может оценить по пятибалльной шкале 10 или 12 изображений по степени их приятности. Как это происходит? Какие принципы заложены в механизме данного процесса, который при этом происходит в системе «глаз-мозг»?

И не только в системе «глаз-мозг». Ощущение приятности создаётся посредством выработки соответствующих гормонов. А значит, в этом процессе задействована и эндокринная система. Система «глаз-мозг-гормоны» способна легко и быстро сделать то, что не под силу ни одному самому мощному компьютеру. Как это происходит? Почему именно эти изображения нравятся больше других значительной доле людей? Да, различия между людьми есть, но они оказались не такими большими, как я ожидал. А значит, существует некий единый механизм, который наука на современном уровне ещё не знает.

Для того, чтобы попытаться ответить на эти вопросы, была создана модель системы «глаз-мозг-гормоны». Были проведены исследования для сравнения результатов этой модели с оценками реальных людей. Если модель действует также как реальные люди, то можно предположить, что механизм, заложенный в модели, действует и в системе «глаз-мозг-гормоны» реальных людей. Тогда это вскроет ещё одну тайну в познании самого большого чуда — человека.

Для достижения целей исследования были сформулированы на начальном этапе две гипотезы:

Наличие однотипной реакции у значительной доли респондентов.
В восприятии изображений проявляется закон нормального распределения.

Если с первой гипотезой все более-менее понятно, то вторая гипотеза требует комментария.

Законы восприятия человеческим глазом визуальных образов выражаются функциями, весьма схожими с колоколообразной кривой нормального распределения Гаусса.

Нормально распределённые спектры реакции колбочек человека на монохроматические спектральные стимулы с длиной волны, указанной в нанометрах.(источник: https://en.wikipedia.org/wiki/Color_vision)

Фотопическая относительная яркостная чувствительность зрительной системы человека как функция длины волны (функция светимости) (источник: https://en.wikipedia.org/wiki/Color_vision)

Первое правило нового проекта — описать его рамки. Большинство источников утверждает, что сегодня в цифровом мире используются четыре самые популярные цветовые модели: RGB, HSV, LAB, CYMK. Из них самый меньший цветовой охват имеет последняя — CYMK. Поэтому я оставил для своего проекта первые три. Чтобы на следующем шаге уменьшить «скоуп задач» и выбрать из 9-ти характеристик какие-то определённые, я попытался изучить то, что знает на данный момент наука о зрительном восприятии.

Оппонентная теория зрительного восприятия предполагает «…что зрительная система интерпретирует цвета антагонистическим образом: красный против зеленого, синий против желтого, черный против белого».

Лауреаты нобелевской премии Хьюбел и Визель доказали экспериментально механизм восприятия глазом соотношений основных цветов и яркости:

«Эти специализированные «цветовые клетки» часто имеют рецептивные поля, которые могут вычислять локальные соотношения колбочек. Такие клетки «двойного противника» были первоначально описаны Найджелом Доу в сетчатке золотых рыбок; их существование у приматов было предложено Дэвидом Х. Хьюбелом и Торстеном Визелем и впоследствии доказано Бевилом Конвеем. Как показали Маргарет Ливингстон и Дэвид Хьюбел, двойные клетки-оппоненты сгруппированы в локализованных областях V1, называемых каплями, и, как полагают, бывают двух видов: красно-зеленого и сине-желтого. Красно-зеленые ячейки сравнивают относительное количество красного и зеленого в одной части сцены с количеством красного и зеленого в соседней части сцены, лучше всего реагируя на локальный цветовой контраст (красный рядом с зеленым). Моделирующие исследования показали, что клетки с двойным противником являются идеальными кандидатами для нейронного механизма постоянства цвета, описанного Эдвином Х. Лэндом в его теории ретинекса».

Из этого следует вывод, что для человека важны следующие соотношения: черно-белое; красно-зелёное; сине-желтое. И тут я понимаю, что все три выбранные мной модели так или иначе описывают эти три баланса цветов. Теория не помогла. Соотношение между черным и белым отражает характеристика светлоты (lightness, value) в цветовых моделях LAB и HSV цифровых изображений. Соотношения красно-зеленого и сине-желтого отражают характеристики А и В (цветовая модель LAB); H и S (цветовые модели HSV и HSL); R, G, B (модель RGB). Уменьшить число характеристик для анализа не удалось: остались все 9 характеристик.

Закон нормального распределения методологически соответствует оппонентной теории зрительного восприятия: его сущность заключается в распределении множества явлений по шкале какой-то характеристики между двумя противоположными полюсами. В связи с этим на основе закона нормального распределения была создана математическая модель (назовем её в дальнейшем «алгоритм»), который имитирует человеческую эмоциональную оценку любого изображения.

Алгоритм решает сложную задачу, которая на первый взгляд кажется противоречивой и неразрешимой. С одной стороны, каждое изображение уникально; очень трудно найти универсальный подход для оценки различных изображений, имеющих разные характеристики и типы. С другой стороны, люди способны оценивать и сравнивать все виды изображений, звуков или видео, используя различные критерии, такие как приемлемость, приятность и желательность, но не ограничиваясь ими. Более того, люди способны выполнять этот процесс очень быстро. Алгоритм автоматизирует сложный механизм, стоящий за этим процессом.

Алгоритм, основанный на законе нормального распределения, применялся несколькими способами как к одной характеристике изображения, так и к комбинации характеристик: R, G, B, H, S, V, L, A, B. Есть известная формула, которая определяет число возможных комбинаций при задании двух параметров: число всех элементов и число выбранных элементов из общего числа.

Если ограничиться только тремя цветовыми моделями (RGB, HSV, LAB), то общее число элементов будет 9: в каждой по три характеристики. Я ограничился четырьмя из девяти: гипотеза была в том, что максимально четыре характеристики могут участвовать в создании математической модели, имитирующей человеческую систему «глаз-мозг». Если бы мы не получили потрясающий по эффективности результат, тогда стоило бы пересматривать эту гипотезу в сторону увеличения числа выбираемых характеристик. Но и четыре характеристики из девяти по этой формуле дают 126 комбинаций! Впрочем, это оказалось только началом: по каждому распределению каждой характеристики вычисляется 3 значения: матожидание, сигма и сам коэффициент привлекательности. Поэтому 9х3 = 27. Четыре из 27-ми даёт 17550 комбинаций! И каждую комбинацию надо было проверить на соответствие оценкам живых людей.

Комбинацию нескольких способов или нескольких характеристик назовём агрегированным коэффициентом оптимальности. Применение одним способом к одной характеристике назовём простым коэффициентом оптимальности.

В случае, когда более высокое значение коэффициента оптимальности означает более приятное изображение в оценке большинства людей, такая корреляция называется положительной.

В ином случае, когда более высокое значение коэффициента оптимальности означает менее приятное изображение в оценке большинства людей, такая корреляция называется отрицательной.

Во всех опросах тип девайса для осмотра и оценки изображений: смартфон, планшет, ноутбук, компьютер. Количество изображений для оценки варьировалось от 9 до 13.

Результаты анкетирования

Здесь впервые публикую подробные результаты моего исследования. А если не готовы читать монотонный текст, переходите сразу к подзаголовку «Выводы» :)

2.1. Опрос «Пейзажи 13»

Для определения самых неприятных картинок были выбраны наиболее приятные по смыслу изображения.

Количество картинок: 13.

Вот для примера две картинки из этого набора:

Период: опрос проводился в течение трёх недель с середины ноября до 7 декабря 2018 г.

Количество опрошенных: 37 человек.

Состав респондентов: более 90%: жители Санкт-Петербурга, возраст от 40 лет до 80-ти, высшее образование, русские. Женщин 21, мужчин 16.

Вопрос респондентам: «Выберите три самых неприятных изображения».

Тип изображений: изображения представляли собой пейзажи с водоемом (море или озеро).

Тип корреляции с агрегированным коэффициентом оптимальности: положительный.

Результаты проверки 1-ой гипотезы о наличии значительной группы с однотипными предпочтениями: 23 человека выбрали одну картинку среди трёх самых неприятных. 23/37 = 0,62.
62% имеют по отношению к этой картинке ОДИНАКОВОЕ мнение! Это колоссальное подтверждение первой гипотезы с ошеломительным однозначным результатом. Более того, 29 человек выбрали хотя бы одну из трёх картинок, которые в итоге получили самое большое количество голосов, разделив первые три места по неприятности. А это уже 78%!

Результаты проверки 2-ой гипотезы о наличии корреляции между субьективными эмоциональными предпочтениями и агрегированным коэффициентом оптимальности, вычисленным по алгоритму: коэффициент корреляции между оценками респондентов и алгоритмом составил 25%.

Вывод: первая гипотеза подтверждена. Вторая гипотеза не нашла подтверждение. Сила корреляции с алгоритмом находится в зоне очень слабой(0-30%) корреляции.

Первый блин комом — я допустил ошибку в наборе картинок: одна очень отличалась по визуалу и смыслу от других. Вот она:

Вместо южного моря, пальм и первозданной природы с угла зрения человека на земле — берег северного озера с высоты птичьего полёта, да ещё и с дорогой.

Конечно, она портила все результаты. При её исключении корреляция была заметно выше. Поэтому я очень тщательно подошёл к подбору картинок для следующего опроса. Да и 37 человек — слишком мало.

2.2. Опрос «Пейзажи 9»

Количество картинок: 9.

Вот пример двух картинок из этого набора:

Период: с 1 января 2019 г. до 3 марта 2019г.

Количество опрошенных: 271 человек.

Состав респондентов: Женщины — 57%, мужчины — 43%. Жители России — 68%, жители Северной Америки — 32%. Возраст опрошенных: от 16 лет до 82-х лет.

Вопрос респондентам: «Выберите три самые приятные изображения».

Тип изображений: изображения представляли собой пейзажи с морем, пляжем, пальмами или их листьями, небо с небольшими облаками. Море спокойное, не ночное время суток. На всех изображениях отсутствуют люди и рукотворные объекты (дома, постройки и т.п.). Изображения были выбраны с намеренной целью максимально приблизить по смыслу, чтобы смысл изображения не влиял на эмоциональную оценку человека.

Метод подсчета: выбор изображения означал прибавление одного балла данному изображению. Нельзя было выбрать меньше или больше трёх изображений. Все полученные изображениями баллы суммировались по каждому изображению. Каждому изображению соответствовала сумма баллов. Эта сумма баллов, представляющая собой числовой ряд, сравнивалась с соответствующим значением коэффициента оптимальности, рассчитанным по алгоритму.

Тип корреляции с агрегированным коэффициентом оптимальности: положительный.

Результаты проверки первой гипотезы о наличии значительной группы с однотипными предпочтениями: три самые приятные изображения получили 41% баллов. Этот результат значительно меньше аналогичного показателя (78%) первого опроса. Но мы считаем его более значимым, так как в данном наборе изображений влияние их смысла было практически исключено.

Результаты проверки второй гипотезы о наличии корреляции между субьективными эмоциональными предпочтениями и агрегированным коэффициентом оптимальности, вычисленным по алгоритму: сила корреляции между оценками респондентов и алгоритмом составила 89% и попала в зону сильной (70-90%).

Вывод: корреляция не просто существует, но является сильной. Более того, корреляция практически достигла границы, за которой она будет характеризована как «очень сильная» (свыше 90%).

Рассмотрим более подробно корреляцию простых коэффициентов оптимальности по отдельным характеристикам изображения: светлота и насыщенность: Lightness из цветовой модели LAB и Saturation из цветовой модели HSV. По светлоте корреляция оказалась 62%. По общепринятым правилам вероятностной статистики корреляция силой от 50% до 70% характеризуется как средняя степень. Это означает, что с устойчивой средней степенью корреляции алгоритм предсказывает яркостные предпочтения большинства людей. Простой коэффициент оптимальности по насыщенности показал корреляцию слабой силы, а именно 45%(что само по себе близко к границе средней силы корреляции). Эти результаты были вполне предвидимы: светлота, яркость и насыщенность цветовых сочетаний вполне объяснимо должна влиять на степень приятности изображения.

Однако, в ходе исследований был открыт неожиданный эффект отрицательной корреляции по характеристикам А и В из цветовой модели LAB. Корреляция оказалась слабой силы. Но что удивительно, 25% корреляции по этим двум характеристикам совпали по значению буквально до 1 процента: -24,988% по А и -25,085% по В. Этот неожиданный эффект имеет большое значение с двух разных точек зрения. Дело в том, что характеристика А отражает соотносительность между двумя цветами: красный и зеленый. Характеристика В отражает соотношение между двумя другими цветами: синий и желтый. Во всех признанных теориях цветового восприятия эти четыре цвета являются основными.

И первый из двух неожиданных выводов моего исследования заключается в том, что эти четыре цвета в изображениях пейзажей воспринимаются глазом человека тем более приятно, чем более они чисты. Отсутствие положительной корреляции(как по светлоте и насыщенности), наличие устойчиво отрицательной корреляции(пусть и слабой силы) означает, что чистота этих четырёх цветов в определенной умеренной степени влияет на приятность восприятия человеком.

Второй неожиданный важный вывод можно сформулировать следующим образом: чистота этих четырёх цветов в изображениях пейзажей должна быть умеренна и их умеренность должна быть практически одинакова относительно друг друга, чтобы человек воспринимал их с положительной эмоцией.

Теперь рассмотрим агрегированные коэффициенты оптимальности. Cумма коэффициентов оптимальности по светлоте и насыщенности, делённая на сумму коэффициентов оптимальности по характеристикам А и В (L+S)/(A+B), эта дробь двух сумм дала корреляцию 85%! Этот результат далеко и устойчиво превысил границу 70%, отделяющую среднюю корреляцию от сильной. Самый эффективный вариант агрегированного коэффициента оптимальности достиг результата 89%, который был указан выше.

Казалось бы прекрасный результат. Но он меня не удовлетворял по следующим двум причинам: 1) присутствовали картинки разного времени суток: закат создаёт иное впечатление чем безоблачный сверкающий день; 2)предварительный анализ опросов показал различия между женщинами и мужчинами. Они не такие большие как могло бы ожидаться, но они существуют. В связи с тем, что среди женщин гораздо меньше страдающих каким-либо видом дальтонизма я решил исключить межполовые различия. В этом случае будет точнее видна эффективность именно алгоритма без влияния иных факторов. Для полного исключения влияния фактора смысла картинки я решил сделать разные варианты светлоты и насыщенности одного изображения.

2.3. Опрос «Мадонна Литта - 10»

Количество картинок: 10.

Вот примеры двух картинок:

Период: с 03 апреля по 07 апреля 2019 г.

Количество опрошенных: 1020 человек.

Состав респондентов: для исключения влияния межполовых различий в эмоциональных оценках к опросу были допущены только женщины; жители российских городов; возраст опрошенных: от 14 лет до 70 лет.

Вопрос респондентам: «Нравится Вам это изображение?». Респондент видел заголовок анкеты «Оцените по пятибалльной шкале приятность разных вариантов одного изображения».

Под изображением было дано пять вариантов ответа: 1-нет; 2-не очень; 3-нейтрально; 4-нравится; 5-очень нравится.

Тип изображений: Для проведения этого этапа тестирования была решена сложная методологическая задача: как полностью исключить влияние смысла и в то же время изображение должно быть не абстрактным, а осмысленным? Ответ был найден: создание разных по светлоте и насыщенности вариантов одного и того же изображения. Была взята картина Леонардо Да Винчи «Мадонна Литта». Это изображение было изменено в восьми вариантах путём изменения яркости. Респондентам были предложены для оценки 9 вариантов(1 исходный и 8 изменённых) этого изображения.

Метод подсчета: ответ 3(нейтрально) принят за ноль баллов; ответ 4 добавляет 1 балл; ответ 5 — добавляет 2 балла; ответ 2 отнимает 1 балл; ответ 1 отнимает 2 балла. Итак, ответы от одного до 5-ти приносят следующее количество баллов изображению: -2; -1; 0; +1; +2. Таким образом, были посчитаны баллы по каждому изображению и просуммированы по всем респондентам(1020чел.) Каждому изображению соответствовала сумма баллов. Эта сумма баллов, представляющая собой числовой ряд, сравнивалась с соответствующим значением коэффициента оптимальности, рассчитанным по алгоритму.

Тип корреляции с агрегированным коэффициентом оптимальности: положительный.

Цель этого этапа тестирования: проверка двух гипотез при восприятии портретов, то есть изображений людей.

Гипотеза 1, однотипность оценок: самое приятное изображение выбрали 71% респондентов(дали ответ «нравится» или «очень нравится»).

Гипотеза 2, корреляция с алгоритмом: корреляция по светлоте составила +52%; по насыщенности +85%. По агрегированному коэффициенту оптимальности корреляция составила те же 85%, что характеризуется как «сильная корреляция».

По характеристике А корреляция также, как и по пейзажным изображениям оказалась отрицательна, хотя и значительней: -53%. По характеристике В корреляция не обнаружена: +3%.

Вывод. Подтверждены обе гипотезы. Положительная корреляция по этим двум характеристикам позволяет заключить, что пейзажные и портретные изображения люди воспринимают одинаково. Не подтвердилось совпадение корреляции по простому коэффициенту оптимальности по характеристикам А и В. Возможно, именно здесь следует искать различие в восприятии пейзажей и портретов как одно из направлений для дальнейших исследований.

После этого опроса я проанализировал результаты всех опросов на предмет динамики изменения результатов по мере увеличения респондентов. И оказалось, что в среднем результаты перестают существенно меняться после 100 человек опрошенных.

2.4. Опрос «Пейзаж 5-10»

Количество картинок: 10.

Вот три из них для примера:

Период: с 23 марта по 24 марта 2019г.

Количество опрошенных: 200 человек.

Под изображением было дано пять вариантов ответа: 1-нет; 2-не очень; 3-нейтрально; 4-нравится; 5-очень нравится.

Тип изображений: был взят самый приятный пейзаж из опроса «Пейзажи 9» (см. выше). Это изображение было изменено в девяти вариантах путём изменения яркости. Изменение яркости и светлоты было произведено с большой амплитудой: от слишком затемнённого до слишком светлого. Респондентам были предложены для оценки 10 вариантов(1 исходный и 9 изменённых) этого изображения.

Метод подсчета: ответ 3(нейтрально) принят за ноль баллов; ответ 4 добавляет 1 балл; ответ 5 — добавляет 2 балла; ответ 2 отнимает 1 балл; ответ 1 отнимает 2 балла. Итак, ответы от одного до 5-ти приносят следующее количество баллов изображению: -2; -1; 0; +1; +2. Таким образом, были посчитаны баллы по каждому изображению и просуммированы по всем респондентам. Каждому изображению соответствовала сумма баллов. Эта сумма баллов, представляющая собой числовой ряд, сравнивалась с соответствующим значением коэффициента оптимальности, рассчитанным по алгоритму.

Тип корреляции с агрегированным коэффициентом оптимальности: положительный.

Гипотеза 1, однотипность оценок: самое приятное изображение выбрали 88% респондентов(дали ответ «нравится» или «очень нравится»).

Гипотеза 2, корреляция с алгоритмом: корреляция по светлоте составила +85%; по насыщенности +51%. По агрегированному коэффициенту оптимальности корреляция составила 56%, что характеризуется как «средняя корреляция».

По характеристике А корреляция простого коэффициента оптимальности оказалась положительной: +64%. По характеристике В корреляция также положительна: +25%.

Вывод. Обе гипотезы подтверждены. Факт отрицательной корреляции (установленный в опросе «Пейзажи 9») коэффициента оптимальности по характеристикам А и В при восприятии пейзажей не подтвердился. Обнаружился новый факт: при оценке изображений с большой амплитудой по светлоте начинает превалировать именно светлота, а не насыщенность. Эмоция человека при этом формируется в основном по алгоритму оптимальности по характеристике «светлота». Это позволяет выдвинуть третью гипотезу - гипотезу первичности влияния на эмоцию светлоты по сравнению с насыщенностью. Гипотеза формулируется следующим образом: оптимальность изображения по светлоте первична, а оптимальность изображения по насыщенности вторична при эмоциональном восприятии пейзажного изображения.

2.5. Опрос «Пейзаж 4-10»

Количество картинок: 10.

Вот три из них:

Период: с 29 марта по 30 марта 2019г.

Количество опрошенных: 80 человек.

Под изображением было дано пять вариантов ответа: 1-нет; 2-не очень; 3-нейтрально; 4-нравится; 5-очень нравится.

Тип изображений: был взят один из самых приятных пейзажей из опроса «Пейзажи 9» (см. выше). Это изображение было изменено в девяти вариантах путём изменения яркости. Амплитуда изменения по яркости и светлоте была значительно уменьшена по сравнению с набором изображений предыдущего опроса. Был сделан незначительный разброс по светлоте и яркости. Респондентам были предложены для оценки 10 вариантов(1 исходный и 9 изменённых) этого изображения.

Метод подсчета: ответ 3(нейтрально) принят за ноль баллов; ответ 4 добавляет 1 балл; ответ 5 — добавляет 2 балла; ответ 2 отнимает 1 балл; ответ 1 отнимает 2 балла. Итак, ответы от одного до 5-ти приносят следующее количество баллов изображению: -2; -1; 0; +1; +2. Таким образом, были посчитаны баллы по каждому изображению и просуммированы по всем респондентам. Каждому изображению соответствовала сумма баллов. Эта сумма баллов, представляющая собой числовой ряд, сравнивалась с соответствующим значением коэффициента оптимальности, рассчитанным по алгоритму.

Тип корреляции с агрегированным коэффициентом оптимальности: положительный.

Гипотеза 1, однотипность оценок: самое приятное изображение выбрали 80% респондентов(дали ответ «нравится» или «очень нравится»).

Гипотеза 2, корреляция с алгоритмом: корреляция по светлоте составила +17%; по насыщенности +54%. По агрегированному коэффициенту оптимальности корреляция составила 83%, что характеризуется как «сильная корреляция».

Гипотеза 3, первичность светлоты: при сокращении амплитуды светлоты в наборе предлагаемых к оценке изображений оптимальность по светлоте теряет значение, гораздо большее значение при этом приобретает оптимальность по насыщенности. Гипотеза подтверждена.

По характеристике А корреляция простого коэффициента оптимальности оказалась положительной: +84%. По характеристике В корреляция также положительна: +73%.

Вывод. Три гипотезы подтверждены. Факт отрицательной корреляции (установленный в опросе «Пейзажи 9») коэффициента оптимальности по характеристикам А и В при восприятии пейзажей не подтвердился.

После этого опроса мне пришла замечательная мысль как ещё попробовать исключить влияние смысла картинки. Абстрактная живопись!

2.6.Опрос «Кандинский 12»

Количество картинок: 12.

Вот две из них:

Период: с 15 марта по 02 апреля 2019г.

Количество опрошенных: 611 человек.

Состав респондентов: женщины 67%, мужчины 33%. Возраст от 13-ти лет до 76-ти лет. Все респонденты жители городов России.

Вопрос респондентам: «Нравится Вам это изображение?». Респондент видел заголовок анкеты «Оцените по пятибалльной шкале приятность 12-ти работ великого русского художника 20 века». Несмотря на то, что этот заголовок преднамеренно настраивал человека на доброжелательную оценку изображений, значительное большинство работ получило суммарную негативную оценку. Это подтверждает результаты многочисленных других исследований о непопулярности среди большинства людей абстрактной живописи. Большинство людей предпочитает реалистические изображения (Здесь можно сослаться на результаты наиболее известного проекта «The Most Wanted Paintings on the Web», осуществленного при поддержке Chase Manhattan Bank: http://awp.diaart.org/km/index.html). Средний по изображению балл составил минус 201,5 (-201,5). Только 2 изображения из 12-ти вышли в положительную зону, самое приятное изображение получило суммарную оценку всего 46 баллов. В то время как самое неприятное изображение получило минус 406 баллов ( -406 ).

Под изображением было дано пять вариантов ответа: 1-нет; 2-не очень; 3-нейтрально; 4-нравится; 5-очень нравится.

Тип изображений: из работ Кандинского я выбрал те композиции, которые не имели никакого отношения к реализму, наиболее абстрактные сочетания форм и цветовых пятен.

Метод подсчета: ответ 3(нейтрально) принят за ноль баллов; ответ 4 добавляет 1 балл; ответ 5 — добавляет 2 балла; ответ 2 отнимает 1 балл; ответ 1 отнимает 2 балла. Итак, ответы от одного до 5-ти приносят следующее количество баллов изображению: -2; -1; 0; +1; +2. Таким образом, были посчитаны баллы по каждому изображению и просуммированы по всем респондентам. Каждому изображению соответствовала сумма баллов. Эта сумма баллов, представляющая собой числовой ряд, сравнивалась с соответствующим значением коэффициента оптимальности, рассчитанным по алгоритму.

Тип корреляции с агрегированным коэффициентом оптимальности: отрицательный.

Гипотеза 1, однотипность оценок: самое приятное изображение выбрали 42% респондентов (дали ответ «нравится» или «очень нравится»).

Гипотеза 2, корреляция с алгоритмом: корреляция по светлоте составила -72%; по насыщенности -84%. По агрегированному коэффициенту оптимальности корреляция составила -73%, что характеризуется как «сильная корреляция».

Гипотеза 3, первичность светлоты: при оценке разных изображений восприятие коррелирует с оптимальностью по светлоте и по насыщенности примерно одинаково. Гипотеза не подтверждена.

По характеристике А корреляция простого коэффициента оптимальности оказалась отрицательной: -86%. По характеристике В корреляция также отрицательна: -69%.

Вывод. Две гипотезы подтверждены, третья нет. Факт отрицательной корреляции (установленный в опросе «Пейзажи 9») коэффициента оптимальности по характеристикам А и В при восприятии пейзажей подтверждается и при эмоциональной оценке абстрактных изображений. В этом никакого различия не обнаружилось. Разве что в силе такой отрицательной корреляции. Напомним, что в опросе «Пейзажи 9» оценки людей коррелировали с простыми коэффициентами оптимальности по характеристикам А и В с силой 25%, а в этом опросе по Кандинскому — 86% и 69%. Разница в степени корреляции.

По всем четырём коэффициентам оптимальности алгоритма, рассчитанным по четырём характеристикам (L, A, B, S), корреляция оказалась сильной степени или близко к ней! По светлоте (L) корреляция коэффициента оптимальности и суммарных эмоциональных оценок оказалась -71%, по А — 86%, по В -69%, по S -84%.

По комбинации коэффициентов оптимальности данный этап тестирования алгоритма позволяет констатировать качественный прорыв в зону «ОЧЕНЬ высокая степень корреляции»! Простая сумма четырёх коэффициентов оптимальности по четырём характеристикам (L+A+B+S) дала результат 91% корреляции с оценками респондентов.

И снова для исключения цветовых предпочтений я решил сделать одно изображение в разных вариантах насыщенности и светлоты. Я выбрал самое привлекательное изображение из этого набора и изменил его в разных вариантах. Однако, на этот раз я сделал небольшие изменения: довольно слабая амплитуда светлоты и насыщенности как опросе “Мадонна Литта”. Респондентам было труднее определяться с оценками.

2.7. Опрос «Кандинский — В белом 2 -10»

Количество картинок: 10.

Вот две из них:

Период: с 07 апреля по 08 апреля 2019г.

Количество опрошенных: 100 человек.

Состав респондентов: только женщины. Возраст от 18 лет до 74 лет. Все респонденты жители городов России.

Вопрос респондентам: «Нравится Вам это изображение?». Респондент видел заголовок анкеты «Оцените по пятибалльной шкале приятность разных вариантов одного изображения (Кандинский "В белом 2")».

Под изображением было дано пять вариантов ответа: 1-нет; 2-не очень; 3-нейтрально; 4-нравится; 5-очень нравится.

Тип изображений: из набора по предыдущему опросу я выбрал самую приятную по оценкам респондентов композицию. Как ее назвал автор — «In white II». Была изменена яркость и контрастность в 12-ти вариантах с небольшой амплитудой. Итого было предложено респондентам оценить 13 почти одинаковых изображений.

Метод подсчета: ответ 3(нейтрально) принят за ноль баллов; ответ 4 добавляет 1 балл; ответ 5 — добавляет 2 балла; ответ 2 отнимает 1 балл; ответ 1 отнимает 2 балла. Итак, ответы от одного до 5-ти приносят следующее количество баллов изображению: -2; -1; 0; +1; +2. Таким образом, были посчитаны баллы по каждому изображению и просуммированы по всем респондентам. Каждому изображению соответствовала сумма баллов. Эта сумма баллов, представляющая собой числовой ряд, сравнивалась с соответствующим значением коэффициента оптимальности, рассчитанным по алгоритму.

Тип корреляции с агрегированным коэффициентом оптимальности: отрицательный.

Гипотеза 1, однотипность оценок: самое приятное изображение выбрали 42% респондентов(дали ответ «нравится» или «очень нравится»).

Гипотеза 2, корреляция с алгоритмом: корреляция по светлоте составила -90%; по насыщенности -98%. По агрегированному коэффициенту оптимальности корреляция составила -39%, что характеризуется как «слабая корреляция».

Гипотеза 3, первичность светлоты: восприятие коррелирует с оптимальностью по светлоте и по насыщенности примерно одинаково. Гипотеза не подтверждена.

По характеристике А корреляция простого коэффициента оптимальности оказалась отрицательной: -93%. По характеристике В корреляция также отрицательна: -97%.

Вывод. Две гипотезы подтверждены, третья нет. Факт отрицательной корреляции простых коэффициентов оптимальности с оценками респондентов по всем четырем характеристикам подтвержден.

Выводы

Суммарно во всех опросах приняли участие 2282 человека. И выводы из всех опросов следующие.

Корреляция с коэффициентами оптимальности алгоритма по светлоте и насыщенности, основанного на законе нормального распределения, в большинстве случаев превышает 70% и квалифицируется как сильная степень. Это распространяется на все типы изображений. Это позволяет сделать заключение о том, что механизм эмоциональной оценки изображения (система «глаз-мозг») функционирует на принципах нормального распределения: определенное взаимосоотношение среднего и крайних противоположных значений.
На данном этапе исследований выявлено два типа изображений с диаметрально противоположной корреляцией по светлоте и насыщенности: пейзажно-портретные и абстрактные.

Самый неожиданный и необъяснимый вывод: все четыре простых коэффициента оптимальности имеют отрицательную корреляцию с оценками людей при восприятии абстрактных изображений. Напомню, что по пейзажным изображениям два из них всегда давали положительную корреляцию — по светлоте и насыщенности. По абстрактным изображениям оптимальность по светлоте (L) и насыщенности (S) отрицательно коррелирует с оценками респондентов.

Полную значимость открытия этого эффекта ещё предстоит оценить учёным. Однако, на сегодня уже можно с уверенностью констатировать, что мозг человека оценивает приятность пейзажных и абстрактных изображений по двум характеристикам (светлота и насыщенность) строго противоположным образом. При этом в каждом случае данная реакция имеет значимую устойчивую степень корреляции.
Устойчивого эффекта по корреляции коэффициентов оптимальности по характеристикам А и В не обнаружено.

Как отдельный вопрос поясню нужность моего изобретения.

Профессионал-дизайнер-фотограф может улучшить цифровое изображение по собственному мнению и даже убедить своего покупателя. Тысячи приложений могут улучшить фото и декларировать это в своём описании. Но только мой алгоритм может определить:

Улучшено ли фото на самом деле по оценкам большинства людей;
Насколько оно улучшено (в процентах);
Какая из многих фотографий, улучшенных разными профессионалами или программами, улучшена максимально; иными словами: кто улучшил лучше всего из них.

Например, в Photoshop давно есть функция «умная коррекция». Но судя по моим результатам, иногда она не улучшает фото, а ухудшает.

Думаю, мою разработку можно назвать «аттрактометром» (измерителем привлекательности) и сравнить с детектором ЭКГ. Алгоритмы диагностирования болезней сердца по ЭКГ уже делают это существенно лучше и точнее, нежели самый опытный врач, и при этом не допускают ошибок, которые неизбежны при диагностике врачом-человеком.

Если после текста захотелось увидеть результаты работы алгоритма на практике, это можно сделать в моем приложении PictureTheOne. Предупрежу заранее, что в нем существует платный режим, но это не попытка продать его хабравчанам: для ознакомительных целей вполне хватит бесплатного режима (где можно сравнивать не больше трех изображений одновременно).

Что дальше? Мои предварительные попытки анализа более тонких различий в оценке привлекательности изображений в зависимости от пола и возраста, дают уверенность, что такие различия, по крайней мере, существуют. А значит, дальнейшие исследования в этом направлении могут повысить корреляцию моего алгоритма с оценками людей свыше 90%, что на практике означает полное совпадение. Сейчас в PictureTheOne нет регистрации пользователя. Если эта опция будет введена, то алгоритм получит более тонкую настройку и его эффективность станет максимально возможной. Но это дело будущего…

Напоследок выражаю особую благодарность моей супруге, моему старшему сыну, моей дочери за огромную помощь в организации второго опроса «Пейзажи 9»: к этому опросу были подключены все возможные друзья нескольких социальных сетей. Кроме того, моя дочь создала инфраструктуру самого опроса: страница на сайте университета, в котором она тогда училась. И, конечно, всем друзьям и друзьям друзей благодарность за участие в первых двух опросах. Остальные более массовые опросы проводились с участием уже профессиональной социологической платформы и с привлечением абсолютно незнакомых людей.

Теги:

Хабы:

Привлекательность изображения: человек vs алгоритм (обзор результатов анкетирования 2282 человек)

Вступление

Результаты анкетирования

2.1. Опрос «Пейзажи 13»

2.2. Опрос «Пейзажи 9»

2.3. Опрос «Мадонна Литта - 10»

2.4. Опрос «Пейзаж 5-10»

2.5. Опрос «Пейзаж 4-10»

2.6.Опрос «Кандинский 12»

2.7. Опрос «Кандинский — В белом 2 -10»

Выводы

Публикации

Информация