Как стать автором
Обновить

Распознавание лиц человеческим мозгом: 19 фактов, о которых должны знать исследователи компьютерного зрения

Время на прочтение13 мин
Количество просмотров62K
Важной целью исследователей в области компьютерного зрения является создание автоматизированной системы, способной сравняться или превзойти способности человеческого мозга по распознаванию лиц. Результаты психофизических исследований процесса распознавания лиц предоставляют специалистам по компьютерному зрению ценнейшие факты, которые помогут улучшить системы искусственного интеллекта.

Как обычно, предлагаю сокращенный перевод, полный текст доступен в оригинале.



ВВЕДЕНИЕ



Несмотря на значительные усилия по разработке алгоритмов распознавания лиц, до сих пор не создана система, способная работать без искусственных ограничений, с учетом всех возможных вариаций параметров изображений, таких как шумы сенсоров, расстояние до объекта и уровень освещенности. Единственная система, которая хорошо справляется со своей задачей — это зрение человека. Поэтому полезно изучить стратегии, которые использует эта биологическая система, и попытаться использовать их при разработке искусственных алгоритмов. Предлагаются 19 важных результатов исследований, которые не претендуют на звание полной теории распознавания лиц, но дают важные подсказки разработчикам систем компьютерного зрения. Эти 19 результатов собраны из различных публикаций многих научных групп, и в оригинале статьи приведены ссылки на эти публикации.

РАСПОЗНАВАНИЕ КАК ФУНКЦИЯ ПРОСТРАНСТВЕННОГО РАЗРЕШЕНИЯ


Результат 1: Люди способны распознавать знакомые лица на изображениях очень низкого разрешения.

Прогресс в разработке видеосенсоров высокого разрешения провоцирует на использования все большего количества мелких деталей для распознавания лиц в системах машинного зрения. Пример такого подхода — распознавание по радужной оболочке глаза. Очевидно, такие алгоритмы не работают при отсутствии изображений высокой четкости. Особенно актуальна эта проблема, когда требуется распознавание лиц на значительном расстоянии. Обратимся к человеческому зрению. Как зависит точность распознавания лиц от разрешения изображения? Оказывается, люди сохраняют точность узнавания знакомых лиц на изображениях, сглаженных до размера 16х16 блоков. Точность узнавания свыше 50% сохраняется при сглаживании до эквивалентного размера 7х10 пикселов (см. рис. 1), и становится практически равной максимально возможному значению при разрешении 19х27 пикселов.

Рис. 1 Люди способны узнать свыше половины знакомых лиц при разрешении, показанном на этом рисунке. Здесь изображены: 1 — Майкл Джордан, 2 — Вуди Ален, 3 — Голди Хоун, 4 — Билл Клинтон, 5 — Том Хэнкс, 6 — Саддам Хуссейн, 7 — Элвис Пресли, 8 — Джей Лено, 9 — Дастин Хофман, 10 — Принц Чарльз, 11 — Шер, 12 — Ричард Никсон.

Результат 2: Способность игнорировать деградацию изображений увеличивается с ростом степени знакомства.

Способность компенсировать деградацию разрешающей способности изображений сильно зависит от степени знакомства с субъектом. Продемонстрирован низкий процент узнавания незнакомых лиц на двух различных фотографиях одного и того же субъекта, а с другой стороны, высокий процент узнавания изображений коллег по работе при наблюдении изображений с камер видеонаблюдения низкого качества. При этом, фигура и походка оказались значительно менее информативными, чем изображение лиц, несмотря на их чрезвычайно низкое разрешение. Это доказывается тем, что когда заслоняют фигуру, но оставляют лицо, точность распознавания падает незначительно, но при обратном действии точность значительно снижается (см. рис. 2).

Рис. 2 Кадры из видеозаписей, использованных в исследовании. (а) исходное изображение, (b) закрыто тело субъекта, (с) закрыто лицо.

Результат 3: Высокочастотная информация сама по себе не гарантирует высокое качество распознавания.

Традиционный подход к распознаванию во многом основывается на использовании алгоритмов выделения контура. Считается, что контур является инвариантом при различных условиях освещения. В контексте биологического распознавания лиц, контурные (векторные) изображения обычно бывают достаточны для узнавания лиц. Карандашные наброски и карикатуры часто легко узнаваемы. Означает ли это, что высокочастотные пространственные образы критически важны, или хотя бы достаточны для распознавания лиц? Результаты исследований опровергают это. Конкретно для «векторных» рисунков показано, что изображения, которые содержат только контуры, плохо поддаются распознаванию (правильное распознавание в 47% векторных рисунков против 90% исходных фотографий) — см. рис. 3.

Рис. 3 Изображения, которые содержат только контуры, плохо поддаются распознаванию.

ПРИРОДА ОБРАБОТКИ: ФРАГМЕНТАРНО ИЛИ ЦЕЛОСТНО?


Результат 4: Черты лица обрабатываются как единое целое.

Могут ли черты лица (глаза, нос, рот, брови и т.п.) обрабатываться отдельно от целого изображения? Лица часто можно идентифицировать по очень малой части, например только по глазам или бровям. Но если верхняя половина одного лица совмещается с нижней половиной другого лица, очень трудно узнать, кому принадлежали эти части (см. рис. 4). Целостный контекст, по-видимому, влияет на то, как обрабатываются отдельные черты лица. Это исследование показало, что отдельно взятые черты лица могут быт достаточны для распознавания, но в контексте целого лица геометрические соотношения между взятой чертой лица и остальной его частью превалирует при распознавании.

Рис. 4 Верхняя часть лица принадлежит Вуди Алену, а нижняя — Опре Уинфри. При совмещении очень трудно угадать, кому принадлежат эти же части лица.

Результат 5: Брови являются одной из важнейших черт лица для узнавания.


Чаще всего, результаты экспериментов показывают, что самыми важными чертами лица для узнавания являются, в порядке убывания, глаза, рот и нос. Однако, недавние эксперименты с цифровым стиранием бровей показали, что брови явно недооценены специалистами по распознаванию лиц. В частности, процент узнанных лиц со стертыми бровями оказался значительно ниже, чем процент узнавания исходных портретов. Чем можно это объяснить? Во-первых, брови очень важны для передачи эмоций. Возможно, биологическая система восприятия лиц изначально смещена для придания повышенной значимости эти чертам лиц. Кроме того, брови являются очень стабильным элементом, устойчивым к деградации разрешающей способности изображения. Брови расположены на выступающей части черепа, а значит меньше подвержены искажению от теней.

Рис. 5 Образцы изображений для испытания значимости бровей для распознавания лиц.

Результат 6: Значимые конфигурационные отношения не зависят от размеров по ширине/высоте.

Многие системы по распознаванию лиц используют точные измерения атрибутов, таких как расстояние между глазами, ширина рта, длина носа. Однако в биологической системе, похоже, эти размерности не очень важны. Это доказывается результатами исследований процента узнавания лиц по искаженным изображениям. Например, изображения лиц могут быть сильно искажены по ширине (рис. 6) без потери качества узнавания. Очевидно, искажения полностью сбивают алгоритмы, основанные на измерении абсолютных размеров и соотношений размеров по осям x и y. При подобных искажениях остаются неизменными соотношения размеров вдоль оси. Возможно, биологическая система кодирует такие соотношения, чтобы успешно распознавать лица при повороте шеи.

Рис. 6 Даже сильные искажения по ширине (здесь ширина составила 25% от исходной) не мешают узнаванию лиц знаменитостей.

ПРИРОДА ИСПОЛЬЗУЕМЫХ КЛЮЧЕЙ: ПИГМЕНТАЦИЯ, ФОРМА И ДВИЖЕНИЕ


Результат 7: Формы лиц кодируются в слегка карикатурном виде.

Интуитивно кажется, что для успешного распознавания лиц зрительная система человека должна кодировать увиденные лица точно как они выглядят. Ошибки в сохраненных изображениях лиц очевидно ослабляют потенциальное совпадение новых изображений со старыми. Однако, эксперименты показали, что некоторые искажения от истинности играют позитивную роль в распознавании лиц. Именно, карикатурные изображения лиц обеспечивают качество распознавания равное или превосходящее уровень распознавания неискаженных лиц.
Карикатурные изображения могут преувеличивать отдельные отклонения формы или комбинировать отклонения формы и пигментации (рис. 7). В обоих случаях испытуемые демонстрировали небольшое, но стабильное превосходство уровня распознавания, причем не только распознавания лиц, но и других объектов.
Эти результаты можно интерпретировать таким образом. Существует пространство нормальных образов («пространство лиц»). Поскольку карикатуры искажают отдельные черты лица, индивидуальные отклонения лица от нормального играют повышенную роль при распознавали. Это дает в руки разработчиков алгоритмов интересную стратегию.

Рис. 7 Пример карикатуризации изображения. (А) Усредненное по популяции женское лицо. (В) Истинное изображение конкретного лица. (С) Искуственно искаженное по форме и пигментации лицо преувеличивает отличия конкретного лица от усредненного. Такие искаженные изображения показали более высокий процент узнавания, чем истинные изображения.

Результат 8: Продолжительное рассматривание лица может вызывать высокоуровневые эффекты, что означает возможность кодирования по прототипу.


Эффекты последействия (оптические иллюзии), которые происходят после продолжительного вглядывания в «адаптирующий» стимул (изображение), породили множество гипотез о нейронной обработке простых зрительных атрибутов, таких как движение, ориентация и цвет. Недавние исследования показали, что адаптация может вызывать мощные эффекты последействия на гораздо более сложные стимулы, такие как изображения лиц.
Существование эффекта последействия после продолжительного вглядывания в изображение лица свидетельствует о кодировании лиц на основе нормирования и контрастирования. Эффект последействия может выражаться просто в восприятии лица, искаженного в противоположном направлении по отношении к стимулу, либо порождать сложный эффект «анти-лица» специфической личности без явных искажений (рис. 8). <ПРИМ. ПЕРЕВОДЧИКА разрази меня гром, если кто-то что-то понял из этого перевода!> Это позволяет предположить, что существует несколько измерений, вдоль которых нейронные популяции могут настраиваться. Более того, это может означать, что эти сложные эффекты последействия — результат адаптации высоких отделов зрительной коры.

Рис. 8 Лица и из ассоциированные «анти-лица» в схематическом пространстве лиц. Продолжительное вглядывание в лицо, отмеченное зеленым кругом, приводит к тому, что центральное лицо будет ошибочно идентифицировано как лицо индивидуума, отмеченного красным кругом на той оси, н а которой находится исходный стимул (зеленый).

Результат 9: Свойства пигментации не менее важны, чем свойства формы.

Лица могут различаться по форме и по свойствам отражения света, назовем это пигментацией. Исследования были направлены на то, чтобы выяснить, что важнее для распознавания лиц: форма или пигментация. Создавались наборы лиц, отличающихся друг от друга только формой или только пигментацией — например, лазерные сканы лиц, искуственные модели лиц или морфы фотографий лиц. Оказалось, что процент узнавания не зависел от способа модификации, а это означает, что оба класса стимулов (графические свойства формы или совокупность цвета, отражающей способности и проч.) одинаково важны для распознавания лиц. Следствием этого является то, что учет свойств пигментации в искусственных системах распознавания лиц должен улучшить качество распознавания.

Рис. 9 Лица в нижнем ряду — лазерные сканы лиц, различающиеся как формой, так и пигментацией. Лица в среднем ряду различаются только пигментацией, но не формой. Лица в верхнем ряду различаются формой, но не пигментацией.

Результат 10: Свойства цветности играют важную роль при деградации свойств формы.

Структура яркости изображений лиц, конечно очень важна для распознавания. Использование только яркости (т.е. монохромных изображений) вполне достаточно для адекватного распознавания лиц. Однако, исследования показали, что мнение о том, что информацие о цвете неважна для распознавания, противоречит наблюдаемым фактам. Когда свойства формы оказываются неточными (например, при снижении разрешающей способности), мозг использует информацию о цвете для успешного распознавания. В таких случаях процент узнавания значительно выше, чем у монохромных изображений. Одной из гипотез того, как используется цвет, является гипотеза диагностической роли информации о цвете — например цвет кожи или волос может подсказать нам правильный ответ. Вторая возможность — использование цветности улучшает возможности низкоуровневой обработки изображения, например сегментации областей изображения.

Рис. 10 Примеры того, как цветность может облегчать решение низкоуровневых задач обработки изображения. (А) Распределение цвета (правые изображения) позволяют точнее определять границы областей, а значит свойства формы, чем распределение яркости (монохромные изображения в центре). (В, С) Обратите внимание на то, как форма волосистой части головы чётче определяется по распределению цвета, чем по монохромному изображению.

Результат 11: Инверсия (негатив) изображения значительно снижает процент узнавания лиц, возможно за счёт искажения свойств пигментации.

Все, кто занимался фотографией, знают, как сложно распознать даже очень знакомые лица на негативной пленке. Это явно свидетельствует о том, что хотя вся информация о форме остается неизменной, сильное и неестественное искажение свойств пигментации затрудняют распознавание, следовательно человеческий мозг активно использует свойства пигментации для распознавания лиц.

Рис. 11 На негативе изображены несколько широко известных певцов, но попробуйте их узнать (съемки во время записи песни We Are the World).

Результат 12: Изменения в освещении влияют на генерализацию.

Некоторые вычислительные модели распознавания требуют, чтобы лицо рассматривалось при разнообразных условиях освещения для надежного представления (запоминания). Однако люди способны генерализировать представления о лицах при радикально иных условиях освещения. В эксперименте испытуемым показывали модель лица, полученную лазерным сканированием, при освещении с одной стороны. Затем им показывали модель, освещенную совсем с другой стороны, и спрашивали, является ли модель одним и тем же лицом. Процент узнавания был значительно выше простого угадывания, хотя и ниже, чем при освещении лиц с одной и той же стороны.

Рис. 12 Одно и то же лицо, освещаемое слева и справа.

Результат 13: Генерализация направления взгляда осуществляется за счет темпоральных ассоциаций.

Распознавание знакомых лиц с разных углов зрения является очень сложной вычислительной задачей. Человеческий мозг с лёгкостью ее решает. Несмотря на то, что изображения одного и того же лица под разным углом гораздо больше различаются, чем изображения разных лиц, снятых с одного угла, люди способны правильно связывать изображения одинаковых лиц.
Высказана гипотеза о том, что темпоральные ассоциации являются тем «клеем», которые связывает изображения лиц под разными углами, в единое целое.
В экспериментах испытуемым показывали видеоролики, в которых лицо поворачивалось во фронтальной плоскости и одновременно выполнялся морфинг от одного лица к другому. Такой стимул значительно затруднил способность испытуемых правильно идентифицировать лица. Это свидетельствует о том, что рассматривание последовательностей изображений вызывает темпоральные ассоциации.

Рис. 13 Вращение и одновременный морфинг от лица а1 к лицу а2 и опять а1.

Результат 14: Движение лиц улучшает распознавание.

Движение лиц улучшает распознавание при определенных условиях. Жесткое движение, например вращение камеры вокруг неподвижной головы, улучшает распознавание знакомых лиц, но не дает преимущества при запоминании. А вот нежесткое движение, такое как эмоциональные изменения в выражении лица или изменения при разговоре, играет большую роль. Это означает, что динамические свойства лиц, проявляемые при нежестких движениях, помогают мозгу точнее выявить структуру лиц и повышают качество распознавания.

Рис. 14 Движения при отражении эмоций и речи подвергались морфингу, показанному стрелками. Испытуемые ошибались при идентификации исходных лиц, например когда движение губ «Штефана» накладывалось на «Лестера».

РАЗВИТИЕ ЗРИТЕЛЬНОЙ СИСТЕМЫ


Результат 15: Зрительная система начинает распознавание с рудиментарных предпочтений схематических изображений лиц.

Существуют ли специфические начальные предпочтения зрительной системы человека? Ответ на этот вопрос должен помочь исследователю систем компьютерного зрения выбрать из двух альтернатив: 1) запрограммировать специфические структуры шаблонов лиц в систему распознавания лиц; или 2) сформировать неявные шаблоны за счет процесса обучения, независимо от того, являются шаблоны специфичными для лиц или для любых объектов.
Новорожденные избирательно фокусируют взгляд на шаблоны, похожие на лица, уже в первые часы после рождения. Шаблон может выглядеть как три точки в овале, символизирующие глаза и рот (рис. 15а). Перевернутое изображение, невозможное для отображения лица (перевернутая триада точек в овале лица) не привлекает внимания новорожденных. Более поздние исследования показали, что новорожденные предпочитают изображения «утяжеленные сверху» изображениям, утяжеленным снизу (рис. 15b). Поэтому неясно, является ли это общим свойством зрительной коры, или специфическим для распознавания лиц.
Простейший шаблон из трех точек может использоваться в системах поиска и распознавания лиц в качестве первоначальной стадии.

Рис. 15 (А) Новорожденные чаще фокусируют взгляд на верхнем шаблоне, чем на нижнем. (В) Новорожденные предпочитают шаблоны с преобладанием элементов вверху.

Результат 16: Зрительная система развивается от стратегии частностей к целостной стратегии в течение первых лет жизни.

Обычные взрослые необычайно плохо распознают перевернутые вверх ногами изображения лиц, при этом не испытывают сложностей с распознаванием других перевернутых объектов, например домиков. Исследования показали, что это свойство развивается несколько лет. Шестилетние дети не проявляют снижение процента узнавания лиц по перевернутым изображениям; у восьмилетних уже несколько снижается эта способность; десятилетние дети уже ведут себя в этом отношении как взрослые. В экспериментах манипулировали расстояниями между отдельными элементами изображений лиц и подставляли отдельные элементы (например, глаза) из разных лиц. Результаты показали, что стратегия распознавания лиц развивается в первые годы жизни: от фрагментарной стратегии, основанной на отдельных свойствах, к целостной системе, использующей конфигуративную информацию.

Рис. 16 Шестилетние дети одинаково плохо распознают и прямые и перевернутые лица. По мере взросления узнавание прямых лиц значительно улучшается, а узнавание перевернутых лиц — нет. По горизонтали — возраст; по вертикали — процент правильного узнавания. Слева — данные по распознаванию лиц, справа — по распознаванию домиков.

НЕЙРОННЫЕ ОСНОВЫ


Результат 17: Зрительная система человека, вероятно, формирует отдельные области коры для распознавания лиц.

Исследования показали, что существует область коры головного мозга, которая дает сильный избирательный отклик на изображения лиц людей и животных и слабый отклик на изображения произвольных предметов и даже схематическое изображение лиц (рис. 17). Это может подсказать конструкторам систем компьютерного зрения рамки возможных механизмов генерализации и избирательности, свойственные объективно совершенным биологическим системам.

Рис. 17 В левом верхнем углу показана локализация области FFA (fusiform face area) в правом полушарии головного мозга. Показаны примеры зрительных стимулов и откликов на них области FFA. Фотографии человеческого лица и кошки вызвали сильный отклик, а схематическое изображение лица и произвольный объект вызвали слабый отклик.

Результат 18: Задержка отклика инферотемпоральной коры на изображение лица составляет 120 мс, что вероятно, означает в основном обработку прямым распространением сигнала.

Исследования на скорость реакции включают значительную задержку на моторную составляющую (например, испытуемый должен нажать кнопку, если увидит лицо). При использовании нейронных маркеров распознавания, такая сложная задача, как распознавание факта наличия животного в естественной сцене, занимает 50 мс. Некоторые клетки в инферотемпоральной (ИТ) коре специфичны для лиц. Задержка отклика этих клеток находится в пределах 80-160 мс. Это может означать, что с вычислительной точки зрения, обработка изображения вплоть до ИТ коры производится за один прямой проход, без обратных связей и итераций. Обработка зашумлённых изображений может занять больше времени.

Рис. 18 Пример отклика клеток ИТ коры обезьяны на различные стимулирующие изображения лиц. Отклик систематический для разной степени деградации изображений приматов, а также для лица человека. Низкий отклик на изображение руки означает, что клетка не отвечает за изображение других частей тела, но специфична для лиц.

Результат 19: Идентификация лиц и распознавание выражений лиц, вероятно, производятся различными системами.

Возможно ли извлекать информацию о выражении лица независимо от идентификации лица, либо это взаимосвязано? Поведенческие исследования, электрофизиологические исследования на животных и визуализация нейронной активности показывают, что разделение этих двух задач происходит в самом начале тракта обработки лиц, и существуют отдельные области мозга, отвечающие за идентификацию и за эмоции.
Теги:
Хабы:
Всего голосов 185: ↑181 и ↓4+177
Комментарии66

Публикации

Истории

Ближайшие события

15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань