ymik Apr 20 2009 at 04:23

Моделирование зрения. Часть шестая. Моделирование eye tracking

5 min

2.5K

^{1 Экскурсия в глаз — 2 Восприятие — 3 Геометрия зрения — 4 Eye tracking — 5 Как поймать взгляд — 6 Моделирование eye tracking}

Шестая часть, заключительная. Рассказ непосредственно о принципах моделирования eye tracking, а так же как это может быть применимо к реальной жизни. В этой части, наконец-то, пригодятся цифры и принципы, освещённые в третьем, четвёртом и пятом постах.

Какие модели eye tracking представляют интерес?

Как было рассказано в четвёртой части, существует прямая связь между временем, потраченным на просмотр региона изображения и степенью внимания, уделённому этому же региону сознанием человека. Как минимум, если человек уж не осознает, на что он смотрел, то запомнит-то это точно!

Поэтому, одним из видов моделирование является создание тепловой карты длительности просмотра или информация о том, какой потенциал для длительного изучения имеет какой-либо регион изображения.

Другим интересным видом моделей является динамика саккад: диаграмма, показывающая в какую точку устремится взгляд человека, если сейчас он смотрит на текущую. Анализируя этот вид диаграмм, можно понять, какие части изображения при просмотре кажутся наиболее важными. Совмещая же диаграмму динамики с тепловой картой можно понять, какие побочные детали способны отвлечь взгляд человека от того, что он считает наиболее важным.

Границы применимости моделирования

Моделированию саккад хорошо поддаются только психологически-нейтральные изображения: эмоционально окрашенные картины значительно смещают центры притяжения внимания. К примеру, при просмотре плачущего ребёнка взгляд человека неизбежно больше будет уделять внимания изучению выражения лица, чем побочным контурам.

Этот же фактор означает, что взгляд человека исключительно индивидуален: если конкретный человек неравнодушен к голубям, то при просмотре фотографии с голубями он несомненно будет перемещать взгляд иначе, чем человек равнодушный к птицам.

Наличие на картине (пусть даже психологически-нейтральной) небольших, но узнаваемых контуров (лиц людей, символов текста и т.д.) ставят перед моделированием задачу предварительного распознавания образов этих контуров. В программе, послужившей поводом написания сего мануала, распознавания вообще нет, а есть исключительно оценка сложности восприятия контура. Но вывод, что качество распознавания образов существенно улучшает соответствие модели данным, полученным на реальных eye tracking, а отсутствие может приводить к фатальным несоответствиям сделать необходимо.

Моделирование хорошо работает для ситуаций обзора картинки без какой-либо цели, без полученного задания. В случае просмотра изображения с определённой целью, повышается роль распознавания образов, влияющая на силу восприятия контуров.

Где это может быть применимо?

При ознакомлении с границами применимости моделей возникает логичный вопрос «А где это, с такими-то ограничениями, может быть применимо в реальной жизни?»

А применимо это в широком классе задач, прежде всего связанных с анализом текста. Как известно, на восприятие текста оказывает сильное влияние его форматирование, величина пустых мест между абзацами, словами и символами, начертание шрифтов и т.д.

Текст изначально, до обработки, видится психологически-нейтральной картинкой идеально подходящей для анализа методами моделирования саккад. Та же тепловая карта показывает, какие слова, абзацы и другие текстовые юниты наиболее склонны к запоминанию, поскольку из-за форматирования текста на них обращается большее количество внимания. И с другой стороны можно понять, какие блоки текста из-за того же форматирования выпадают из внимания вследствии попадания в зону неразличимости.

Кроме анализа восприятия текстов, модели неплохо могут работать для нахождения оптимальных регионов восприятия (чтобы что-то показать — рекламный блок) или невосприятия (чтобы что-то спрятать — контактный телефон) ;)

Ну и не нужно совсем уж исключать класс задач быстрого анализа изображений с целью юзабилити-тестирования. Доступа ко «взрослой» системе eye tracking и десятку человек из фокус-группы часто является невозможной роскошью.

Как оно работает

Моделирование векторов саккад на простейшем уровне (т.е. так, как оно у меня работает) заключается в решении двух задач:

Вычисление некой «силы восприятия» для указанной области.
Нахождение и выделение ловушек взгляда на основе информации о «весе» центра внимания.

Классическое решение первой задачи выполняется с помощью следующей последовательности действий:

Выделение необходимой области, в соответствии с углом оптического восприятия глаза;
Нормализация выделенной области в соответствии с параметрами остроты зрения человека (поэтому размытие по Гауссу тут не совсем применимо);
Выделение контуров с использованием частотного анализа и пороговых значений восприятия (для нас на этом этапе важны не столько сами контуры, сколько их примерные очертания, неплохо подходят фильтры Габора);
Обнаружение нарушений непрерывности контуров и нормализация точек нарушения непрерывности алгоритмом Гласса (для нахождения векторов субъективных контуров и дополнения ими контуров объективных);
Вычисление веса зоны на основе количества смены направления, разброса направлений векторов контуров и количества точек разрыва.

На самом деле, так как вес зоны представляет из себя всего лишь оценку сложности контуров в ней находящихся, а сложность контуров — это некая композиция от разброса направлений векторов и точек разрывов. А для второй задачи нам требуется не точные числа, а их относительный вес. Поэтому вместо функции от сложности контура можно взять её производную. А производная, в своём случае, пропорциональна композиции координат краёв отрезков в радиальных координатах. Соответственно задачу определения сложности контура можно свести к нахождения количества пересечений контуров с большим количеством радиальных хорд.

Опыт же показывает, что при малых размерах радиуса (в случае 96dpi, радиус зоны острого зрения будет составлять около 18 пикселей, а изучаемый регион с учётом периферического зрения — 57), для приемлимого вычисления веса достаточно 9 радиальных хорд с шагом в 20 градусов. Уменьшение углового шага повышает точность определение порядка веса, но незначительно по стравнению с результатами, полученными по классической модели вычисления веса.

Тот же опыт показывает, что для разных dpi и, соответственно, разных радиусов зон зрения имеет смысл использовать ту же 18-лучевую модель с предварительной нормализацией региона в виде приведения её к кругу радиусом в 30 пикселей.

Из-за чего большая точность вычислений в любом случае не приводит к лучшему результату? А из-за того, что сама операция выделения контуров обладает определённой погрешностью и погрешность вычислений 18-лучевой модели сравнимо невелика относительно погрешности самого метода.

Вторая задача – задача выделения ловушек для взгляда может решаться таким образом:

Сканирование всей области картины с выделением зон с максимальными весами
Построение графа из найденных точек с установлением веса связей между ними
Решение стандартной задачи на графе

При решении второй задачи каждой паре или триаде точек, составляющих ловушку взгляда, сопоставляется определённый вес, являющийся относительной силой композицией точек относительно соседних ловушек. Смысл этого веса – в длительности фиксации взгляда в найденной ловушке. Другим подходом является метод эластичного графа с установлением веса связей между точками.

Вопросов генерации диаграмм по найденной информации я уж касаться не буду ;)

^{1 Экскурсия в глаз — 2 Восприятие — 3 Геометрия зрения — 4 Eye tracking — 5 Как поймать взгляд — 6 Моделирование eye tracking}

Tags:

Hubs:

Health