antisies Mar 12 2013 at 20:32

Распознавание пола в изображениях и видео

8 min

51K

Algorithms*Image processing*

From sandbox

+90

Comments 68

max_mara Mar 12 2013 at 20:39

А Бориса Апреля оно распознает?

spein Mar 12 2013 at 20:43

Да, я думаю, не каждый человек распознает. Я промолчу о машине.

maseal Mar 12 2013 at 20:53

Но блондинку на 0:42 на первом видео почему мужиком посчитали?

antisies Mar 12 2013 at 21:00

Думаю это возникло из-за сглаживания по времени. Девушка появляется на маленький промежуток времени. Очередь содержащая результаты распознавания пола, полученные с предыдущих кадров наполняется Ж только к появлению следующей девушки.

mephistopheies Mar 12 2013 at 23:56

ну зачем я это погуглил, типерь ужосы сниться будут

bodqhrohro Mar 13 2013 at 19:24

Ты ещё Иззи Хилтон не видел. Неделю спать не будешь.

ssneg Mar 12 2013 at 20:45

Я один по заголовку решил, что речь пойдет про тот пол, который под ногами?.. =)

-1

FluffyMan Mar 12 2013 at 20:49

скорее всего, да

+12

TheShock Mar 12 2013 at 21:02

У меня, скорее, такая ассоциация:

+37

Indexator Mar 12 2013 at 23:57

+28

Indexator Mar 13 2013 at 00:14

Бонусом: Две половинки одного Пола

UFO just landed and posted this here

Grox Mar 13 2013 at 02:04

Не один. У меня сейчас похожая задача есть по распознаванию.

BelBES Mar 12 2013 at 21:05

А вы не могли-бы выложить CSV'шник с размеченными векторами, которые вы скармливали бустингу?

Tairesh Mar 12 2013 at 21:24

Посоны, прогоните тест, пожалуйста!

+32

Lockal Mar 12 2013 at 22:22

А кадык-то видно!

Tairesh Mar 13 2013 at 13:50

Сейчас такое уже делают

FluffyMan Mar 12 2013 at 23:06

мне в школе одноклассница как-то показала это фото. и я сказал «симпатичная девушка». а потом она мне сказала кто это…

Andrew_Lvov Mar 13 2013 at 02:40

Не томи, раскрой тайну!

nIx0iD Mar 13 2013 at 10:17

urlid.ru/b7dm

-5

krovatti Mar 13 2013 at 23:23

Это Хабр и тут не любят сокращённые ссылки.

P.S. тем более незнакомые сокращалки…

nIx0iD Mar 13 2013 at 23:40

Использовал ее только по той причине, что хабр резал полную ссылку из-за наличия в ней запятой.
Этот сервис был на первом месте в гугле, поэтому использовал именно его.

FluffyMan Mar 13 2013 at 23:48

это ПАРЕНЬ!

из группы Tokio Hotel, кажется

krovatti Mar 13 2013 at 08:40

Значит я не один такой… :D

akaStiX Mar 13 2013 at 15:20

Тест только на определение «он»\«она», «оно» не определяет

Redy Mar 13 2013 at 16:16

Сразу вспомнился старый демотиватор.

wolfus Mar 12 2013 at 21:34

Спасибо, шикарный пост!

e_asphyx Mar 12 2013 at 21:40

Не быть мне художником, потому что я никак не могу проанализировать, как же я сам различаю мужские и женские лица.

denisemenov Mar 12 2013 at 21:57

Судя по видео: смотришь в камеру — мужик, отвернулся — уже не мужик… :)

BubaVV Mar 12 2013 at 22:16

Публикация готовилась для журнала?

antisies Mar 12 2013 at 22:50

Этот алгоритм придуман не мной. Его авторы достаточно известны в области компьютерного зрения. Эта публикация готовилась исключительно для Хабра

Elsedar Mar 12 2013 at 22:16

На последнем видео хорошо заметно, что алгоритм не редко ошибается, притом что выбирается наиболее часто распознанный пол за последние 19 кадров? Это что получается, если пол мужской, а он его определил как женский хотя бы на одном кадре, значит, как минимум на 10 предыдущих кадрах он определил его как женский? Показали бы результат определения пола с использованием лишь текущего кадра.
Хотя, возможно, такие огрехи из-за разных ориентаций лица, не использованных в обущающей выборке.

antisies Mar 12 2013 at 22:55

Видео представлены исключительно для целей демонстрации. Алгоритм обучен исключительно на фронтальных лица. «Академические» тесты выдают 93% точности. Если убрать сглаживание, то картина практически не изменится. Сглаживание нужно чтобы убрать эффект «моргания».

rowdyro Mar 12 2013 at 22:16

На последнем цебите был стенд с аналогичной разработкой, только там еще возраст и настроение.

Пол и настроение практически без ошибок, а вот возвраст он определял совсем как-то странно, например 27 [± 11] yrs old.

UFO just landed and posted this here

GarbageIntegrator Mar 12 2013 at 23:53

шо цэ нэ баба?

bodqhrohro Mar 13 2013 at 20:28

Бибер? Вроде не.

K0Ka Mar 14 2013 at 17:22

Бабер

-1

ltwood Mar 12 2013 at 22:53

можно использовать пиксели изображения напрямую. Такой подход часто дает неплохие результаты

Вот и наступил момент, когда наличие относительно сильного алгоритма классификации привело к соревнованию типа «кто придумает такой идиотский набор признаков, что AdaBoost его не переварит». Выглядит как издевательство над здравым смыслом, если я правильно понял правило образования исходного вектора признаков.

BelBES Mar 12 2013 at 23:06

Ну на самом деле это вполне нормальный подход, сначала в качестве признаков брать все возможные описания объектов(включая даже абсурдные с точки зрения логики), а затем проводить выделение feature из этих признаков и сокращение размерности дескрипторов при помощи того-же метода главных компонент или случайного леса.

ltwood Mar 13 2013 at 00:21

Да, это так, но только в теории или при очень жесткой регуляризации обучения. А в случае AdaBoost сразу же случается дикий overfitting, который был продемонстрирован как на теоретических примерах, так и на реальных:

В реальных примерах успешного применения успех был как раз обусловлен тем, что признаки изначально выбирались разумно.

Ну и как минимум в таких случаях упор делается на устойчивость полученных признаков, а тут как раз почти очевидна принципиальная неустойчивость (заметьте, что делается упор на необходимость использовать при обучении тот же алгоритм нахождения глаз).

BelBES Mar 13 2013 at 00:36

Да, полностью с вами согласен по поводу adaBoost. В практических задачах здорово заметно у него переобучение при подаче на вход всего что есть. Но это не противоречит такому подходу, при нем вообще говоря на вход классификатору мы подаем дескрипторы в пространстве уже сокращенной размерности.
Вообще в задаче описанной в этой статье я попробовал-бы использовать вместо adaBoost что-нибудь вроде random forest, чтобы избежать неприятностей с перечисленными вами проблемами.

ltwood Mar 13 2013 at 01:15

1000 признаков — это для бинарной классификации как бы за пределами любого разумного понимания «сокращенной размерности», ИМХО. Если бы оно заработало на сотне признаков (или порядка сотни), как это делает SIFT/SURF, то можно было бы говорить о предотвращении оверфиттинга за счет регуляризации по числу признаков. А тут либо случилось чудо и именно так естественно классифицировать по полу, либо наоборот :)

antisies Mar 13 2013 at 01:38

Не понимаю вашей критики. Алгоритм работает и очень неплохо.
По существу вашего коментария.

1000 признаков — это для бинарной классификации как бы за пределами любого разумного понимания «сокращенной размерности»,

Напомню, что начальное количество признаков — 1 560 000. Сокращение в 1 560 раз. Очень неплохо

Если бы оно заработало на сотне признаков (или порядка сотни)

Обратите внимание на график зависимости точности распознавания от количества характеристик, из которого видно, что алгоритм имеет точность более 0.9 при количестве характеристик около 150. Согласитесь, неплохо

то можно было бы говорить о предотвращении оверфиттинга

Объясните, пожалуйста, что заставляет вас говорить об overfitting конкретно в этом применении

Про AdaBoost.
Данный алгоритм применяется очень часто и очень эффективно. Например, поиск лиц на картинке, распознавание эмоций, пола и т.п. Он, как и другие алгоритмы обучения, подвержен проблеме overfitting. Так, например, чрезмерно большое количество параметров в нейронной сети может привести к нему, «сильное выращивание» упомянутого коментарием выше, random forest, может привести к нему, бесконтрольный рост параметров регрессии может привести к нему… Примеров масса. Эту задачу должен решать исследователь, а не алгоритм. Цель AdaBoost — эффективная комбинация слабых классификаторов. Если у вас набор сильных классификаторов, то AdaBoost не поможет (это тезис авторов AdaBoost).

Также известны применения AdaBoost для выбора и назначения весов характеристикам, которые после этого подаются на вход другим классификаторам для обучения (например, SVM). Такие подходы часто дают очень хорошие результаты.

ltwood Mar 13 2013 at 02:34

что заставляет вас говорить об overfitting конкретно в этом применении

В основном соотношение между размером обучающей выборки и количеством выбранных для классификации признаков. Фактически «мощности» такого классификатора хватит (почти), чтобы отделить каждый элемент обучающей выборки от всех остальных.

Аргумент с независимым тестированием конечно очень сильный. Именно поэтому ниже я спросил Вас про результаты тестирования на другой базе.

antisies Mar 13 2013 at 15:34

Добавил в конце статьи тесты проведенные на базе Bosphorus.

ltwood Mar 13 2013 at 16:14

Спасибо! В целом убедили.

Конечно, моя вера в разумное устройство окружающего мира говорит мне, что вероятно там фактически само собой сформировалось небольшое количество гораздо более устойчивых признаков, которые оказались спрятанными внутри процесса взаимодействия слабых классификаторов и которые было бы интересно выделить. Но тем больше очков в пользу AdaBoost.

А на окончательный классификатор можно где-нибудь посмотреть? Т.е. на координаты точек и веса отдельных слабых классификаторов.

antisies Mar 13 2013 at 19:43

Первые 50 характеристик приведены в статье. В качестве весов может выступать либо значение error_t либо B_t.

Все вместе выглядит примерно вот так:

index: 1357250
error: 2.1651162207126617e-001

index: 128970
error: 2.6818192005157471e-001

index: 989735
error: 3.0862584710121155e-001

index: 1135840
error: 3.0191463232040405e-001

index: 308475
error: 3.4082311391830444e-001

где index — номер характеристики

ltwood Mar 13 2013 at 20:27

Я немного не об этом. Интересно было бы поверх некоего усредненного лица нарисовать все отрезки соединяющие точки, в которых берется разность яркостей. При этом можно попробовать выбирать яркость отрезка в зависимости от веса признака в окончательной сумме (тут надо экспериментировать, скорее всего придется выбирать яркость пропорциональной логарифму веса признака). Было бы очень интересно посмотреть, как такие отрезки «заметают» лицо и где геометрически расположены основные признаки. Альтернативный вариант (более обещающий, но и более сложный) — выбирать яркость в зависимости от частоты срабатывания признака, т.е. от частоты ситуации, когда именно данный признак обусловил ответ усиленного классификатора (т.е. при его учете произошла смена ответа, а следующие признаки не поменяли результат). В общем тут было бы, с чем поразвлекаться, если был бы доступен конечный обученный классификатор.

antisies Mar 14 2013 at 13:27

Возможно, на ваш вопрос ответит следующая статья

Похоже, что выхотите посмотреть такую картинку

BelBES Mar 13 2013 at 02:10

Странная мысль. А в чем собственно связь числа классов и числа признаков? Количество и вид фич выбирается исходя из характера границ между множествами, а не от того сколько классов мы имеем. По статье я на самом деле не понял откуда берутся такие характеристики вообще(те 5 штук неравенств с мэйджик числами), вероятно какая-то эвристика, и наверно если понять почему авторы взяли такие правила, то станет понятно откуда столько фич в финальном классификаторе. Но это не важно в принципе. Важно то, что если результаты из статьи воспроизводимы с соответствующей точностью, то нет особых причин говорить о том, что все работает благодаря правильно сошедшимся звездам на небе :)

ltwood Mar 13 2013 at 02:35

Да, я там очень плохо сформулировал, см. поправку: habrahabr.ru/post/172463/#comment_5989419

antisies Mar 13 2013 at 00:37

заметьте, что делается упор на необходимость использовать при обучении тот же алгоритм нахождения глаз

Сразу отмечу, что это не упор, а скорее рекомендация, и делается она мной, а не авторами статьи. Если алгоритмы поиска глаз будут различны, например, обучать на глазах расставленных руками из FERET и запускать с глазами расставленными автоматическим алгоритмом, то точность слегка упадет на 2-3%. Это, а также то, что алгоритм здорово работает на данных которые «не видел» на этапе обучения, демонстрирует хорошие способности к обобщение (generalization). Говорить об overfitting можно тогда, когда наблюдается практически полное запоминание обучающей выборки (или очень похожей выборки), а неизвестная выборка прогнозируется плохо. В данном случае обобщение на лицо.

ltwood Mar 13 2013 at 01:31

Мне на видео показалось, что кое-где довольно неустойчиво распознает (см. 0:50 и 1:30, там везде очень четкий фронтальный ракурс), особенно если учесть усреднение голосов по времени. Но это так, впечатления. Я сравнивал исключительно со своими воспоминаниями о том, как работал проприетарный алгоритм, который мне как-то показывали и который использовал те же признаки, что и Виола-Джонс. Там вообще совершенно железобетонное распознавание было, вплоть до поворота градусов на 45 относительно вертикальной оси.

Кстати, а Вы тестировали на выборках лиц из других баз?

Rel1cto Mar 12 2013 at 23:46

А этого типа распознает?

-28

Iskin Mar 13 2013 at 01:46

Ну это не совсем алгоритм — мы просто накачали алгоритм обучения данными и она сам нашёл какую-то закономерность. При этом рационально (по крайней мере по я тексту этой статьи) так и не понял, какие факторы отличают мужское лицо от женского.

personazhe Mar 13 2013 at 02:02

Пусть видео Мэрилина Мэнсона скормят этой софтине. Будет BSOD.

UFO just landed and posted this here

nerudo Mar 13 2013 at 11:58

Для повышения достоверности надо было распознавать по сиськам…

vlivyur Mar 13 2013 at 13:10

В Таиланде не работало.

pvasili Mar 13 2013 at 12:43

В чем может быть прикладной смысл задачи? И интересно было бы пощупать работающий экземпляр.

Интересно как с трансвеститами обстоят дела :)?

int80h Mar 13 2013 at 16:58

Различать пол же. Например у вас есть n часов видеозаписи. А вам нужно быстро вычленить из нее всех женшин. Не просматривать же все подряд.

pvasili Mar 13 2013 at 17:10

Что различать — понятно и так. Если общая задача, распознать конкретного человека (поиск преступника), номера машин, и т.д.
Но для чего нужно вычленить(учесть|посчитать) именно только один пол — практическое применение какое? Только в мужскую баню девок не пускать и в гарем султану автоматизировать :).

BelBES Mar 13 2013 at 17:33

Ну я предположу, что научить робота распознавать пол собеседника будет полезно. Еще как вариант: если по изображению лица можно различить половую принадлежность, то за счет этого можно повысить точность определения эмоций.

UFO just landed and posted this here

pvasili Mar 13 2013 at 21:22

А если рядом будет несколько разнополых? И если они будут ещё перемещаться. Реклама сойдёт с ума :)

int80h Mar 13 2013 at 20:26

Есть системы которые позволяют в видео делать вот такой поиск: «найти всех детей», «найти людей в красной куртке», «найти блондинов» и т.д. Пол — это очередной тег для таких систем. Ну и таргетированная реклама опять же.

UFO just landed and posted this here

Show the best of all time