Почему идентификация лиц невозможна — так, как этого хочет заказчик? / Хабр

Ну, давайте честно, много вы знаете случаев успешного внедрения? Естественно, мы не говорим про верификацию, когда нужно просто подтвердить, что чел похож на того, кому дана карточка СКУД. Хотя… об этом тоже поговорим, потому что и она извращена на практике.

Когда заказчик хочет одного, а технология может только другое, то конечно же побеждает заказчик – ведь он платит. Если надо, чтобы солнце крутилось по квадратной орбите, не вопрос. Благо, сегодня можно делать такие высокотехнологичные фокусы, что заказчик только через пару лет поймет, что орбита не совсем квадратная, да и солнце совсем не солнце.

К нам постоянно обращаются клиенты с желанием внедрить у себя модную систему отслеживания людей на предприятии или даже городе. И у всех какое-то фантастическое представление об этой технологии, навеянное шпионскими фильмами. А в жизни так не бывает.

Мы устали объяснять заказчикам, как это может работать, чтобы действительно получить пользу. И вот новый заказ от крупной компании типа нашего Гугла. Уж, от этих ребят мы ждали научного подхода, но получили все тоже самое – только с повышенной степенью презрения: если не можете вы, сделают другие.

Думаю, здесь полно спецов по распознаванию лиц, я представляю компанию, которая 20 лет этим занимается и первой в Раше вывела такой продукт на рынок (никаких названий, чисто озвучил бэкграунд). Поговорим?

Задачи приблизительно у всех схожие: оттрасировать (фэйстрессинг) любое лицо в пространстве по времени, везде определить имя, если есть в базе, отдельно показать гостей и сигнализировать о разыскиваемых человеках.

Сначала в качестве к прелюдии к размышлению буду говорить несусветные вещи:

1 человек = 5 разным лицам. Пока вы подходите к камере, она оцифровывает около ста кадров, в одном из которых будет блик на полфэйса, в другом смазанное движение на какой-то край, в третьем рука на лбу и глазах (чел почесался), в четвертом – опущенная голова, а в других 96 кадрах мы узнаем сотрудника Госдепа. Что делать с этой толпой? У нас много практических вариантов, но все они чаще противостоят задачам клиента.
5 человек = 1 лицу. Куча народу подходит к камере, но она видит только того, кто её полностью перегораживает. Наверх такую камеру не поставишь, т.к. она не будет брать лица с опущенными головами. Вернее, можно поставить, если пространства хватает, но даже в офисах российского Гугла особо не разойдешься. (Решение вопроса также в следующей части.)
Во всем виноват процент схожести. Этот фундаментальный противоречивый параметр убивает практическое применение. Чтобы найти запретное лицо, нам нужно уменьшить процент схожести. Но при низком проценте каждое лицо всегда на кого-нибудь из базы похоже, так нас создал Бог – похожими. Поэтому, если мы стремимся найти похожего человека на злоумышленника, то система никогда не будет выдавать незнакомцев, ведь она настроена только на поиск похожих. Если кто не понял, здесь главная проблема, что не будет незнакомцев.
Или можно настроить всё наоборот - искать только тех, кто железно есть в базе (с высоким процентом схожести), тогда у нас часто будут появляться незнакомцы – даже если их реально нет.
Это фундаментальная вещь, обойти её никак не удастся. Все же клиенты хотят совместить одно с другим. Так не бывает теоретически. Здесь нужен другой подход. Но, может, вы что-нибудь насоветуете, интересно будет ваше мнение под этой статьей.
Процент схожести метрики – это не полная, к тому же противоречивая, характеристика схожести лиц. Компьютер ничего не знает про реальные лица, он анализирует только оцифрованные картинки.

Для кого-то картина Малевича «Черный квадрат» - просто квадрат, а для разработчиков нейронных сетей – это неповторимое божество. Потому что его невозможно сфотографировать так, чтобы повторить. Любая фотокопия будет отличаться от оригинала и от другой фотокопии.

Проделайте опыт! Попробуйте одной и той же камерой долго фотографировать одну и ту же черную стенку одним и тем же способом при одном и том же освещении. Сделайте сами, ибо не поверите: у вас не будет ни одной совпадающей фотографии! Все кадры отличаются оттенком пикселов в разных местах. Это при том, что опыт почти лабораторный, да еще и статический. А в жизни разброс изменений будет более ощутимый, учитывая сложную динамику, разное освещение, положение головы и проч. Т.е. вы сфоткали лицо, произвели кучу мало адекватных операций над ним от монтажа правильного положения и компенсации неправильного освещения до декодирования H.264, в описании которого четко прописано: алгоритм предсказания. И после этого требуете от машины оценить процент схожести?

Господа, извините, компьютер оценивает метрику того, что уже пришло из месива непредсказуемых факторов. Как там на самом деле, до этой слабо предсказуемой логики, он ничего не знает. Поэтому процент схожести от компьютера – это такой не самый авторитетный показатель.

Для первой части статьи артефактов достаточно. Нам нужно искать злодея, который меняет внешность, а он похож на большую часть базы лиц. Мы увеличиваем процент схожести, но при этом нам нужно отделять своих от чужих, тогда эти сущности вообще могут быть одним человеком. Да еще в реальности процента схожести не существует. Какая вам, в офис, идентификация? (Здесь запятые - не ошибки.)

Таким образом, в лоб на практике все вместе эти задачи не решаемы, а только возможна лишь какая-то одна: или находить нужного чела или находить незнакомца. Не согласны?