Videoanalitic May 21 2015 at 09:11

Два противоположных направления ВИДЕОАНАЛИТИКИ: «жесткая» и «гибкая», кто сильней?

5 min

6.6K

Проблема – сокращения избыточной видео информации – крайне актуальна для сегодняшнего видеонаблюдения, объем данных которого не способен уже переварить человек. Только каждый решает ее по-разному: одни – путем поиска важных моментов, другие – путем фильтрации незначительных. Что эффективнее?

В прошлых статьях, стоило мне затронуть эту тему, я сразу попал в дискуссию с апологетами видеоаналитики. Даже основоположники классической видеоаналитики – бывшие программисты Интел – зафиксировали свои позиции в этом вопросе, за что большое спасибо! На этом портале присутствуют многие, кто считается корифеями в данной области – грех, этим не воспользоваться. Думаю, с них и начать. В этой статье я лишь обозначу разногласия – и надеюсь на дискуссию профессионалов. А дальше посмотрим, как будут развиваться события.

К сожалению, не могу себе позволить давать ссылки на сайты «аналитиков», дабы меня не забанили уже до дискуссии, поэтому попробую описать основные понятия своими словами, ну, и немного с помощью Википедии. После изучения огромного числа отечественных и зарубежных компаний я могу выделить два конкретных направления видеоанализа, используемого в видеонаблюдении для сокращения объемов информации:

1. Жесткая видеоаналитика — классика, которая базируется на старой доброй интеловской библиотеке Open CV, однако которую Интел больше не развивает. В большей части ее основы – детектор объектов. Этот алгоритм локализует в потоке видеокадров изменяющиеся замкнутые области по определенным признакам. Мы уже рассмотрели его на примере компании «Синезис». Эти «объекты» пытается анализировать программа видеонаблюдения, чтобы вычислить в них полезные цели: людей, автомобили… При их обнаружении основная идея – это анализ действий, передвижений и, в конечном счете, результирующей картины поведения, пригодной для интерпретации в социально-криминальный смысл.

2. Гибкая видеоаналитика – более молодая область знаний, появившаяся, судя по всему, в российских пенатах. Википедия называет ее видеосемантикой и трактует так: «Видеосемантика — краткое логическое изложение видеоинформации путём разложения ее на семантические единицы (видеосюжеты), каждый из которых имеет свой законченный смысл, отличающийся от предыдущего и последующего видеосегмента. Это особое направление видеоаналитики — так называемая гибкая видеоаналитика, не имеющая жестких параметров и точной формализации».

Вообще, с ходу после повторного прочтения лично мне больше подходит первый вариант. Все-таки надо четко и сразу сказать, кто готовит теракт. К тому же этого и требуют наши «товарищи», на миллиарды закупающие системы интеллектуального видеонаблюдения в Безопасные города и метрополитены по всей стране. Пугает только, что результаты чаще отрицательные. Но оставим политику политикам.

Итак, что же такого противоположного в этих двух подходах? Если прислушаться к тексту – всё. Первые ищут в видеопотоке криминал или действия людей (автомашин), представляющие угрозу. Вторые – отрицают такую возможность, взывая к теории построения мира. Извините, если выразил некорректное свое отношение к описаниям, которые обычно начинаются с того, что жесткая видеоаналитика невозможна в принципе. Как ни странно, я тоже с этого начал свои статьи про видеоаналитику – но я базировался только на конкретных примерах конкретных производителей. При этом не значит, что я закончу тем, что гибкая видеоаналитика чем-то лучше. Валить – так валить всё, лесу много!

Ну, вот, я уже перевесил свое отношение в сторону жесткой, сказав, что она мне больше подходит — надо поправить весы, скажу что-нибудь про другую: слово «гибкая» мне больше нравится, оно красивше!

Итак, первые формализуют поведение объектов (уж, не знаю, получается ли это у них), другие не могут (ну, или не хотят). Первые кричат охраннику – смотри, драка! Вторые – обрати внимание, что-то случилось! Опять первые рисуются в лучшем свете – более понятном. Хотя, зато вторые звучат как-то честнее.

«Жесткие» ищут важное, «гибкие» убирают ненужное. После этой фразы я вдруг ощутил, что между ними нет никакой разницы. Тем не менее, они сами считают себя классовыми технологическими врагами.

Мы уже говорили, что жесткая видеоаналитика основана на классификации объектов: человек, машина, кошка… Но как она ищет криминал? Подавляющее число компаний предлагает алгоритмы пересечения виртуальных линий, скопление людей, различных вариантов передвижения целей. Т.е. чаще всего нужно четко знать «границы дозволенного» — конкретные места на объекте, пересечение которых является криминалом или поводом для проверки. Обо всем об этом мы поговорим позже, сейчас лишь о сравнении методов подхода. Но во всех случаях в «жесткой» предполагается, что определены пути и способы несанкционированных действий.

Сторонники гибкой видеоаналитики высмеивают саму постановку вопроса фразами типа «Вы точно знаете, как Вас будут убивать?». В «гибкой» ни к чему не привязываются, ничего не рассчитывают, отдают свою безопасность полностью в руки компьютера. И это фраза озабочивает! А как вообще охраняет человеческий покой гибкая видеоаналитика? Как утверждает Википедия, «видеосемантика отслеживает характерные черты видеоконтента в результате анализа статистических изменений», т.е. основой является СТАТИСТИКА. Берется, скажем, 1000 кадров, проверяется, есть ли в каких-нибудь из них что-то нового необычного или их характер изменений полностью подпадает под предыдущие 1000, а то и предыдущие 100 000 кадров. Допустим, все люди всегда ходили по этой дороге прямо, а кто-то вдруг поперся по газону. Или просто подпрыгнул где никто не прыгал. Резко побежал…

По середине дороги присел, прилег, достал ствол из кармана… — любая нестандартность. Здесь только меня смущает фраза одной из компании «достал ствол из кармана или платок», т.е. нет формализации угрозы. Но не будем пока ни на кого давить.

Кстати, в «жесткой» все моменты определения класса цели и ее действий требуют довольно непростых, на мой взгляд, настроек, и любые сбои обзора камеры (от ветра, вибрации и проч.) или перестановки крупных объектов на местности влекут за собой выход из строя функционирования. А в «гибкой» вообще нет никаких настроек, как заявляется некоторыми производителями, что судя по логике ее работы может соответствовать истине.

Жесткая видеоаналитика, как мы уже рассматривали, очень чувствительна к помехам, особенно уличным. Про гибкую Википедия утверждает: «Отсутствие жестко заданных параметров и точной формализации защищает от помех, так как они включаются в общий анализ и вычитаются сами из себя в результате разности статистических изменений». Ну да, если паучок сел на камеру, то и на всех кадрах будет этот паучок – теоретически изменений в статистики произойти не должно. Если не приползет другой паучок.

Кое-что кину из предыдущего обсуждения про слабоконтрастные цели. Имеется в виду, что злодей ползет в маскхалате и сливается с местностью, а надо его вычислить. Чтобы классифицировать человеческую фигуру детектору объектов нужна бОльшая чувствительность и бОльшая контрастность, иначе он будет брать множество разрозненных мелких целей, какие-то участки маскхалата все равно будут полностью сливаться – ну, раз уж мы говорим о серьезном слабоконтрасте. Таким образом, жесткая видеоаналитика в этом вопросе, наверное, уступает гибкой – для которой классификация цели неважна в принципе. Но на сколько это существенно? Пока я кинул эту тему лишь для обсуждения, вывода здесь нет.

Еще одна тема для дискуссии – решаемая транзакция. Например, определение скопления людей подпадает и под жесткую и под гибкую видеоаналитику. Обе они – по заявлениям – справляются с этим вопросом. Только разными методами. Так какой из них эффективней?

Количество вопросов здесь еще много, постараюсь не мучить длиной статьи, остальные обсудим в дальнейшем. (Если не забанят.)

Hubs: