Какие мысли у вас возникают, когда вы слышите понятие «Видеоаналитика 2.0»?
Решение каких актуальных задач можно было бы поручить гипотетическим технологиям видеоанализа следующего поколения?
Среди популярных ответов наверняка встретятся «некооперативное распознавание личности человека среди идущей толпы с вероятностью, близкой к 100%», «выявление злоумышленников среди посетителей», “межкамерное одновременное сопровождение множества объектов без срыва трекинга”, “распознавание и классификация без ошибок всего, что видно в кадре”.
Инженер, связанный с инсталляциями систем безопасности пожелает максимальной автоматизации настройки детекторов за счет продвинутых алгоритмов самообучения, что позволит существенно снизить затраты на пуско-наладку и гарантийное обслуживание.
А
Хотя ответы на поставленный вопрос будут разными, одно общее понятие (зачастую оно даже не озвучивается, а просто подразумевается) встретится в каждом из них – видеоаналитика следующего поколения обязана эффективно работать в реальных условиях применения – на улицах, вокзалах, метро, в быту.
Какой бы это ни был детектор: оставленных предметов, драк, вандализма, распознавания личностей – он обязательно должен работать в реальных, а не лабораторных условиях и при этом полностью удовлетворять (а лучше превосходить) ожидания потребителей.
Связано это в том числе и с тем, что уже около 5 — 6 лет рынок видеонаблюдения находится в ожидании качественного прорыва в области ситуационной видеоаналитики. (Ситуационная видеоаналитика — видеоаналитика обнаружения заданных, детерминированных ситуаций.)
После бума видеоаналитики 2009-2010 года, о котором упоминается в статье "Плохие парни рынка видеоаналитики", ситуационная видеоаналитика была серьезным образом дискредитирована, потребители разочаровались в её возможностях из-за несоответствия рекламных обещаний реальным результатам в “полевых” условиях применения.
Как бы удивительно это ни звучало, но и сегодня, в 2016 году, положение ситуационной видеоаналитики лишь немногим лучше, чем в 2010.
И, если с детекторами, предназначенными для «тихих» сцен без движения еще более-менее нормально, то с детекторами, которым необходимо работать в условиях интенсивных пассажиропотоков или большой активности в кадре – ситуация оставляет желать лучшего.
Даже лидерам отрасли интеллектуального видеонаблюдения не удаётся выйти на качественно иной уровень эффективности ситуационных детекторов и обеспечить их работоспособность, удовлетворяющую ожидания потребителей в обычных, а не лабораторных условиях.
Наиболее наглядно и достаточно точно положение в отрасли показывают возможности детекторов оставленных предметов, предлагаемых сегодня почти всеми игроками рынка.
Почему?
Во-первых, в архитектуре детектора, в зависимости от подхода, могут применяться почти все базовые технологии, используемые в видеоанализе: сегментация фона, работа с многомерным гауссовым распределением и другими статистическими инструментами, распознавание образов (HOG-ом или сверточными нейросетями), трекинг и мультитрекинг.
Во-вторых, задача детектирования оставленного предмета хорошо формализована, что позволяет объективно оценивать эффективность детектора того или иного производителя.
Посмотрим, какие решения предлагают зарекомендовавшие себя компании, у которых есть видеоаналитические детекторы собственной разработки.
Решения российских компаний
- Macroscop предлагает модуль к своему ПО стоимостью 1500 р. Модуль, как того и следует ожидать, обладает настройкой времени, после которого объект считается оставленным, а так же целым рядом условий на перекрытие объекта другими объектами переднего плана, а так же на качество видео (разрешение не менее 640x480, частота кадров не менее 5 кадров/с). Подробно о них рассказывает директор Macroscop по разработкам Пётр Харебов в следующем видео (о детекторе — с 12:26):
К сожалению, возможности модуля невелики:
На этом (официальном, заметим, размещенном и в блоге на Хабре) видео, объект, сильно выделяющийся контрастом от фона (красный пластиковый стаканчик), почему-то обнаруживается системой как два независимых объекта, а из двух объектов, от фона отличающихся слабее (трубки от стационарных телефонов), в один момент времени обнаруживается лишь один; более того, ни размеры объектов, ни их положение не совпадают точно с областями обнаружения.
Отдельно стоит обратить внимание на такой параметр, как размер обнаруживаемого предмета. Заявленные Макроскопом 3% звучат, на первый взгляд, неплохо, но на деле 3% от кадра — это очень много:
Представьте себе чемодан такого размера.
Скрытый текстОни, конечно, разные бывают,
но всё же.
Фактически это означает, что обнаружение предметов этим детектором возможно только в непосредственной близости от объектива камеры.
Как следствие, если таким образом решать задачу эффективного обнаружения предметов на перроне — потребуется устанавливать видеокамеры через каждые 5-7 метров, что сделает стоимость решения заоблачным и не спасёт даже дешевизна детектора.
Но, что касается видеоаналитики, к Макроскопу тут претензий быть не может, так как видеоаналитика — это все же не их основная специализация.
Прежде всего, они создатели прекрасного масштабируемого ПО для видеонаблюдения, одной из ключевых особенностей которого является аккуратное отношение к ресурсоемкости процесса отображения и сохранения видеопотоков, что позволяет строить масштабируемые системы, не переплачивая за аппаратные ресурсы.
Поэтому посмотрим, что предлагают компании, специализирующиеся, в первую очередь, на разработке алгоритмов интеллектуального анализа видео.
- Синезис, одна из самых уважаемых компаний в данной области на российском рынке. На Хабре много публикаций Синезиса, из которых видно, что коллектив активно занимается задачами ситуационной видеоаналитики: предлагает широкий спектр классических детекторов, экспериментирует с поведенческим анализом, решает инженерные задачи в области компьютерного зрения.
В отличие от Макроскопа, Синезис приводит примеры работы детектора предметов уже в условиях метро.
Но, если объективно — это не реальные условия метро: в местах тестирования детектора безлюдно, никто не перекрывает предмет, и сам предмет контрастен, статистически сильно отличается от фона.
Обычно же ситуация в метро выглядит примерно так:
А иногда случается и такое:
Разница с демонстрируемым Синезисом видеороликом катастрофична.
Визуализация статистики даёт еще более наглядное представление о разнице:
Слева — статистическое отличие предмета от фона в видеоролике Синезиса, справа — отклонение от фона, обнаруживаемое детектором оставленных предметов «Видеоинтеллект» в реальной ситуации.
- Вокорд.
Опытная компания, 17 лет на рынке. По информации с их сайта, в штате трудятся 120 специалистов, 80% из которых “математики, разработчики, инженеры”
Судя по серьёзным человеческим и интеллектуальным ресурсам, уровень видеоаналитики также должен быть серьезный.
В составе продукта Vocord Tahion предлагается модуль “оставленных/унесенных предметов”. На youtube-канале компании есть пример работы модуля:
К сожалению, опять та же удручающая, очень простая для детектирования и не имеющая никакого отношения к реальности ситуация: ровный светлый пол, контрастная черная сумка и безлюдность.
Хотя, надо отдать должное, Вокорд, в отличие от Синезиса, имитировал частичное перекрытие объекта человеком. Но насколько такая постановка эксперимента отличается от реальности и какова полезность такого детектора в реальных условиях — можно даже не говорить.
Складывается впечатление, что крупные игроки, не имея возможности создать реально работающий алгоритм, вынуждены делать часть детекторов чисто для галочки, просто чтобы их продукт по формальному признаку соответствовал требованиям какого-либо тендера.
Зарубежные решения
Кто-нибудь скажет: «А почему вы только отечественных производителей рассматриваете, зарубежные, скорее всего, предлагают продукты более высокого класса».
Но, как ни удивительно, качество детекторов оставленных предметов зарубежных производителей находится ровно на том же уровне. Только просят они за них уже совсем другие деньги.
Например, детектор разработки израильской компании Agent Vi, считающийся одним из лучших на рынке, в рекламном видео демонстрирует следующие возможности:
Опять контрастный объект и никого кругом.
Стоимость этого детектора — более 45 000 руб за 1 канал видео.
Или вот детектор итальянской Technoaware, стоимостью около 30 000 руб за канал:
Возможности детектора снова практически идентичны всем вышеперечисленным.
Почему так и что же делать?
На этом месте пытливый ум предположит логичное: если даже лидеры отрасли, со штатом в сотни человек до сих пор не предложили рынку мало-мальски работающий в реальных условиях детектор оставленных предметов, то может быть это связано с какими-то объективными причинами? Как-то:
- Детектор оставленных предметов никому не нужен, поэтому никто не вкладывает средств в его разработку.
- Качественный детектор оставленных предметов невозможен на текущем уровне развития науки и техники. Лидеры рынка видеонаблюдения и так выжимают всё возможное из технологий.
Что касается первого предположения, то нет, функция обнаружения оставленного предмета актуальна и востребована.
Во-первых, в технических заданиях на системы интеллектуального видеонаблюдения для метро или вокзалов детекторы оставленных предметов часто прописаны явным образом. Деньги там обычно немалые, и за них идет серьезная борьба среди крупных интеграторов.
Но разработчики, тем не менее, почему-то не могут предложить работающий в реальных условиях вариант даже за деньги.
Во-вторых, и на потребительском рынке видеонаблюдения нормально работающий детектор также востребован.
В качестве подтверждения можно упомянуть масштабный конкурс на разработку алгоритмов видеоанализа, который в конце 2012 года проводила известная хабравчанам компания Ivideon, создатель самого успешного в мире сервиса облачного видеонаблюдения. В конкурсе были только три задачи, и одной из них как раз и был детектор оставленных предметов.
О конкурсе Ivideon
— детектор появления и исчезновения предмета/объекта в кадре. Очень хочется навести мышкой на грязную чашку на столе и найти момент в видеоархиве, когда она там появилась и кто её оставил!
Актуальность детектора для Ivideon, как провайдера сервиса облачного видеонаблюдения, понятна: хорошо работающий детектор оставленных предметов позволит предложить клиентам интересную функциональность, посредством которой можно следить за автомобилем или парковочным местом во дворе, за коляской или велосипедом в подъезде и др.
Но это возможно лишь при условии, что детектор обеспечит близкую к 100% вероятность детектирования ситуаций и, при этом, не будет “спамить” пользователя ложными срабатываниями. В противном случае функцию невозможно будет монетизировать, и, даже если предлагать ее бесплатно, как пиар-фичу, то велика вероятность, что она только навредит репутации, дискредитировав качество сервиса в глазах потребителей.
Актуальность детектора для Ivideon, как провайдера сервиса облачного видеонаблюдения, понятна: хорошо работающий детектор оставленных предметов позволит предложить клиентам интересную функциональность, посредством которой можно следить за автомобилем или парковочным местом во дворе, за коляской или велосипедом в подъезде и др.
Но это возможно лишь при условии, что детектор обеспечит близкую к 100% вероятность детектирования ситуаций и, при этом, не будет “спамить” пользователя ложными срабатываниями. В противном случае функцию невозможно будет монетизировать, и, даже если предлагать ее бесплатно, как пиар-фичу, то велика вероятность, что она только навредит репутации, дискредитировав качество сервиса в глазах потребителей.
Если принять во внимание, что спустя 3 полных года с момента проведения конкурса, Ivideon так и не предложил никаких новых функций видеоаналитики, можно сделать вывод, что успех в создании качественного детектора оставленных предметов достигнут не был.
Поэтому, возможно, что верно предположение №2, и обнаружение оставленных предметов в условиях метро или вокзалов — это принципиально нерешаемая сейчас задача. Кстати, некоторые, авторитетные и заслуженные в области видеоаналитики и видеонаблюдения компании, прямо об этом и говорят.
Мнение лидеров отрасли
Компания Спецлаб — пионер отрасли видеоаналитики и создатель, по их собственным словам, самого термина “видеоаналитика”, имеет следующее мнение, часто высказываемое в достаточно категоричной форме. Цитата:
(На видео этот момент с 15:47)
Или, компания ITV, входящая в десятку крупнейших игроков отрасли и являющаяся лидером российского рынка систем видеонаблюдения, также говорит, что есть объекты, где видеоаналитика не может эффективно работать, и что она вообще предназначена только для работы со стерильными зонами (с 11:22):
“Детектор оставленных предметов придумали мы десять лет назад, и он нигде никогда не работал за все десять лет назад, ни в одной компании, ни на одном объекте. Давайте оставим сказку, сказку про детектор оставленных предметов”.
(На видео этот момент с 15:47)
Или, компания ITV, входящая в десятку крупнейших игроков отрасли и являющаяся лидером российского рынка систем видеонаблюдения, также говорит, что есть объекты, где видеоаналитика не может эффективно работать, и что она вообще предназначена только для работы со стерильными зонами (с 11:22):
Но так ли это в действительности? Опыт показывает, что нет.
Мнение же крупных игроков рынка больше связано с несколько другими, различными для разных компаний, причинами: от простой конкурентной борьбы, до неприятия реальности — раз уж мы не смогли этого сделать за 20 лет работы, то значит это в принципе невозможно.
Вышеизложенное подводит нас к мысли о том, что будущее видеоаналитики именно за новыми творческими коллективами. Теми, которые не оглядываясь на сложившиеся стереотипы, будут стремиться искать новые подходы к решению задач видеоанализа.
Кстати, именно на это указывает количество публикаций на Хабре о новых разработках в области видеоаналитики, нейронных сетей и глубокого обучения. Подавляющее большинство из них написано молодыми коллективами и отдельными авторами. Наглядно видно, что именно они ищут новые технологические подходы и решения.
В подтверждение этого в следующей статье мы расскажем, какого результата можно достичь в задаче обнаружения оставленных предметов в реальных условиях интенсивных пассажиропотоков метро и что общего между ядерной физикой, кварк-глюонной плазмой и видеоаналитикой.