PashkovML 13 янв в 06:39

6 внутренних факторов, влияющих на эффективность распознавания лиц с видеокамер

Простой

6 мин

3.3K

Машинное обучение * Обработка изображений * Искусственный интеллектРабота с видео * Анализ и проектирование систем *

Кейс

Всем привет! В предыдущей статье я уже рассказывал о том, какие 8 внешних факторов могут влиять на скорость и точность работы систем распознавания лиц на видеопотоках. Сегодня речь пойдет о не менее важных внутренних аспектах — архитектуре системы и правильном выборе и настройке оборудования.

Вначале немного о том, как проводились испытания:

В 2023 году в процессе подготовки к двум проектам класса «‎Безопасный город» мы решили провести ряд специализированных испытаний в различных условиях уличной эксплуатации, чтобы выявить прямые и косвенные факторы, влияющие на результативность проектируемых систем.

В исследовании участвовало несколько компаний партнеров: ООО Тридиви, АО Папилон, ООО Квирит, В общей сложности из ~5 500 лиц прохожих было произведено 1 056 попыток идентификации участников по тестовой базе в 528 000 лиц. ООО Аркона, ООО Национальные технологии (ГК Ростех). — В исследовании участвовало несколько компаний партнеров: ООО Тридиви, АО Папилон, ООО Квирит, ООО Аркона, ООО Национальные технологии (ГК Ростех).

Испытания проводились с ноября 2023 по июль 2024 года в трех городах — Санкт-Петербурге, Москве и Челябинске, что позволило учесть различные климатические условия и сезонные изменения.
Использовались камеры с разными параметрами разрешения и углами обзора, а также проверялась высота установки (2-4 м) и места монтажа (например, опоры светофоров и общественного транспорта).
В общей сложности из ~5 500 лиц прохожих было произведено 1 056 попыток идентификации участников по базе в 528 000 лиц.

Подробнее об условиях испытаний вы можете прочесть в первой части статьи "8 внешних факторов, влияющих на эффективность распознавания лиц с видеокамер"

А теперь к результатам:

Внутренние факторы:

1. Пропускная способность сети

Степень влияния — низкая (4 потери на 1056 попытках).

Существующая городская инфраструктура может оказаться не готова к «прокачиванию»‎ основных (лучших по качеству и разрешению) потоков видео с большого количества камер до ЦОД. В итоге мы получаем пропуски кадров и кратковременные зависания видео. Были случаи, когда мы теряли не единичные кадры, а целые проходы людей.

2. Стабильность работы оборудования

Степень влияния — значимая (11 потерь на 1056 попытках).

При передаче потока с камеры до серверов видеоаналитики данные проходят через ряд устройств: саму камеру, POE-коммутатор, свитчи на пути в ЦОД, сервер видеозаписи, сервер видеоаналитики, сервер хранения векторов лиц и сбора результатов идентификации. Все это железо может дать сбой именно в тот момент, когда нужный нам человек окажется в поле зрения камеры и будет смотреть в ее сторону.

Пример изображения с камеры во время сбоев оборудования

3. Разрешение изображения с камеры

Степень влияния — значимая (22 потери на 1056 попытках).

Чем выше разрешение камеры, тем выше соблазн использовать ее для охвата наибольшей территории. Это приводит к тому, что относительный размер лиц становится меньше, добавляются искажения при приближении к краям кадра, а общее качество лиц «проседает». При увеличении разрешения начинает увеличиваться стоимость камеры, а еще добавляются затраты на инфраструктуру доставки потока в ЦОД и дисковое хранилище.

4. Качество матрицы камеры

Степень влияния — высокая (27 потерь на 1056 попытках).

Пока человек движется в поле зрения камеры, система отслеживает его лицо и ищет наилучшее изображение по углам наклона/поворота, размытости, расстоянию между глазами, освещенности и т.д. Анализу подвергаются от 15 до 30 кадров в секунду на протяжении нескольких секунд.

Чем крупнее физический размер матрицы и чем меньше разрешение изображения в пикселях (чем крупнее пиксели) — тем больше света придется на каждый пиксель при съемке. А значит изображение будет более светлое и менее зашумленное. Оптимальный размер матрицы для разрешения Full HD (1920x1080) составляет ≥ 1/2,5“ (0,4 дюйма).

Камеры эконом сегмента дают низкое качество изображений с матрицы (шумы и помехи). В итоге такие изображения могут быть отброшены алгоритмами оценки качества, а более подходящих кадров может и не появиться.

Сравнение изображений с камер с низким и высоким качеством матрицы, а также с разными размерами матриц камер.

К тому же матрицы более дешёвых камер могут раньше прийти в негодность, «подгорев» на солнце, что добавит дополнительные шумы и размытия на изображении, делая камеру бесполезной для распознавания лиц.

Пример изображения с дешёвой камеры, находящейся под прямым воздействием солнечных лучей

5. Производительность серверов видеоаналитики (перегрузка >80%)

Степень влияния — высокая.

Чем выше разрешение потока с камеры, больше людей на видео и больше потоков, поступающих на обработку, тем выше нагрузка на вычислители. Защита от падений при пиковых нагрузках заключается в том, что вместо полного прекращения работы система начинает отбрасывать часть подаваемых на анализ кадров. Это сохраняет ее работоспособность, но может приводить к тому, что удачные ракурсы лиц будут попросту исключены из анализа. В таблице ниже видно, что наращивание числа видеопотоков на сервер в какой-то момент начинает приводить к снижению FPS (числа кадров в секунду) с 25 до 17, а следовательно начинает падать и общее число идентификаций с 235 до 196.

6. Качество эталонных фото в базе

Степень влияния — высокая (31 ложная сработка на 1056 попытках).

Практика показывает, что если база сформирована из изображений лиц с качеством NIST Visa/Border, а с видеокамер приходят изображения лиц с качеством NIST Mugshot/Wild, то система будет работать эффективно и идентификации будут надежными. Если же в базе фото имеют качество приближенное к NIST Mugshot/Wild и хуже, то система будет выдавать больше ложных срабатываний.

Проверить качество можно с помощью автоматизированных сервисов, которые предоставляют вендоры систем распознавания лиц из списка NIST FATE Quality.

Пример оценки пригодности фото. — Пример сервиса оценки пригодности фото для использования в системе распознавания лиц

Как управлять внутренними факторами?

Влияние 6 внутренних факторов на эффективность систем распознавания лиц по видео

Следите за качеством эталонных фото в базе, иначе повышается вероятность ложных идентификаций или пропусков.
У спецслужб нет ресурса на отработку ложных идентификаций, поэтому принцип «‎не распознали на этой камере, распознаем на другой» позволяет повысить порог уверенности идентификации и, таким образом, сократить количество ложных сработок и не дискредитировать систему. Рекомендованный порог уверенности идентификации устанавливается так, чтобы сократить количество ложных сработок на базах более 500 000 лиц. Нужно оценить, какое количество людей будет проходить перед камерой в сутки, и решить, на какое количество ложных сработок будут готовы отреагировать пользователи (охрана, спецслужбы). Воспользовавшись графиком соотношения FAR/FRR (Вероятность ложной идентификации постороннего / Вероятность ложного пропуска искомого), который есть у каждого вендора алгоритмов распознавания лиц, можно выбрать оптимальный порог. Например, в наших испытаниях мы устанавливали порог 88%
График соотношения FAR/FRR (Вероятность ложной идентификации чужого / Вероятность ложного пропуска искомого).
Высокое разрешение изображения с камеры не так важно. Лучше взять специализированную длиннофокусную камеру с меньшим выходным разрешением, но обеспечить крупные лица в кадре. Это сократит потребность в пропускной способности сети, потребность в дисковом пространстве для хранения видео и потребность в серверных мощностях для видеоаналитики.
Проверить пригодность камеры для применения в задачах распознавания можно при помощи автоматизированных сревисов. Такие сервисы предоставляют вендоры систем распознавания лиц из списка NIST FATE Quality.
Пример сервиса оценки пригодности камеры для использования в системе распознавания лиц
Видео лучше обрабатывать на периферии (непосредственно на перекрёстках в местах установки камер) специализированными edge-устройствами вместо передачи «богатого потока» в ЦОД. Так сокращается риск потерь идентификаций из-за сбоев при передаче данных, сокращаются затраты на строительство и содержание линий связи, коммутационное оборудование, а также затраты на длительное хранение видео в ЦОД.
В 2024 году МинПромТорг субсидировал производство промышленных компьютеров для использования в IoT при организации edge-архитектуры. В 2025 году мы ждем выхода в свет таких отечественных пыле- и влагозащищенные вычислительных блоков с графическими ускорителями, чтобы применять в задачах класса "Безопасный / умный город".
А для подтверждения гипотезы на время испытаний мы собирали утеплённый шкаф с вычислительным блоком от Nvidia.
Утеплённый шкаф с edge-устройством для обработки видео на периферии.

Заключение

Даже самую лучшую и "оскароносную" систему распознавания лиц можно сделать неэффективной, если не подходить комплексно к выбору и настройке всех компонентов, включая камеры, сервер видеоаналитики и сервера хранения данных.

Надеюсь, что результаты и материалы исследования помогут интеграторам систем видеонаблюдения с распознаванием лиц избежать ненужных ошибок при проектировании, монтаже и эксплуатации таких систем.

Хабы: