Всем привет! В предыдущей статье я уже рассказывал о том, какие 8 внешних факторов могут влиять на скорость и точность работы систем распознавания лиц на видеопотоках. Сегодня речь пойдет о не менее важных внутренних аспектах — архитектуре системы и правильном выборе и настройке оборудования.
Вначале немного о том, как проводились испытания:
В 2023 году в процессе подготовки к двум проектам класса «Безопасный город» мы решили провести ряд специализированных испытаний в различных условиях уличной эксплуатации, чтобы выявить прямые и косвенные факторы, влияющие на результативность проектируемых систем.

Испытания проводились с ноября 2023 по июль 2024 года в трех городах — Санкт-Петербурге, Москве и Челябинске, что позволило учесть различные климатические условия и сезонные изменения.
Использовались камеры с разными параметрами разрешения и углами обзора, а также проверялась высота установки (2-4 м) и места монтажа (например, опоры светофоров и общественного транспорта).
В общей сложности из ~5 500 лиц прохожих было произведено 1 056 попыток идентификации участников по базе в 528 000 лиц.
Подробнее об условиях испытаний вы можете прочесть в первой части статьи "8 внешних факторов, влияющих на эффективность распознавания лиц с видеокамер"
А теперь к результатам:
Внутренние факторы:
1. Пропускная способность сети
Степень влияния — низкая (4 потери на 1056 попытках).
Существующая городская инфраструктура может оказаться не готова к «прокачиванию» основных (лучших по качеству и разрешению) потоков видео с большого количества камер до ЦОД. В итоге мы получаем пропуски кадров и кратковременные зависания видео. Были случаи, когда мы теряли не единичные кадры, а целые проходы людей.
2. Стабильность работы оборудования
Степень влияния — значимая (11 потерь на 1056 попытках).
При передаче потока с камеры до серверов видеоаналитики данные проходят через ряд устройств: саму камеру, POE-коммутатор, свитчи на пути в ЦОД, сервер видеозаписи, сервер видеоаналитики, сервер хранения векторов лиц и сбора результатов идентификации. Все это железо может дать сбой именно в тот момент, когда нужный нам человек окажется в поле зрения камеры и будет смотреть в ее сторону.

3. Разрешение изображения с камеры
Степень влияния — значимая (22 потери на 1056 попытках).
Чем выше разрешение камеры, тем выше соблазн использовать ее для охвата наибольшей территории. Это приводит к тому, что относительный размер лиц становится меньше, добавляются искажения при приближении к краям кадра, а общее качество лиц «проседает». При увеличении разрешения начинает увеличиваться стоимость камеры, а еще добавляются затраты на инфраструктуру доставки потока в ЦОД и дисковое хранилище.


4. Качество матрицы камеры
Степень влияния — высокая (27 потерь на 1056 попытках).
Пока человек движется в поле зрения камеры, система отслеживает его лицо и ищет наилучшее изображение по углам наклона/поворота, размытости, расстоянию между глазами, освещенности и т.д. Анализу подвергаются от 15 до 30 кадров в секунду на протяжении нескольких секунд.
Чем крупнее физический размер матрицы и чем меньше разрешение изображения в пикселях (чем крупнее пиксели) — тем больше света придется на каждый пиксель при съемке. А значит изображение будет более светлое и менее зашумленное. Оптимальный размер матрицы для разрешения Full HD (1920x1080) составляет ≥ 1/2,5“ (0,4 дюйма).
Камеры эконом сегмента дают низкое качество изображений с матрицы (шумы и помехи). В итоге такие изображения могут быть отброшены алгоритмами оценки качества, а более подходящих кадров может и не появиться.

К тому же матрицы более дешёвых камер могут раньше прийти в негодность, «подгорев» на солнце, что добавит дополнительные шумы и размытия на изображении, делая камеру бесполезной для распознавания лиц.

5. Производительность серверов видеоаналитики (перегрузка >80%)
Степень влияния — высокая.
Чем выше разрешение потока с камеры, больше людей на видео и больше потоков, поступающих на обработку, тем выше нагрузка на вычислители. Защита от падений при пиковых нагрузках заключается в том, что вместо полного прекращения работы система начинает отбрасывать часть подаваемых на анализ кадров. Это сохраняет ее работоспособность, но может приводить к тому, что удачные ракурсы лиц будут попросту исключены из анализа. В таблице ниже видно, что наращивание числа видеопотоков на сервер в какой-то момент начинает приводить к снижению FPS (числа кадров в секунду) с 25 до 17, а следовательно начинает падать и общее число идентификаций с 235 до 196.

6. Качество эталонных фото в базе
Степень влияния — высокая (31 ложная сработка на 1056 попытках).
Практика показывает, что если база сформирована из изображений лиц с качеством NIST Visa/Border, а с видеокамер приходят изображения лиц с качеством NIST Mugshot/Wild, то система будет работать эффективно и идентификации будут надежными. Если же в базе фото имеют качество приближенное к NIST Mugshot/Wild и хуже, то система будет выдавать больше ложных срабатываний.
Проверить качество можно с помощью автоматизированных сервисов, которые предоставляют вендоры систем распознавания лиц из списка NIST FATE Quality.

Как управлять внутренними факторами?

Следите за качеством эталонных фото в базе, иначе повышается вероятность ложных идентификаций или пропусков.
У спецслужб нет ресурса на отработку ложных идентификаций, поэтому принцип «не распознали на этой камере, распознаем на другой» позволяет повысить порог уверенности идентификации и, таким образом, сократить количество ложных сработок и не дискредитировать систему. Рекомендованный порог уверенности идентификации устанавливается так, чтобы сократить количество ложных сработок на базах более 500 000 лиц. Нужно оценить, какое количество людей будет проходить перед камерой в сутки, и решить, на какое количество ложных сработок будут готовы отреагировать пользователи (охрана, спецслужбы). Воспользовавшись графиком соотношения FAR/FRR (Вероятность ложной идентификации постороннего / Вероятность ложного пропуска искомого), который есть у каждого вендора алгоритмов распознавания лиц, можно выбрать оптимальный порог. Например, в наших испытаниях мы устанавливали порог 88%
График соотношения FAR/FRR (Вероятность ложной идентификации чужого / Вероятность ложного пропуска искомого). Высокое разрешение изображения с камеры не так важно. Лучше взять специализированную длиннофокусную камеру с меньшим выходным разрешением, но обеспечить крупные лица в кадре. Это сократит потребность в пропускной способности сети, потребность в дисковом пространстве для хранения видео и потребность в серверных мощностях для видеоаналитики.
Проверить пригодность камеры для применения в задачах распознавания можно при помощи автоматизированных сревисов. Такие сервисы предоставляют вендоры систем распознавания лиц из списка NIST FATE Quality.
Пример сервиса оценки пригодности камеры для использования в системе распознавания лиц Видео лучше обрабатывать на периферии (непосредственно на перекрёстках в местах установки камер) специализированными edge-устройствами вместо передачи «богатого потока» в ЦОД. Так сокращается риск потерь идентификаций из-за сбоев при передаче данных, сокращаются затраты на строительство и содержание линий связи, коммутационное оборудование, а также затраты на длительное хранение видео в ЦОД.
В 2024 году МинПромТорг субсидировал производство промышленных компьютеров для использования в IoT при организации edge-архитектуры. В 2025 году мы ждем выхода в свет таких отечественных пыле- и влагозащищенные вычислительных блоков с графическими ускорителями, чтобы применять в задачах класса "Безопасный / умный город".
А для подтверждения гипотезы на время испытаний мы собирали утеплённый шкаф с вычислительным блоком от Nvidia.
Утеплённый шкаф с edge-устройством для обработки видео на периферии.
Заключение
Даже самую лучшую и "оскароносную" систему распознавания лиц можно сделать неэффективной, если не подходить комплексно к выбору и настройке всех компонентов, включая камеры, сервер видеоаналитики и сервера хранения данных.
Надеюсь, что результаты и материалы исследования помогут интеграторам систем видеонаблюдения с распознаванием лиц избежать ненужных ошибок при проектировании, монтаже и эксплуатации таких систем.