Функция наведения камеры по голосу стала доступней — универсальное решение SmartCam A12 Voice Tracking

    Тема отслеживания говорящего участника видеоконференции, за последние несколько лет, сильно набрала обороты. Технологии позволили реализовать сложные алгоритмы обработки аудио/видео-информации в реальном времени, что побудило компанию Polycom, почти 10 лет назад, представить миру первое массовое решение с интеллектуальным автоматическим отслеживанием докладчика. Несколько лет им удавалось оставаться единственными обладателями подобного решения, но Cisco не заставили себя долго ждать, и вывели на рынок свой вариант интеллектуальной двухкамерной системы, которая составила честную конкуренцию решению от Polycom. Много лет этот сегмент ВКС был ограничен возможностями нескольких проприетарных продуктов, но эта статья посвящается первому универсальному решению наведения камеры по голосу, совместимому как с аппаратной, так и с программной инфраструктурой ВКС.
    Прежде чем перейти к описанию решений и демонстрации возможностей, я хочу отметить важное событие:
    Я удостоен чести представить хабра-сообществу новый хаб, посвящённый решениям видеоконференцсвязи (ВКС). Теперь, благодаря совместным усилиям (моим и НЛО), Видеоконференцсвязь имеет свой дом на Хабре, и я приглашаю всех вовлечённых в эту обширную и актуальную на сегодняшний день тему подписываться на новый хаб.

    Два сценария наведения камеры на докладчика


    На данный момент интеграторы решений ВКС выбирают для себя два различных пути реализации задачи наведения на докладчика:

    1. Автоматический — интеллектуальный
    2. Полуавтоматический — программируемый

    Первый вариант — это как раз решения от Cisco, Polycom и прочих производителей, их рассмотрим ниже. Здесь мы имеем дело с полной автоматизацией наведения камеры на говорящего участника видеоконференции. Уникальные алгоритмы обработки аудио/видео-сигналов позволяют камере выбрать необходимое положение самостоятельно.

    Второй вариант — это системы автоматизации на базе различных внешних контроллеров управления, их мы рассматривать подробно не будем, т.к. статья посвящается как раз автоматическому отслеживанию докладчиков.
    Сторонников второго сценария реализации наведения камеры не мало, и тому есть причины. Бывалые интеграторы понимают, что интеллектуальные решения Polycom и Cisco требуют идеальных условий эксплуатации для штатной работы автоматики. Но такие условия обеспечить не всегда возможно, поэтому гарантией работы системы иногда становится следующее решение задачи наведения камеры:

    1. В памяти камеры (или иногда в контроллер управления) заранее вручную заносятся все необходимые пресеты (положения поворотного устройства и кратность оптического увеличения). Как правило, это общий план переговорной комнаты, и вид каждого участника конференции в портретном режиме.

    2. Далее, в заданные места устанавливаются инициаторы вызова необходимого пресета — это либо микрофонные пульты, либо радио-кнопки, в общем любое устройство, способное подать контроллеру управления понятный ему сигнал.

    3. Контроллер управления программируется таким образом, что каждому инициатору соответствует свой пресет. Общий план помещения — все инициаторы выключены.
    В итоге, при использовании конгресс-системы, например, и контроллера управления, докладчик прежде чем начать свою речь, активирует свой персональный микрофонный пульт. Система управления моментально отрабатывает сохранённое положение камеры.

    Этот сценарий работает безотказно — системе не нужно производить голосовую триангуляцию и видеоаналитику. Нажал кнопку — сработал пресет, никаких задержек и ложных срабатываний.
    Системы управления и автоматизации применяются в больших, сложных помещениях, где порой установлено не одна, а несколько видеокамер. Ну а для малых и средних переговорных комнат вполне подходят автоматические системы (если есть бюджет).
    Начнём с отцов-основателей.

    Polycom EagleEye Director


    Когда-то это решение произвело сенсацию в области видеоконференцсвязи. Polycom EagleEye Director стал первым решением в области интеллектуального наведения камеры. Решение состоит из базового блока EagleEye Director и двух камер. Особенностью той первой реализации является то, что одна камера отводится только на крупный вид докладчика, а вторая — на общий план переговорной комнаты. При этом, камеру общего плана можно разместить вообще отдельно от базы в другом месте переговорной комнаты — она не участвует напрямую в процессе автоматического наведения.
    Работает система следующим образом:

    1. Активна камера общего плана помещения — все молчат
    2. Докладчик начинает говорить — микрофонный массив улавливает голос, камера движется в сторону звука, используя запатентованную технологию, включающую триангуляцию голоса. Активна всё ещё камера общего плана
    3. Основная камера пока только начинает искать источник звука, проводя видеоаналитику. Система определяет говорящего по связке глаза-нос-рот, кадрирует картинку с докладчиком и выводит на экран поток с основной камеры
    4. Докладчик меняется. Микрофонный массив понимает, что голос раздаётся из другого места. Снова включается общий план.
    5. И далее по кругу, начиная с пункта 2
    6. Если же новый докладчик находится в кадре с предыдущим, система производит смену позиционирования «на горячую», не меняя активный поток на общий план.

    Минусом, на мой взгляд, является наличие только одной основной камеры. Это приводит к существенной задержке при смене докладчика. И каждый раз в момент наведения система включает общий план помещения — при оживлённой беседе это мелькание начинает раздражать.



    Polycom EagleEye Director II


    Это вторая версия решения от Polycom, увидевшего свет сравнительно недавно. Принцип работы претерпел изменения, и стал больше походить на решение от Cisco. Теперь обе PTZ-камеры являются основными и служат для бесшовного переключения каналов с одного докладчика на другого. За общий план переговорной комнаты теперь отвечает отдельная камера, интегрированная в корпус базового блока EagleEye Director II. Поток с этой широкоугольной камеры зачем-то отображается в дополнительном окне в углу экрана, занимая 1/9 основного потока. Принцип позиционирования тот же — голосовая триангуляция и анализ видеопотока. И узкие места те же: если система не увидит говорящий рот — камера не наведётся. А такая ситуация может произойти весьма часто — докладчик отвернулся, докладчик повернулся боком, докладчик — чревовещатель, докладчик заслонил рот рукой или документом.
    Оба промо-ролика сняты грамотно — 2 человека, говорят по очереди, а рот открывают как на приёме у логопеда. Но даже в таких рафинированных условиях наблюдается весьма существенная задержка. Но, зато кадрирование безупречно — комфортный портретный план.



    Cisco TelePresence SpeakerTrack 60


    Для описания этого решения я воспользуюсь текстом из официальной брошюры.
    В SpeakerTrack 60 применяется уникальный подход с использованием двух камер для быстрого прямого переключения между участниками. Одна камера быстро находит крупный план активного докладчика, а другая ищет и отображает следующего докладчика. Функция MultiSpeaker предотвращает ненужное переключение, если следующий докладчик уже присутствует в текущем кадре.
    К сожалению, у меня не было возможности протестировать SpeakerTrack 60 самостоятельно. Поэтому выводы приходится делать по мнению «с полей» и по результатам разбора демонстрационного видео ниже. Насчитал максимальную задержку почти 8 секунд при наведении на нового докладчика. Средняя задержка составила 2-3 секунды, судя по видео.



    HUAWEI Intelligent Tracking Video Camera VPT300


    На это решение от Huawei я наткнулся случайно. Стоимость системы составляет около $9K. Работает только с терминалами Huawei. Разработчики добавили свою «фишку» — компоновка на один экран видео от двух докладчиков, если в комнате больше никого нет. По характеристикам и заявленному функционалу — это очень интересный вариант системы автоматического наведения. Но, к сожалению, я не нашёл абсолютно никакого демонстрационного материала. Единственный ролик, который выпал на эту тему — это монтированный видео обзор решения, без оригинального звука, под музыку. Таким образом, оценить качество работы системы не представилось возможным. По этой причине я не буду рассматривать это вариант.
    Я вижу, что компания Huawei имеет действующий блог на Хабре — может быть коллеги смогут обнародовать какую-либо полезную информации по этому продукту.

    Новинка — универсальное решение SmartCam A12 Voice Tracking


    SmartCam A12VT — моноблок, включающий две PTZ-камеры для отслеживания докладчиков, две встроенные камеры для аналитики общего плана помещения, а также микрофонный массив, встроенный в основание корпуса — как видите нет никаких громоздких и хрупких конструкций, как у оппонентов.
    Прежде чем приступить к описанию нового продукта, я соберу воедино характеристики и особенности решений от Cisco и Polycom, чтобы можно было сравнить SmartCam A12VT с существующими предложениями.

    Polycom EagleEye Director

    • Розничная стоимость системы без терминала — $13K
    • Минимальная стоимость решения EagleEye Director + RealPresence Group 500 — $19K
    • Средняя задержка на переключение 3 секунды
    • Наведение по голосу + видеоаналитика
    • Высокие требования к лицу докладчика — нельзя прятать рот
    • Несовместимость с оборудованием сторонних производителей


    Cisco TelePresence SpeakerTrack 60

    • Розничная стоимость системы без терминала — $15,9K
    • Минимальная стоимость решения TelePresence SpeakerTrack 60 + SX80 Codec — $30K
    • Средняя задержка на переключение 3 секунды
    • Наведение по голосу + видеоаналитика
    • Требования к лицу докладчика — не проверял, информации не нашёл
    • Несовместимость с оборудованием сторонних производителей


    SmartCam A12 Voice Tracking

    • Розничная стоимость системы без терминала — $6,2K
    • Минимальная стоимость решения SmartCam A12VT + Yealink VC880$10.8K
    • Минимальная стоимость решения SmartCam A12VT+ программный терминал$7,7K
    • Средняя задержка на переключение 3 секунды
    • Наведение по голосу + видеоаналитика
    • Требования к лицу докладчика — требований нет
    • Совместимость с оборудованием сторонних производителей — HDMI


    В качестве двух основных и неоспоримых преимуществ решения SmartCam A12 Voice Tracking я нахожу:

    1. Универсальность подключения — через HDMI система интегрируется как с аппаратными, так и с программными терминальными системами ВКС
    2. Низкая стоимость — при аналогичном функционале, A12VT в разы доступней по бюджету, чем вышеописанные предложения.


    Для демонстрации работы системы мы записали видео обзор. Задача стояла не столько рекламная, сколько функциональная. Поэтому ролик лишён пафоса поликомовского промо-видео. В качестве места проведения презентации была выбрана не представительская, а лабораторная переговорная комната нашего партнёра — компании АйПиМатика.
    У меня была цель не скрыть огрехи системы, а напротив — обнажить узкие места функционала, заставить систему ошибиться.



    На мой взгляд, система прошла испытания успешно. Я заявляю это уверенно, потому что на момент написания этой статьи, решение SmartCam A12 Voice Tracking посетило десяток реальных переговорных комнат наших заказчиков. Нарушение работы автоматики наблюдались исключительно в условиях нарушения рекомендованных правил эксплуатации. В частности — минимального расстояния до ближних участников. Если сидеть совсем близко к камере, меньше метра — микрофонный массив не сможет Вас распознать, а объектив отследить.



    Помимо расстояния, есть ещё другое требование — высота установки камеры.



    Если камеру установить слишком низко — могут возникнуть проблемы с позиционированием по голосу. Вариант под телевизором, к сожалению, не сработал.
    А вот монтаж системы над средством отображения — идеальный вариант работы устройства. Полка для камеры идёт в комплекте, штатно поддерживается только настенное крепление.

    Принцип работы SmartCam A12 Voice Tracking


    Основные PTZ-объективы имеют равные роли — их задача поочерёдно отслеживать докладчиков и отображать общий план. Аналитика общей картины в комнате и определение расстояния до объектов производится с использованием видео потоков, полученных с двух камер, интегрированных в основание системы. Эта особенность позволяет сократить время реакции объектива, при смене докладчика, до 1-2 секунд. Камера успевает в комфортном ритме чередовать участников, даже если они обмениваются короткими предложениями.
    Видео-демонстрация работы системы в полной мере отражает функциональные возможности SmartCam A12VT. Но, для тех кто не смотрел ролик, я словами опишу принцип работы автоматики:

    1. Комната пуста: один из объективов показывает общий план, второй на готове — ждёт людей
    2. Люди входят в комнату и рассаживаются: свободный объектив находит двух крайних участников и кадрирует изображение по ним, обрезая пустую часть комнаты
    3. Пока люди в движении, объективы по очереди отслеживают всех в комнате, сохраняя их в центре кадра
    4. Докладчик начинает говорить: активен объектив, настроенный на общий план. Второй наводится на говорящего, а лишь затем переходит в режим трансляции
    5. Докладчик меняется: активен объектив, настроенный на первого докладчика, а второй объектив бросает общий план и настраивается на нового докладчика
    6. В момент переключения картинки с первого докладчика на второго, свободный объектив моментально настраивается на общий план помещения
    7. Если все умолкнут — свободный объектив покажет уже готовый общий план без каких-либо задержек
    8. Если же докладчик сменится вновь — свободный объектив отправится на его поиски


    Заключение


    На мой взгляд, это решение, представленное на ISE и ISR в прошлом году, делает высокие технологии ближе — если не к народу, то к бизнесу точно. Понятное дело, что за 400 тысяч рублей, мало кто купит домой такую «игрушку», но для бизнеса, для корпоративной видеоконференцсвязи — это весьма доступное и удобное решение задачи автонаведения камеры.
    Учитывая универсальность SmartCam A12 Voice Tracking, систему можно использовать в качестве решения с нуля, или в качестве расширения функционала уже существующей инфраструктуры ВКС. Подключение по HDMI — это большой шаг в сторону пользователя, в отличие от проприетарных систем вышеописанных производителей.

    Хочу поблагодарить партнёров, оказавших помощь в тестировании.
    Компанию АйПиМатика — за терминал Yealink VC880, переговорную комнату и Якушина Юру.
    Компанию Смарт-АВ — за право первого и эксклюзивного обзора решения и предоставление системы SmartCam A12 Voice Tracking на тестирование.

    В прошлой статье Онлайн-конструктор переговорной комнаты — подбор оптимального решения ВКС, в качестве продвижения сайта vc4u.ru и Конструктора ВКС мы объявляли о скидке 10% от цены в каталоге по кодовому слову HABR до конца лета 2019 года.

    Скидка распространяется на товары в разделах:



    На решение SmartCam A12 Voice Tracking предлагаю дополнительную скидку 5% к уже имеющимся 10% — итого 15% до конца лета 2019 года.

    Жду Ваших комментариев и ответов в опросе!

    Спасибо за внимание.
    С уважением,
    Кирилл Усиков (Usikoff)
    Руководитель направления
    Системы видеонаблюдения и видеоконференцсвязи
    1@stss.ru
    stss.ru
    vc4u.ru

    Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

    Насколько полезна система SmartCam A12 Voice Tracking?

    STSS
    108,52
    STSS — отечественный производитель и интегратор
    Поделиться публикацией

    Комментарии 5

      0
      С таким кадрированием непонятно где применять это решение. В маленьких переговорках(как на видео) с таким кадрированием нет нужды в трекинге говорящего, а в больших говорящий окажется мелковат. Тогда как решения конкурентов прекрасно справляются с этим за счёт продвинутой оптики в камерах. Посмотрите на эти
      скриншоты из демо-видео:
      image
      image

        +2
        Спасибо за отзыв! Оптика в этом решении не менее продвинута, да и аналитика с использованием бинокулярного видео потока работает прекрасно. Мелкое кадрирование вызвано тем, что мы использовали камеру в маленьком помещении, я неоднократно говорил это во время демонстрации. До экрана было всего 2 метра, а в ролике Polycom участники находились на вдвое большем расстоянии от камеры. Стоило нам удалиться на рекомендуемое расстояние — более 2 метров, то мы получили уже совсем другой результат:
        Кадр из демонстрации - участник на расстоянии более 2 метров
        image
        Как я уже писал — ролик не рекламный. Возможно следовало сделать промо-материал с идеальными условиями и кадрированием как у Polycom, но задача стояла другая — Вы увидели все возможности и особенности.
        EagleEye Director тоже не так идеален на ближнем расстоянии
        image

        +1
        Что-то с точки зрения современного софта и железа — слишком дорого, да и не слишком сложно технически такое сделать.
        3 секунды на переключение — это тоже не проблема с железом, а лишь больше защита от шумов и мельканий картинки.
        Но для бизнеса, особенно, далёкого от IT, как я понимаю, нормально и даже очень дёшево.
          0
          У нас в переговорках подобные. Крипово и неудобно, честно говоря. Уж лучше бы просто на видеопотоке подсвечивали кто именно говорит. Как игрушках иконка динамика над говорящим игроком.
            +1
            Интересное мнение! А можете уточнить — какое именно решение у Вас в переговорке? А на счет подсветки — это не тот эффект. Вся задумка не только в том, чтобы показать кто говорит, но и сделать его изображение крупным, как при личном общении — это и есть смысл телеприсутствия.

          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

          Самое читаемое