Nazar_kh 9 сен 2019 в 17:50

Нейронные сети для трекинга рук в режиме реального времени

4 мин

26K

Искусственный интеллектМашинное обучение*

Из песочницы

+34

Комментарии 11

НЛО прилетело и опубликовало эту надпись здесь

Nazar_kh 9 сен 2019 в 22:54

Видел пару работ (например тут и тут, но все они основаны на мультиклассовой классификации где CNN обучают по всему изображению c жестом выдавать, например, какая это буква.

Проблема в таком подходе в том, что если нужно будет добавить еще какой-то жест — нужно будет сначала собрать много изображений с этим жестом и переобучить заново всю сеть. И чем больше возможных классов тем ниже точность соответственно.
Это частично решается с помощью one-shot lerning где проблема сводиться к бинарной классификации.

Но есть еще момент в том, что многие слова на язык жестов — это не просто жесты, а движения (то есть важно видеть последовательность кадров)

А вот с подходом описанным в статье можно оперировать массивом ключевых точек в 3D пространстве и с предыдущих кадров также, что делает относительно несложным добавление новых жестов и при этом никак не влияя на точность и скорость. Но работ с реализацией пока не находил)

LaG1924 10 сен 2019 в 08:51

На мобилках не успевает быстро-движущуюся руку отслеживать. А если попробовать это на десктопе? Насколько мне известно, существующие аналоги либо дорогие, либо имеют малую рабочую зону, либо очень посредственной точности, либо комбинации вышеперечисленного, а тут вроде что-то точное и дешевое (по цене одной вебки, но неуверен насчет стоимости железа для работы нейросети).

allerria 10 сен 2019 в 10:12

iphone XR, XS работают с нейросетями достаточно быстро, может быть, на ниъ получится.

vashanin 10 сен 2019 в 12:56

Зависит от выбора архитектуры сеток. Если говорить о CNN архитектурах — eсть тяжелые с большим количеством параметров, такие как VGG-16, AlexNet и т.п. Последние, возможно, будуть давать немного лучшую точность, но в риал-тайме смогут работать только на дорогом железе, и уж явно не на мобильных устройствах. Но в последнее время появились относительно лёгкие архитектуры MobileNet и MobileNetV2, которые используют depthwise convolution блоки — что позволяет в разы сократить количество тренируемых параметров. Такие нейронки могут бежать уже и на мобильных устройствах при достаточно годном значении FPS и достойной точностью. Если говорить о последних версиях iPhone — там вообще можно добиться 30+ FPS (только при этом заряд батареи будет уходить так же стремительно xD). Да и на более-менее новых телефонах средней ценовой категории тоже можно добиться неплохих метрик.

rPman 10 сен 2019 в 19:03

Плохое распознование это у вас засветка от окна, настройте автоуровень яркости или прогоните через какой нибудь фильтр изображение.

Nazar_kh 11 сен 2019 в 16:30

Вот тест на однородном фоне, так что проблема все же в производительности) Тест уже на телефоне помощнее — Xiaomi Mi A2

rPman 12 сен 2019 в 19:26

Это не модель виновата а камера, сенсор медленный изображение смазано…

Можно конечно попытаться убрать этот смаз, на хабре были статьи про это, но лучше подать больше света, использовать дополнительный объектив большего диаметра или вообще сменить камеру на лучше.

-1

dim2r 10 сен 2019 в 20:58

подскажите, как можно распознать положение тела? мне интересны 2 положения — стоя и лежа.

rPman 10 сен 2019 в 21:13

Без нейронной сети — определяйте тело по движению (различия между предыдущими кадрами или специально подготовленными на базе круглосуточных записей, чтобы день/ночь учесть) а дальше все просто — сравниваете габариты по горизонтали и вертикали.

vashanin 10 сен 2019 в 22:16

Есть претрейненная модель, которая называется PoseNet. Она позволяет трекать ключевые точки на теле человека. Ну а исходя их взаимного положения этих точек можно определять непосредственно положение тела.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Нейронные сети для трекинга рук в режиме реального времени

Комментарии 11

Публикации

Истории