Nazar_kh Sep 9 2019 at 14:50

Нейронные сети для трекинга рук в режиме реального времени

4 min

30K

Artificial IntelligenceMachine learning *

From sandbox

+31

Comments 11

UFO landed and left these words here

Nazar_kh Sep 9 2019 at 19:54

Видел пару работ (например тут и тут, но все они основаны на мультиклассовой классификации где CNN обучают по всему изображению c жестом выдавать, например, какая это буква.

Проблема в таком подходе в том, что если нужно будет добавить еще какой-то жест — нужно будет сначала собрать много изображений с этим жестом и переобучить заново всю сеть. И чем больше возможных классов тем ниже точность соответственно.
Это частично решается с помощью one-shot lerning где проблема сводиться к бинарной классификации.

Но есть еще момент в том, что многие слова на язык жестов — это не просто жесты, а движения (то есть важно видеть последовательность кадров)

А вот с подходом описанным в статье можно оперировать массивом ключевых точек в 3D пространстве и с предыдущих кадров также, что делает относительно несложным добавление новых жестов и при этом никак не влияя на точность и скорость. Но работ с реализацией пока не находил)

LaG1924 Sep 10 2019 at 05:51

На мобилках не успевает быстро-движущуюся руку отслеживать. А если попробовать это на десктопе? Насколько мне известно, существующие аналоги либо дорогие, либо имеют малую рабочую зону, либо очень посредственной точности, либо комбинации вышеперечисленного, а тут вроде что-то точное и дешевое (по цене одной вебки, но неуверен насчет стоимости железа для работы нейросети).

allerria Sep 10 2019 at 07:12

iphone XR, XS работают с нейросетями достаточно быстро, может быть, на ниъ получится.

vashanin Sep 10 2019 at 09:56

Зависит от выбора архитектуры сеток. Если говорить о CNN архитектурах — eсть тяжелые с большим количеством параметров, такие как VGG-16, AlexNet и т.п. Последние, возможно, будуть давать немного лучшую точность, но в риал-тайме смогут работать только на дорогом железе, и уж явно не на мобильных устройствах. Но в последнее время появились относительно лёгкие архитектуры MobileNet и MobileNetV2, которые используют depthwise convolution блоки — что позволяет в разы сократить количество тренируемых параметров. Такие нейронки могут бежать уже и на мобильных устройствах при достаточно годном значении FPS и достойной точностью. Если говорить о последних версиях iPhone — там вообще можно добиться 30+ FPS (только при этом заряд батареи будет уходить так же стремительно xD). Да и на более-менее новых телефонах средней ценовой категории тоже можно добиться неплохих метрик.

rPman Sep 10 2019 at 16:03

Плохое распознование это у вас засветка от окна, настройте автоуровень яркости или прогоните через какой нибудь фильтр изображение.

Nazar_kh Sep 11 2019 at 13:30

Вот тест на однородном фоне, так что проблема все же в производительности) Тест уже на телефоне помощнее — Xiaomi Mi A2

rPman Sep 12 2019 at 16:26

Это не модель виновата а камера, сенсор медленный изображение смазано…

Можно конечно попытаться убрать этот смаз, на хабре были статьи про это, но лучше подать больше света, использовать дополнительный объектив большего диаметра или вообще сменить камеру на лучше.

dim2r Sep 10 2019 at 17:58

подскажите, как можно распознать положение тела? мне интересны 2 положения — стоя и лежа.

rPman Sep 10 2019 at 18:13

Без нейронной сети — определяйте тело по движению (различия между предыдущими кадрами или специально подготовленными на базе круглосуточных записей, чтобы день/ночь учесть) а дальше все просто — сравниваете габариты по горизонтали и вертикали.

vashanin Sep 10 2019 at 19:16

Есть претрейненная модель, которая называется PoseNet. Она позволяет трекать ключевые точки на теле человека. Ну а исходя их взаимного положения этих точек можно определять непосредственно положение тела.