Comments 11
UFO just landed and posted this here
Видел пару работ (например тут и тут, но все они основаны на мультиклассовой классификации где CNN обучают по всему изображению c жестом выдавать, например, какая это буква.
Проблема в таком подходе в том, что если нужно будет добавить еще какой-то жест — нужно будет сначала собрать много изображений с этим жестом и переобучить заново всю сеть. И чем больше возможных классов тем ниже точность соответственно.
Это частично решается с помощью one-shot lerning где проблема сводиться к бинарной классификации.
Но есть еще момент в том, что многие слова на язык жестов — это не просто жесты, а движения (то есть важно видеть последовательность кадров)
А вот с подходом описанным в статье можно оперировать массивом ключевых точек в 3D пространстве и с предыдущих кадров также, что делает относительно несложным добавление новых жестов и при этом никак не влияя на точность и скорость. Но работ с реализацией пока не находил)
Проблема в таком подходе в том, что если нужно будет добавить еще какой-то жест — нужно будет сначала собрать много изображений с этим жестом и переобучить заново всю сеть. И чем больше возможных классов тем ниже точность соответственно.
Это частично решается с помощью one-shot lerning где проблема сводиться к бинарной классификации.
Но есть еще момент в том, что многие слова на язык жестов — это не просто жесты, а движения (то есть важно видеть последовательность кадров)
А вот с подходом описанным в статье можно оперировать массивом ключевых точек в 3D пространстве и с предыдущих кадров также, что делает относительно несложным добавление новых жестов и при этом никак не влияя на точность и скорость. Но работ с реализацией пока не находил)
0
На мобилках не успевает быстро-движущуюся руку отслеживать. А если попробовать это на десктопе? Насколько мне известно, существующие аналоги либо дорогие, либо имеют малую рабочую зону, либо очень посредственной точности, либо комбинации вышеперечисленного, а тут вроде что-то точное и дешевое (по цене одной вебки, но неуверен насчет стоимости железа для работы нейросети).
0
iphone XR, XS работают с нейросетями достаточно быстро, может быть, на ниъ получится.
0
Зависит от выбора архитектуры сеток. Если говорить о CNN архитектурах — eсть тяжелые с большим количеством параметров, такие как VGG-16, AlexNet и т.п. Последние, возможно, будуть давать немного лучшую точность, но в риал-тайме смогут работать только на дорогом железе, и уж явно не на мобильных устройствах. Но в последнее время появились относительно лёгкие архитектуры MobileNet и MobileNetV2, которые используют depthwise convolution блоки — что позволяет в разы сократить количество тренируемых параметров. Такие нейронки могут бежать уже и на мобильных устройствах при достаточно годном значении FPS и достойной точностью. Если говорить о последних версиях iPhone — там вообще можно добиться 30+ FPS (только при этом заряд батареи будет уходить так же стремительно xD). Да и на более-менее новых телефонах средней ценовой категории тоже можно добиться неплохих метрик.
+1
Плохое распознование это у вас засветка от окна, настройте автоуровень яркости или прогоните через какой нибудь фильтр изображение.
0
Вот тест на однородном фоне, так что проблема все же в производительности) Тест уже на телефоне помощнее — Xiaomi Mi A2
0
подскажите, как можно распознать положение тела? мне интересны 2 положения — стоя и лежа.
0
Без нейронной сети — определяйте тело по движению (различия между предыдущими кадрами или специально подготовленными на базе круглосуточных записей, чтобы день/ночь учесть) а дальше все просто — сравниваете габариты по горизонтали и вертикали.
0
Есть претрейненная модель, которая называется PoseNet. Она позволяет трекать ключевые точки на теле человека. Ну а исходя их взаимного положения этих точек можно определять непосредственно положение тела.
0
Sign up to leave a comment.
Нейронные сети для трекинга рук в режиме реального времени