hukenovs 21 июн 2022 в 10:30

HaGRID — огромный открытый датасет для распознавания жестов

9 мин

10K

Блог компании SberDevicesData Mining*Обработка изображений*Машинное обучение*Искусственный интеллект

+19

Комментарии 12

oulenspiegel 21 июн 2022 в 10:47

https://github.com/hukenovs/hagrid

entze 21 июн 2022 в 11:28

Жесты подойдут для "перевода" с языка слабослышащих или такая задача не ставилась?

red-cat-fat 21 июн 2022 в 11:40

А не в курсе, есть ли вообще подобного рода "переводчики"?

hukenovs 21 июн 2022 в 11:43

Сейчас такая задача не ставилась, но мы ей активно занимаемся. Основное отличие от представленной статьи в том, что язык жестов - динамический, поэтому статичные картинки не совсем подходят для ее решения.

В будущих релизах обязательно планируем опубликовать результаты по исследованию языка жестов.

entze 22 июн 2022 в 13:46

Супер, а можете также рассказать про различия языка жестов у жителей разных стран? Вроде язык не универсальный и жесты отличаются.

ruGhast 22 июн 2022 в 20:58

язык не универсальный и жесты отличаются

Да, именно так. В каждой стране свои жестовые языки, которые имеют свою грамматику, отличную от обычных языков. При этом у них и родственные связи весьма необычны. К примеру, русский жестовый язык (ржя) и американский жестовый язык (анслем) относят к французской жестовой группе. А вот британский жестовый язык к ним не имеет никакого отношения.

Сабж, же, как я понял, это по сути дактильная азбука - пальцевые жесты, соответствующие алфавиту словесного языка.

Вообще, я сам сейчас чем-то похожим занимаюсь, правда не распознаванием, а визуализацией. Может потом даже статью на хабре сделаю.

entze 24 июн 2022 в 10:35

Еще по небольшому опыту общения со слабослышащими и их учителями - слабослышащие неплохо читают артикуляцию с губ говорящего. Поэтому сурдопереводчики проговаривают слова и это помогает пониманию. Наверно к визуализации жестов стоит добавить визуализацию рта/губ говорящего.

kucev 30 июн 2022 в 14:29

Спасибо за интересную статью!

Видел ваше задание на Толоке по разметке боксами жестов. Очень понравилась фишка, что в обучении на картинках уже был нарисован бок и толокерам нужно было только его повторить. Это прям сильно упрощало понимание задания!

В статье вы пишете, что использовали перекрытие при разметке боксов. Перекрытие кратно увеличивает стоимость разметки. Было ли у вас сравнение по качеству и стоимости разметки 2-х подходов?

1) Разметка боксами с перекрытием

2) Разметка боксами без перекрытия, но со строгой валлидацией и quality assurance

hukenovs 30 июн 2022 в 17:20

Спасибо за позитивный фидбек!

Да, проводили такой анализ. Выиграла схема: оптимальное перекрытие = 3 (в худшем случае 5), без последующей валидации разметки. Это оказалось и дешевле и намного точнее по качеству. Самописные алгоритмы усреднения боксов + предсказание хорошей нейронкой (как доп. уверенность при усреднении) дают очень неплохое качество и не требуют валидации. Совсем спорные кейсы после методов агрегации просто отбрасывали, но это единицы % от всего датасета.

imageman 5 июл 2022 в 16:57

Перекрытие 3 - это 300% работы? На первый взгляд далеко от идеала.

Я вижу фразу " предсказание хорошей нейронкой", но не могу в контексте понять что именно нейронка делала. Я бы создал выборку без перекрытия. Потом часть выборки преднамеренно испортил и обозначил бы как "false" и таким образом сделал бы обучающую выборку для нейросети, которая определяет качество разметки (возможно две итерации обучения: обучение, чистка выборки только что созданной нейросеткой и дообучение). Спорные и все false результаты на валидацию. Подозреваю, что перекрытие было бы намного меньше (10-50%).

karinakvanchiani 8 июл 2022 в 14:24

Спасибо за ваш ответ!

Качество разметки было важным критерием при создании датасета, поэтому для нас в первую очередь было важно получить идеальную разметку, а нейронка, как известно, не может дать этого.

Однако в дальнейшем мы планируем добавить в пайплайн предобученный детектор для разметки боксов в совокупности с асессорами. Такой подход позволит оставить качество на прежнем уровне и уменьшить перекрытие (затраты).

Ivsn 26 мар 2023 в 13:54

Вы на Сбер Портал сначала добавьте жестов для управления! Прошло 1,5 года, на нем как было 4 жеста, так 4 и осталось. ПОЗОР!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий