Как стать автором
Обновить

HaGRID — огромный открытый датасет для распознавания жестов

Время на прочтение9 мин
Количество просмотров8.3K
Всего голосов 19: ↑19 и ↓0+19
Комментарии12

Комментарии 12

Жесты подойдут для "перевода" с языка слабослышащих или такая задача не ставилась?

А не в курсе, есть ли вообще подобного рода "переводчики"?

Сейчас такая задача не ставилась, но мы ей активно занимаемся. Основное отличие от представленной статьи в том, что язык жестов - динамический, поэтому статичные картинки не совсем подходят для ее решения.

В будущих релизах обязательно планируем опубликовать результаты по исследованию языка жестов.

Супер, а можете также рассказать про различия языка жестов у жителей разных стран? Вроде язык не универсальный и жесты отличаются.

язык не универсальный и жесты отличаются

Да, именно так. В каждой стране свои жестовые языки, которые имеют свою грамматику, отличную от обычных языков. При этом у них и родственные связи весьма необычны. К примеру, русский жестовый язык (ржя) и американский жестовый язык (анслем) относят к французской жестовой группе. А вот британский жестовый язык к ним не имеет никакого отношения.

Сабж, же, как я понял, это по сути дактильная азбука - пальцевые жесты, соответствующие алфавиту словесного языка.

Вообще, я сам сейчас чем-то похожим занимаюсь, правда не распознаванием, а визуализацией. Может потом даже статью на хабре сделаю.

Еще по небольшому опыту общения со слабослышащими и их учителями - слабослышащие неплохо читают артикуляцию с губ говорящего. Поэтому сурдопереводчики проговаривают слова и это помогает пониманию. Наверно к визуализации жестов стоит добавить визуализацию рта/губ говорящего.

Спасибо за интересную статью!

Видел ваше задание на Толоке по разметке боксами жестов. Очень понравилась фишка, что в обучении на картинках уже был нарисован бок и толокерам нужно было только его повторить. Это прям сильно упрощало понимание задания!

В статье вы пишете, что использовали перекрытие при разметке боксов. Перекрытие кратно увеличивает стоимость разметки. Было ли у вас сравнение по качеству и стоимости разметки 2-х подходов?

1) Разметка боксами с перекрытием

2) Разметка боксами без перекрытия, но со строгой валлидацией и quality assurance

Спасибо за позитивный фидбек!

Да, проводили такой анализ. Выиграла схема: оптимальное перекрытие = 3 (в худшем случае 5), без последующей валидации разметки. Это оказалось и дешевле и намного точнее по качеству. Самописные алгоритмы усреднения боксов + предсказание хорошей нейронкой (как доп. уверенность при усреднении) дают очень неплохое качество и не требуют валидации. Совсем спорные кейсы после методов агрегации просто отбрасывали, но это единицы % от всего датасета.

Перекрытие 3 - это 300% работы? На первый взгляд далеко от идеала.

Я вижу фразу " предсказание хорошей нейронкой", но не могу в контексте понять что именно нейронка делала. Я бы создал выборку без перекрытия. Потом часть выборки преднамеренно испортил и обозначил бы как "false" и таким образом сделал бы обучающую выборку для нейросети, которая определяет качество разметки (возможно две итерации обучения: обучение, чистка выборки только что созданной нейросеткой и дообучение). Спорные и все false результаты на валидацию. Подозреваю, что перекрытие было бы намного меньше (10-50%).

Спасибо за ваш ответ!

Качество разметки было важным критерием при создании датасета, поэтому для нас в первую очередь было важно получить идеальную разметку, а нейронка, как известно, не может дать этого. 

Однако в дальнейшем мы планируем добавить в пайплайн предобученный детектор для разметки боксов в совокупности с асессорами. Такой подход позволит оставить качество на прежнем уровне и уменьшить перекрытие (затраты).

Вы на Сбер Портал сначала добавьте жестов для управления! Прошло 1,5 года, на нем как было 4 жеста, так 4 и осталось. ПОЗОР!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий