Комментарии 12
Жесты подойдут для "перевода" с языка слабослышащих или такая задача не ставилась?
А не в курсе, есть ли вообще подобного рода "переводчики"?
Сейчас такая задача не ставилась, но мы ей активно занимаемся. Основное отличие от представленной статьи в том, что язык жестов - динамический, поэтому статичные картинки не совсем подходят для ее решения.
В будущих релизах обязательно планируем опубликовать результаты по исследованию языка жестов.
Супер, а можете также рассказать про различия языка жестов у жителей разных стран? Вроде язык не универсальный и жесты отличаются.
язык не универсальный и жесты отличаются
Да, именно так. В каждой стране свои жестовые языки, которые имеют свою грамматику, отличную от обычных языков. При этом у них и родственные связи весьма необычны. К примеру, русский жестовый язык (ржя) и американский жестовый язык (анслем) относят к французской жестовой группе. А вот британский жестовый язык к ним не имеет никакого отношения.
Сабж, же, как я понял, это по сути дактильная азбука - пальцевые жесты, соответствующие алфавиту словесного языка.
Вообще, я сам сейчас чем-то похожим занимаюсь, правда не распознаванием, а визуализацией. Может потом даже статью на хабре сделаю.
Спасибо за интересную статью!
Видел ваше задание на Толоке по разметке боксами жестов. Очень понравилась фишка, что в обучении на картинках уже был нарисован бок и толокерам нужно было только его повторить. Это прям сильно упрощало понимание задания!
В статье вы пишете, что использовали перекрытие при разметке боксов. Перекрытие кратно увеличивает стоимость разметки. Было ли у вас сравнение по качеству и стоимости разметки 2-х подходов?
1) Разметка боксами с перекрытием
2) Разметка боксами без перекрытия, но со строгой валлидацией и quality assurance
Спасибо за позитивный фидбек!
Да, проводили такой анализ. Выиграла схема: оптимальное перекрытие = 3 (в худшем случае 5), без последующей валидации разметки. Это оказалось и дешевле и намного точнее по качеству. Самописные алгоритмы усреднения боксов + предсказание хорошей нейронкой (как доп. уверенность при усреднении) дают очень неплохое качество и не требуют валидации. Совсем спорные кейсы после методов агрегации просто отбрасывали, но это единицы % от всего датасета.
Перекрытие 3 - это 300% работы? На первый взгляд далеко от идеала.
Я вижу фразу " предсказание хорошей нейронкой", но не могу в контексте понять что именно нейронка делала. Я бы создал выборку без перекрытия. Потом часть выборки преднамеренно испортил и обозначил бы как "false" и таким образом сделал бы обучающую выборку для нейросети, которая определяет качество разметки (возможно две итерации обучения: обучение, чистка выборки только что созданной нейросеткой и дообучение). Спорные и все false результаты на валидацию. Подозреваю, что перекрытие было бы намного меньше (10-50%).
Спасибо за ваш ответ!
Качество разметки было важным критерием при создании датасета, поэтому для нас в первую очередь было важно получить идеальную разметку, а нейронка, как известно, не может дать этого.
Однако в дальнейшем мы планируем добавить в пайплайн предобученный детектор для разметки боксов в совокупности с асессорами. Такой подход позволит оставить качество на прежнем уровне и уменьшить перекрытие (затраты).
Вы на Сбер Портал сначала добавьте жестов для управления! Прошло 1,5 года, на нем как было 4 жеста, так 4 и осталось. ПОЗОР!
HaGRID — огромный открытый датасет для распознавания жестов