Как стать автором
Обновить

Распознавание русского жестового языка: распознаём до 3+ жестов в секунду на обычном ПК без видеокарты

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров4.5K
Всего голосов 14: ↑13 и ↓1+16
Комментарии11

Комментарии 11

Да заинтересован в повседневной реализации данной технологии в общении с глухими и слабослышащими. Есть похожие разработки у https://adaptis.pro/ , но пока в реальной работе на мобилке не работает

Попробуй модель на мобилке, мы делали её достаточно легкой. Можно в чате по ссылке детали обсудить

Адаптис занимается прямой задачей - переводом звучащей речи на РЖЯ, а распознаванием речи - НГТУ.

Очень годная статья. Спасибо, прочитал с удовольствием.

Казалось бы, почему глухим не показывать просто бегущую строку?

А нет, для большинства из них наш письменный язык мёртв. Они плохо понимают его. Большинство слов языка слышащих они не понимают. И наоборот, много слов чисто своих.

Однажды я попросил сурдопереводчика перевести нативно глухого докладчика сходу на русский. Оказалось просто совершенно другой язык.

А почему количество глухих будет возрастать то? Это не рофл запрос, просто в теории это люди которым сложнее оставить потомство, и как следствие их должно быть меньше ну или как минимум какой-то % рождаемости сохраняется и все.

Предположу, что из-за большего количества пожилых, ↑ больше пожилых→↑больше со сниженным слухом. Правда жестовый язык здесь не поможет.

Потеря cлуха чаще не генетические вроде как, глухих от рождения будет %. Остальные - приобретенные.

Большое спасибо, очень интересная статья и задача! Круто, что большой упор делается ещё и на оптимизацию инференса модели

Правильно ли понимаю, что решение сводится к генерации класса слова для каждого жеста (слово в начальной форме), а дальше последовательность из полученных классов как-то фильтруется от повторов и получается дословный перевод? Если это так, то были ли какие-нибудь попытки полученную последовательность адаптировать в уже "наш" письменный язык с учётом корректной грамматики, например, прикрутив ещё одну модель seq2seq? + интересно, как вы обрабатываете слова, которые не встречались в трейне, для них есть отдельный класс или они как-то все равно разбиваются по фреймам, а модель что-то пытается для них

Спасибо за отзыв!
Вы правы, пока это "дословный" перевод, распознающий из потокового видео слова в нормальной форме. Следующий шаг - создать языковую модель, которая бы собирала из этих слов предложения. Мы работаем в этом направлении, тут (примерно с 13-ой минуты) можно посмотреть на наш прототип переводчика. Там будет распознавание отдельных жестов, использование языковой модели и метахьюман, отвечающий на жестовом языке.

Про распознавание жестов, которых нет в трейне. Модель классификации всегда старается выдать класс из трейна или "нет жеста". Эти ложные срабатывания будем фиксить на этапе языковой модели. Опять же сошлюсь на ссылку выше, там будут примеры того, как языковая модель исправляет ошибки классификатора жестов.

Спасибо за пояснение и ссылку на выступление. Успехов вам в дальнейшей разработке )

Здравстуйте.

Спасибо за такую интересную статью. Вопрос, конечно, наивный. Скажите, пожалуйста, будет ли опубликована собранная база данных?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий