maximazzik 23 ноя 2023 в 15:00

Распознавание русского жестового языка: распознаём до 3+ жестов в секунду на обычном ПК без видеокарты

Простой

8 мин

4.5K

Блог компании СберМашинное обучение*Искусственный интеллект

✏️ Технотекст 2023

+16

Комментарии 11

AlexMeet 23 ноя 2023 в 15:58

Да заинтересован в повседневной реализации данной технологии в общении с глухими и слабослышащими. Есть похожие разработки у https://adaptis.pro/ , но пока в реальной работе на мобилке не работает

ArtOleg 23 ноя 2023 в 16:47

Попробуй модель на мобилке, мы делали её достаточно легкой. Можно в чате по ссылке детали обсудить

grifmg 23 ноя 2023 в 20:56

Адаптис занимается прямой задачей - переводом звучащей речи на РЖЯ, а распознаванием речи - НГТУ.

dlinyj 23 ноя 2023 в 23:07

Очень годная статья. Спасибо, прочитал с удовольствием.

galapagos 24 ноя 2023 в 10:50

Казалось бы, почему глухим не показывать просто бегущую строку?

А нет, для большинства из них наш письменный язык мёртв. Они плохо понимают его. Большинство слов языка слышащих они не понимают. И наоборот, много слов чисто своих.

Однажды я попросил сурдопереводчика перевести нативно глухого докладчика сходу на русский. Оказалось просто совершенно другой язык.

KOMMEHTATOP 24 ноя 2023 в 13:31

А почему количество глухих будет возрастать то? Это не рофл запрос, просто в теории это люди которым сложнее оставить потомство, и как следствие их должно быть меньше ну или как минимум какой-то % рождаемости сохраняется и все.

ru1z 24 ноя 2023 в 14:40

Предположу, что из-за большего количества пожилых, ↑ больше пожилых→↑больше со сниженным слухом. Правда жестовый язык здесь не поможет.

Потеря cлуха чаще не генетические вроде как, глухих от рождения будет %. Остальные - приобретенные.

kdduha 6 дек 2023 в 10:12

Большое спасибо, очень интересная статья и задача! Круто, что большой упор делается ещё и на оптимизацию инференса модели

Правильно ли понимаю, что решение сводится к генерации класса слова для каждого жеста (слово в начальной форме), а дальше последовательность из полученных классов как-то фильтруется от повторов и получается дословный перевод? Если это так, то были ли какие-нибудь попытки полученную последовательность адаптировать в уже "наш" письменный язык с учётом корректной грамматики, например, прикрутив ещё одну модель seq2seq? + интересно, как вы обрабатываете слова, которые не встречались в трейне, для них есть отдельный класс или они как-то все равно разбиваются по фреймам, а модель что-то пытается для них

maximazzik 6 дек 2023 в 10:23

Спасибо за отзыв!
Вы правы, пока это "дословный" перевод, распознающий из потокового видео слова в нормальной форме. Следующий шаг - создать языковую модель, которая бы собирала из этих слов предложения. Мы работаем в этом направлении, тут (примерно с 13-ой минуты) можно посмотреть на наш прототип переводчика. Там будет распознавание отдельных жестов, использование языковой модели и метахьюман, отвечающий на жестовом языке.

Про распознавание жестов, которых нет в трейне. Модель классификации всегда старается выдать класс из трейна или "нет жеста". Эти ложные срабатывания будем фиксить на этапе языковой модели. Опять же сошлюсь на ссылку выше, там будут примеры того, как языковая модель исправляет ошибки классификатора жестов.

kdduha 6 дек 2023 в 10:48

Спасибо за пояснение и ссылку на выступление. Успехов вам в дальнейшей разработке )

dar_art 18 дек 2023 в 20:53

Здравстуйте.

Спасибо за такую интересную статью. Вопрос, конечно, наивный. Скажите, пожалуйста, будет ли опубликована собранная база данных?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий