Как стать автором
Обновить

Комментарии 7

Честно говоря, и новость, и исходник просто ни о чём. А вот это — «Чтение по губам – одна из самых сложных задач для ИИ» — звучит примерно как «человек никогда не построит машину, способную летать» или (ближе по времени) «распознавание рукописного текста невозможно».
Да, звучит не очень правдоподобно. Тем более, там вообще основная проблема должна быть не в ИИ, а в языковой модели, на которую эти движения должны накладываться. Движения губ могут классифицироваться с помощью ИИ, а затем сопоставляться с определёнными словами и выражениями уже вполне классическими алгоритмами.
Увы, скорее, эквивалентная задача — "угадайте слово/предложение, когда треть букв пропущена". Иногда задача решается, а иногда вариантов решения много больше одного.
Ну, в биоинформатике, вроде, таки решили алгоритмическую проблему с огромным количеством ошибок при секвенировании.
При секвенировании ошибка имеет случайное распределение — и считывая данные с избыточностью в 10 раз с вероятностью 99% можно получить правильный ответ. А если у вас ошибка при считывании с диска всегда в одном месте, то сколько раз считывание не повторяй, ситуация не улучшится. Да, можно немного улучшить качество, если попросить человека повторить фразу несколько раз — особенно, если попросить тщательнее проговаривать слова, можно ориентироваться на стандартные длительности звуков при произношении слов и на языковую модель. Думаю, где-то до word_error_rate = 35% довести можно при словаре в 20 тысяч слов на предложениях не короче 5 слов. Но 35% WER — это значит, ошибка в каждом третьем слове. Для сравнения, для обычного распознавания речи сейчас 10-15% WER в присутствии шумов, и 5% без шумов, на словаре в 200 тысяч слов.
А где вы нашли исходник? можно ссылку?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории