Нейросеть научили распознавать речь по губам при помощи алгоритма распознавания записи голоса


    Hal 9000 прекрасно читал по губам, правда, по-английски

    Нейросети сейчас умеют многое, и постепенно их обучают все большему количеству умений. На днях стало известно о том, что объединенная команда исследователей из США и Китая смогла обучить нейросеть распознавать речь по губам с высокой степенью точности.

    Добиться этого удалось благодаря дополнительному элементу — алгоритму распознавания речи по аудиозаписям. Далее алгоритм использовался в качестве обучающей системы уже для второго алгоритма, который распознавал речь по видеозаписям.

    По мнению ученых, этот метод дает возможность освоить дополнительные приемы чтения по губам, которые нейросеть, обученная традиционными методами, не сможет «выучить». Простая последовательность изображений дает возможность освоить лишь базовые приемы чтения по губам.

    Кроме того, разработчики использовали метод обучения нейросетей, который называется «дистилляцией знаний». Он позволяет сохранить небольшой размер модели, которая выполняет сложную задачу. В обычной ситуации нейросеть, которая умеет читать по губам, достигла бы значительных размеров, что затруднило бы ее использование на смартфонах или иных мобильных устройствах.

    Но модель, которая называется knowledge distillation, дает возможность убрать эти ограничения. В ходе работы с этой моделью разработчику необходимо использовать базовую нейросеть, которая уже обучена, и на ее основе создает значительно меньшую модель, которая «обучается» на основе первой. Обе сети получают практически аналогичные исходные данные. Но меньшая сеть пытается повторить результаты большей, как на выходном слое, так и на всех промежуточных. Впервые идея была представлена Каруана (Caruana) в 2006 году.

    Ученые под руководством Минли Сун (Mingli Song) из Чжэцзянского университета воспользовались «дистилляцией» для обучения нейросети чтению по губам. Как и говорилось выше, учителем здесь является алгоритм распознавания речи по аудиозаписи. Он предоставляет широкие возможности для изучения ряда малозаметных движений губ и паттернов речи.



    Итоговая схема является симметричной, с двумя рекуррентными нейросетями, расположенными параллельно друг другу. Одна сверточная нейросеть обрабатывает кадры видео и предоставляет данные для другой. Исследователем осталось только представить дистилляцию знаний в виде нескольких блоков, каждый из которых отвечал за конкретную задачу. Один из них — за кадр, второй — за последовательность данных, третий — за наибольшую общую последовательность.

    Конечно, для нормальной работы такая нейросеть требует тщательного обучения на десятках тысячах элементов. Ученые воспользовались датасетом LRS2, который содержит около 50 тысяч отдельных предложений, произнесенных дикторами BBC, а также датасетом CMLR — это самый объемный набор для обучения нейросетей читать по губам на мандаринском языке. В базе последнего содержится около 100 тысяч предложений из эфира телеканала CNTV.



    Точность распознавания получившейся в итоге системы примерно на 8% выше, чем у других нейросетей, которые обучали на CMLR, и на 3% лучше, чем у нейросетей, которые обучались на LRS2.
    • +11
    • 2,7k
    • 8
    Madrobots
    111,46
    Приближаем сингулярность за ваши деньги
    Поделиться публикацией

    Комментарии 8

      0
      Странно, почему природа такой скилл не создала, ведь можем же мы предсказывать агрессивные намерения всего-лишь по походке или взгляду, а речь по губам не умеем. Это наталкивает на мысль, что речь — вообще инструмент, чуждый нашему биологическому виду, и возникший буквально вчера.
        +2
        ну, а зачем этот скилл? Речь мы слышим ушами. Люди которые не слышат — это редкость. Но они вроде умеют читать по губам
          +5
          Этот скилл есть у каждого. В шумном помещении, когда собеседника почти не слышно, достаточно внимательно смотреть на его губы. И тогда его речь начинает звучать в голове намного четче и громче.
            0
            Мне кажется, тут вопрос не в «смотреть на губы», ибо с видео такой трюк не сработает. И наоборот, необязательно видеть лицо человека что бы сконцентрироваться на его речи в условном баре.
              0
              Мы можем выделять конкретный звук или речь из фонового шума, не видя источника. Это называется «Эффект коктейльной вечеринки».
              С другой стороны, скилл «чтение по губам» у нас тоже есть, мы просто его не качаем.
              Наглядный пример:
              image
                0
                Блин, хотел написать развёрнуты ответ, но эти зацикленные пидор*сы не дают сконцентрироваться. Если коротко, то пример, конечно, хороший, но сильно утрированный. В повседневной речи такую явную артикуляцию никто не использует. Так что в исходной ситуации, всё-таки, больше заслуга именно вышеупомянутого эффекта вечеринки (кстати, спасибо, не знал что оно так называется)
            +2

            Агрессивный взгляд или походка это более древняя форма коммуникации, а язык относительно новая. Могу ошибаться.

              0
              Люди с проблемами слуха учатся читать по губам. Для слышащих в этом просто не необходимости.

            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

            Самое читаемое