Новая технология Microsoft позволяет 3D-копии реального человека говорить на любом языке



    Похоже на то, что в ближайшем будущем не будет большой проблемой, если два человека говорят на разных языках. Конечно, знание дополнительного языка — это большой плюс, но случается так, что нужно обсудить срочный вопрос, по работе, например, а собеседник на твоем языке не говорит.

    Около недели назад представитель корпорации Джулия Вайт продемонстрировала на конференции новую технологию. Она позволяет не только формировать довольно реалистичную голограмму (в виртуальной реальности), но и дает этой голограмме знание определенного языка, причем голос — тональность, громкость, тембр и другие параметры берется у оригинала голограммы. Таким образом, собеседник видит перед собой виртуальную копию другого человека, причем эта копия говорит на нужном языке.

    Технология стала возможной благодаря смешению двух различных решений — mixed reality и neural text-to-speech. Похоже на то, что технология даст возможность убрать коммуникационные барьеры, которые до сих пор существуют. Интернет дал возможность людям общаться в режиме реального времени, а теперь есть и возможность говорить на одном языке.


    Задача решалась корпорацией постепенно. Первый этап — создание реалистичной голограммы Вайт в полный рост. Для того, чтобы этого добиться. Она посетила специализированную лабораторию Microsoft, где было записано ее выступление на английском языке. Запись велась объемная, чтобы из элементов записи создать трехмерную модель человека.

    В итоге это было сделано — после завершения этапа ее выступление мог просмотреть любой обладатель видеоочков Microsoft HoloLens. Ну а после этого началась работа над копированием голоса Вайт и переводом ее речи на японский с использованием text-to-speech технологии, базирующейся на нейросетях. Результат получился отличным — параметры голоса были переданы почти идеально. Конечно, насколько это возможно, учитывая то, что финальная речь была на японском языке, звучание которого ну очень отличается от любых других языков.


    Естественно, это лишь демонстрация, готовить которую пришлось довольно долго. Но, как и всякая технология, с течением времени она становится более эффективной и простой в использовании. Корпорация Microsoft планирует и дальше совершенствовать и дополнять свой проект.

    Сначала его применение будет точечным — например, с распространением 3D очков будут становиться более популярными выступления известных артистов или политических лидеров. Их можно будет увидеть рядом с собой, причем говорить они станут на родном для зрителя языке.

    Также можно представить себе лекции, организованные подобным образом. Причем можно с уверенностью предполагать, что превращение человека в голограмму, которая говорить на одном со зрителем языке будет вопросом нескольких часов, а не дней. Главное — это оборудование для записи выступления в 3D и нейросеть, которая способна «перевести» речь спикера.
    Madrobots
    234,37
    Приближаем сингулярность за ваши деньги
    Поделиться публикацией

    Комментарии 14

      +1
      Ну все, наконец то не нужно учить иностранные языки:)
        –1
        Это майкрософт. Посреди job interview у вас изо рта вылетит синий экран смерти с указанием адреса в памяти. И мычи как хошь.
        0
        На переговорах переводчики останутся чисто для протокола.
          0
          часто бывает, что высокие переговаривающиеся стороны и так знают языки друг-друга, но переводчик дает время на подумать, да и всегда можно сослаться «меня не так перевели, я совсем не это имел в виду».
          +2
          Забыли упомянуть самое главное: а перевод-то как осуществляться будет? Google Translate всё ещё малопригоден даже для чтения описаний товаров и комментариев на aliexpress, выдавая откровенную лажу.
            0
            Ну, как бы, в тексте прямо сказано, «русским по белому»:
            на японский с использованием text-to-speech технологии, базирующейся на нейросетях
              0
              Тогда переводчики могут не беспокоиться за свою профессию. Google Translate некоторые тексты научился переводить достаточно неплохо, но живую речь он до сих пор не осиливает. Bing Translate отстает лет на 5 по ощущениям и даже с близких языков переводит плохо.
              0
              Мне пару недель назад посоветовали попробовать онлайн-переводчик deepl.com, и на мой взгляд он переводит текст с русского на английский и обратно гораздо «натуральнее» и естественнее, чем Google Translate. Вот, делюсь.
              0
              Как говорится, если бы Microsoft делала пиво, то каждый раз с выходом нового сорта пива требовалось бы заменить пивную кружку и заново учиться пить пиво. На этот раз будет аналогично?
                +1
                Страшно представить, что было бы, если бы пиво делали разработчики Linux.
                Наверное, в кружку наливали бы простой воды, даже не кипячёной, а уж подробную инструкцию — что, как и в каком порядке в эту воду добавлять, чтоб получилось пиво, — нужно было бы гуглить.
                0
                Много лет жду, когда изобретут AI-собеседника, типа носителя языка.
                Есть что новое по теме?
                habr.com/ru/post/460413#comment_20443539
                  0
                  ещё лет 20, а то и все 40 при хорошем раскладе.
                  когда-то в 2005 искал как голосом переключать трек на следующий.
                  0
                  Неплохой косплей Star Wars))
                    0
                    Ждём аддон с синдарином, на'ви, симлишем и клингонским!

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое