Нейросеть Facebook заговорила голосом Билла Гейтса



    Шон Васкез и Майк Льюис из компании Facebook представили синтезатор речи с новым принципом работы весьма эффектным образом: на аккаунте разработчиков на Github появилась коллекция сэмплов, где нейросеть убедительно имитирует речь основателя Microsoft. На записях звучат несколько коротких фраз произвольного содержания, в которых не только точно копируется тембр голоса Гейтса, но и тонко передаются естественные интонации — последнее долгое время оставалось для искусственного интеллекта недосягаемо высокой планкой.

    Созданная Facebook модель для синтеза человеческой речи называется MelNet, и это не первая коллекция клипов, которую она производит. Виртуальному двойнику Гейтса предшествовали имитации Джорджа Такеи, Джейн Гудолл, Стивена Хокинга и других знаменитостей. Подобный отбор персоналий вызван тем, что нейросеть тренировали преимущественно на архиве записей TED Talks — коротких лекций на темы, связанные с наукой, искусством и технологиями. Также дополнительно привлекались материалы из аудокниг, которые отличаются «оживленной манерой речи» исполнителя. Однако до сих пор даже тщательный отбор материала не мог избавить конечный результат от характерных механистических ноток.

    Разработчики объясняют этот прорыв тем, что в отличие от WaveNet компании Google и других современных моделей, генерирующих речь, MelNet обучали не на графическом представлении амплитуды звуковых волн, а на спектрограммах. Метод амплитуд чрезмерно дробит звуковой поток, фиксируя изменения сигнала по миллисекундам, что затрудняет для искусственного интеллекта выявление нужных корреляций. В итоге некоторые характеристики речи (высота, тембр) улавливаются и впоследствии воспроизводятся в ущерб другим (интонация, фонемный состав). Спектрограммы представляют собой более информационно насыщенный формат, данные в них подаются в компактном виде, и комплексный анализ звукового потока проходит без помех.



    Тем не менее, как отмечают и сами создатели MelNet, технология еще далека от совершенства. В клипах на Github не случайно озвучиваются короткие фразы: нейросеть пока способна точно выстраивать интонационный рисунок только для отдельных предложений. Обработка сложных смысловых массивов на таком же уровне — например, драматическое чтение небольшого рассказа или монолог, где меняются темы и эмоциональные окраски — на сегодняшний день невозможна.

    Однако уже и в текущем своем виде разработка может найти применение в голосовых ассистентах, на горячих линиях и в прочих ситуациях, когда общение протекает по заданному сценарию и легко автоматизируется. Интернет-издания отмечают также и потенциал для нелегального применения MelNet, ведь генерация голоса конкретного человека позволяет фальсифицировать любое высказывание в его исполнении. Васкез и Льюис в своем интервью не затрагивали дальнейших планов по внедрению технологии и контролю рисков.
    Поделиться публикацией
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 11

      +3
      Следующим шагом надо натренировать сеть на записях речей Гитлера и послушать каким будет прогноз погоды в Житомире в начале июля.
        +4

        "В отдельных районах Житомира температуры до +20000 градусов, возможны радиоактивные осадки"?

          0

          Начинать надо с классики жанра: все технологии обкатываются на порно. Там и фразы короткие и можно послушать интонацию. ))

            0
            Перевод с сохранением голоса и интонаций действительно не помешал бы. А то ничего не понятно что там происходит.
            P.S. Если что, я обычный естественный человек, мои любимые человеческие хобби дышать воздухом и ходить на ногах
          +2
          Хех, сначала отказались от спектрограмм в пользу waveform, а теперь от звуковой волны обратно к спектрограммам, причем к классической голосовой mel-спектрограмме, судя по названию. И каждый раз преподносится, что такой входной формат подходит намного лучше, чем предыдущий. Ну-ну.

          Дело в чем-то другом. В архитектуре сети, вычислительной мощности или в датасете.
            0

            Пелевин, да?)

              0
              Интернет-издания отмечают также и потенциал для нелегального применения MelNet, ведь генерация голоса конкретного человека позволяет фальсифицировать любое высказывание в его исполнении.

              Ждём появления тулов для генерации коротких роликов с произвольным человеком, который говорит в камеру «я согласен взять этот кредит в вашем банке»?
                +2
                Сделали бы наконец не генерацию, а стилизацию одного голоса в другой, отлично бы взлетело в дип-фейках и подхватилось сообществом.
                  0
                  Где то тут рядом идентификация по голосу в банкоматах Сбербанка
                    0
                    А есть ли у Билла, нашего, Гейтса счет в сбере? А банкомат с идентификацией по голосу найдется.
                    0
                    … а в это время некоторые банки (не буду показывать пальцем) собираются ввести аутентификацию по голосу…

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое