Голосовые агенты становятся все более совершенными. Мы уже рассказывали о том, насколько хорошо они понимают собеседника-человека и способны воспроизводить речь. Использовать цифровых агентов можно не только в качестве «сотрудника» колл-центра, но и в качестве актеров озвучки/дубляжа. Хороший пример — работа компании WellSaid Labs, о которой и рассказывается в этой статье.
Компания WellSaid Labs на своем сайте уведомляет посетителей, что у нее в запасе «восемь новых цифровых актеров озвучки». Тобин «энергичен и проницателен». Пейдж «уравновешенна и выразительна». Ава «отточенная, уверенная в себе и профессиональная».
Каждый цифровой агент использует голос реального актера, конечно, с согласия последнего. Теперь компании могут лицензировать эти голоса, чтобы рассказывать обо всем, что нужно бизнесу. Они просто вводят текст в голосовой движок, и на выходе получается четкий аудиоклип с естественным звучанием.
WellSaid Labs, стартап из Сиэтла, созданный на базе исследовательской некоммерческой организации Allen Institute of Artificial Intelligence, далеко не первая компания, которая предлагает клиентам голос ИИ-агента. Другие стартапы «очеловечивают» голоса цифровых помощников, операторов колл-центров и даже персонажей видеоигр.
Совсем недавно у таких дипфейк-голосов была плохая репутация из-за их использования в мошеннических звонках. Тем не менее, высокое качество озвучивания и общее повышение «человечности» цифрового голоса вызывает интерес у все большего числа компаний. Недавние достижения в области глубокого обучения позволили воспроизвести многие тонкости человеческой речи. Эти голоса делают паузу, даже слышно придыхание или и вовсе вдох/выдох. Цифровые агенты могут изменить свой стиль или эмоции. Вы можете почувствовать что-то необычное, если они говорят слишком долго, но в коротких аудиоклипах некоторые из них стали неотличимы от людей.
AI-голоса также недороги, масштабируемы, с ними легко работать. В отличие от записи человеческого голоса актера, синтетические голоса также могут изменять тембр, эмоциональность и другие параметры в реальном времени, открывая новые возможности для персонализации рекламы.
Но с повышением естественности цифровых голосов актерам-людям приходится уже задумываться о своей незаменимости. Некоторые из них не против извлечь дополнительный доход, предлагаемый компаниями, разрабатывающими цифровых агентов.
Как подделать голос
Цифровые голоса существуют уже давно. Но раньше, в том числе голоса оригинальных Siri и Alexa, состояли из склеенных слов и звуков. Все что получалось в итоге было несколько неуклюже, сразу чувствовался робот. Заставить их звучать более естественно было трудоемкой ручной задачей.
Глубокое обучение изменило это. Разработчикам голоса больше не нужно было программировать точный темп, произношение или интонацию сгенерированной речи. Вместо этого они могут передать несколько часов звука в алгоритм и заставить систему самостоятельно изучить эти шаблоны.
WellSaid Labs использует две основные модели глубокого обучения. Первая предсказывает, исходя из примера, общие черты того, как будет звучать цифровой голос, включая акцент, высоту и тембр. Вторая же модель дополняет детали, включая дыхание. Плюс добавляет «взаимодействие» с окружающей средой — например, эхо, работу колл-центра и т.п.
Создание убедительного синтетического голоса требует внимания к деталям. Требуется и разнообразие. Так, человеческий голос становится, собственно говоря, человеческим благодаря непоследовательности, выразительности и способности воспроизводить одни и те же строки в совершенно разных стилях, в зависимости от контекста. Для этого нужны хорошие примеры реальной речи человека.
А где их взять? Нужно найти правильных актеров озвучки, которые предоставят соответствующие данные. По ним специалисты отладят модели глубокого обучения. WellSaid говорит, что для создания реалистично звучащей синтетической реплики требуется как минимум час или два аудио и несколько недель труда.
Сейчас цифровые голоса стали популярными среди брендов, стремящихся поддерживать живой контакт с миллионами пользователей. Бренды больше не хотят использовать голоса, предлагаемые традиционной технологией преобразования текста в речь — тенденция, которая усилилась во время пандемии. Все больше и больше клиентов начинали отказываться от общения с явными «роботами», желая живого общения.
Брендам понадобились собственные выделяющиеся и запоминающиеся цифровые голоса. Например, потому, что одна компания не может быть похожа на другую — если это Pizza Hut, то ее голосовой агент должен очень сильно отличаться от Domino's и еще сильнее — от Papa John's.
Для создания собственного «брендового голоса» компаниям приходилось нанимать разных актеров озвучивания для разных рынков — северо-востока и юга США, или Франции и Мексики. Но это становится абсолютно ненужным, если использовать цифровой ИИ. Некоторые компании, которые разрабатывают голосовой ИИ, научились манипулировать акцентом или языками разных стран. Это открывает возможность адаптации рекламы на потоковых платформах в зависимости от того, кто ее слушает, изменяя не только характеристики голоса, но и произносимые слова. Реклама пива может побуждать слушателя зайти в определенный паб в зависимости от того, где находится потенциальный посетитель — в Нью-Йорке или Торонто. Так, компания Resemble.ai, разрабатывающая голоса для рекламы и умных помощников, сообщает, что уже работает с клиентами над запуском персонализированной аудиорекламы на Spotify и Pandora.
Развлекательная отрасль — благодарная среда для цифровых агентов. Sonantic, фирма, специализирующаяся на эмоциональных голосах, которые могут смеяться и плакать, шептать и кричать, работает с создателями видеоигр и анимационными студиями, чтобы озвучить их персонажей. Многие из клиентов используют синтезированные голоса лишь на этапе подготовки к производству и переключаются на реальных голосовых актеров для окончательного производства. Но ситуация меняется. Так, Sonantic говорит, что некоторые компании стали использовать их на протяжении всего процесса. Resemble.ai и другие также работали с производителями фильмов и ТВ-шоу для исправления речи настоящих актеров — ведь люди часто делают оговорки и ошибаются.
Но здесь есть свои сложности и их немало. По-прежнему трудно поддерживать реализм цифрового голоса в течение длительного периода времени озвучки аудиокниги или подкаста. Контролировать цифровой голос не так и просто. «Мы все еще находимся на ранних этапах развития синтетической речи», — говорит Зохайб Ахмед, основатель и генеральный директор Resemble.ai, сравнивая текущий этап развития цифровой озвучки с теми днями, когда технология CGI использовалась в основном для ретуши, а не для создания совершенно новых миров при помощи хромакея.
Человек — это звучит гордо
Да, актеры озвучки — люди еще нескоро лишатся работы. Выразительные, творческие и развернутые проекты по-прежнему лучше всего реализуются с участием людей. Более того, для каждого синтетического голоса голосовой актер должен предоставить исходные данные для обучения.
Тем не менее, некоторые актеры стали беспокоиться о доходах и работе, о чем сообщил представитель SAG-AFTRA, профсоюза актеров озвучивания в США. В частности, они опасаются несправедливой оплаты труда или потери контроля над своими голосами, которые составляют их образ и репутацию.
Так, например, сейчас канадская актриса Бев Стэндинг, подала иск против TikTok. Она утверждает, что встроенная в приложение функция озвучивания использует синтетическую копию ее голоса без ее разрешения. Схожая проблема у Сьюзан Беннетт, оригинального голоса американской Siri. Ей заплатили за изначальную озвучку относительно небольшого количества слов, фраз и предложений, но не за полное использование ее голоса на миллионах устройств Apple.
Некоторые компании идут навстречу актерам. Так, часть из них используют модель распределения прибыли, чтобы платить актерам каждый раз, когда клиент лицензирует конкретный синтетический голос, что открывает новый поток пассивного дохода. Другие вовлекают актеров в процесс создания «голосовой цифровой копии» и наделяют актеров правом вето в отношении проектов, в которых он будет использоваться. SAG-AFTRA также настаивает на принятии законодательства, защищающего актеров от незаконных копий их голосов.
Как бы там ни было, для многих компаний, которые занимаются разработкой голосовых агентов конечная цель не в том, чтобы имитировать человеческие способности или автоматизировать существующую работу по озвучиванию. Цель — открыть новые горизонты. Например, синтетические голоса можно будет использовать для быстрой адаптации учебных материалов в Интернете для самых разных аудиторий, национальностей и социумов.