Нейросеть Tacotron 2 говорит с человеческими интонациями, на которых обучена

Архитектура Tacotron 2. В нижней части иллюстрации показаны модели предложение-к-предложению, которые транслируют последовательность букв в последовательность признаков в 80-мерном пространстве. Техническое описание см. в научной статье
Синтез речи — искусственное воспроизводство человеческой речи из текста — традиционно считается одной из составляющих частей искусственного интеллекта. Раньше такие системы можно было увидеть только в фантастических фильмах, а сейчас они работают буквально в каждом смартфоне: это системы Сири, Алиса и тому подобные. Вот только они не очень реалистично произносят фразы: голос неживой, слова отделены друг от друга.
Компания Google разработала продвинутый синтезатор речи нового поколения. Он называется Tacotron 2 и основан на нейросети. Для демонстрации его возможностей компания выложила примеры синтеза. Внизу странички с примерами можно пройти тест и попробовать определить, где текст произносит синтезатор речи, а где человек. Определить разницу практически невозможно.












Системы искусственного интеллекта (ИИ) получают всё большее распространение. В связи с этим юристы и законодатели обсуждают проблему, каким образом должны регулироваться такие системы, кто будет нести ответственность за их действия. Этот вопрос требует внимательного изучения и взвешенного подхода, потому что системы ИИ способны генерировать огромные массивы данных и применяться в приложениях разной функциональности — от медицинских систем и автопилотов в автомобилях до предсказания преступлений и вычисления потенциальных преступников. При этом учёные стремятся к созданию «сильного ИИ», способного к рассуждениям, и здесь возникает вопрос, как определить наличие умысла в его действиях — или признать действия неумышленными.



