marks Sep 10 2016 at 21:09

WaveNet: синтезированная компьютером речь, похожая на человеческую

3 min

21K

Popular scienceArtificial Intelligence

+20

Comments 24

Arxitektor Sep 10 2016 at 21:55

Неплохо.
Но в записи слышно какое-то шипение или шум.
эффект долины (зловещей) )))
Для игр уже подойдет. Может здорово снизить цену озвучки.
Актёры могут продавать лицензии на голоса.

SinsI Sep 11 2016 at 08:29

По-моему, для игр лучше не такие системы, что генерят «с нуля», а модификаторы речи — так что один-два актёра могут озвучить сразу все роли — ведь компьютеру сложно объяснить, какую и где надо делать интонацию, ударения и прочие особенности речи.

L11R Sep 11 2016 at 12:23

На помощь должны опять придти нейронные сети. Прогнать через них пару миллионов уже озвученных текстов и акценты будут раставлять сами, основываясь на «опыте» сети. А дальше человеку в простом WYSIWYG-редакторе останется их усилить или ослабить. Дело пяти лет, максимум.

SinsI Sep 11 2016 at 13:22

Не поможет.
Особенности воспроизведения — это дополнительный информационный слой, не содержащийся в тексте — и поэтому его нельзя сгенерировать на основе «опыта», и никакой WYSIWYG редактор тут не поможет, потому что вариантов — не фиксированое дискретное множество, а полноценный континуум. Именно способность создавать этот слой отличает профессиональных актёров от обычных людей с улицы, которых можно набрать для озвучки.
Это как рисование — да, компьютер прекрасно сделает фото, и смодифицирует их в любой из набора заданых стилей — но художника из него не получится.

L11R Sep 11 2016 at 14:19

В такое случае ждем полноценный слабый AI для этих целей :)
На мой скромный взгляд человеческая уникальность сильно надумана.

qw1 Sep 11 2016 at 16:54

Тут нужен сильный ИИ, а не слабый, чтобы по контексту понять, фразу нужно произнести с угрозой или безразличием. Либо на тексте дополнительная разметка, но скорее всего она не сможет выразить все варианты, либо будет слишком сложной для написания.

tUUtiKKi13 Sep 12 2016 at 15:47

Сильный ИИ с чувством юмора, который при этом мыслит и чувствует _абсолютно_ как человек.

Danov Sep 11 2016 at 16:47

Это как рисование — да, компьютер прекрасно сделает фото, и смодифицирует их в любой из набора заданых стилей — но художника из него не получится.

Вы затронули старую тему, что компьютер не креативен. И далее следует вопрос о теории творчества, которых несколько. По одной из теорий, творчество это умение комбинировать существующие признаки в соответствии с набором ограничений. Компьютер очень хорошо справляется с этой задачей.

Возразите, что у нейросеток нет чувства прекрасного? Уже есть научные работы в которых нейросетки обучают различать прекрасное и не очень и, думаю, не хуже людей могут различать. Так что контраргумент не зачитывается.

Vjatcheslav3345 Sep 12 2016 at 09:18

Правильнее — так что один-два «индуса» из ближайшего театрального ПТУ за доширак.

Volutar Sep 11 2016 at 09:25

Это шипение — это следствие того, что входной сигнал (для обучения) квантизован до 256 значений (алгоритмом μ-law). И, кстати, в тексте не совсем корректно переведено как «обрабатывает каждую секунду 16000 образцов аудио». Речь про «16000 samples per second», что по-русски просто означает дискретизацию в 16Кгц.
На самом деле они проделывали то же самое и с 16битами, и «похожесть» была хуже. Некоторые шумы, они как-то работают в сторону реалистичности. Так уж получается.

Mad__Max Sep 11 2016 at 21:55

Кстати по китайски она болтает намного «чище». Не знаю насчет адекватности произношения/акцента (китайского не знаю), но вот конкретно шумов, шипений и искажений намного меньше.

А по английски — да очень неплохо. Не знаю какая тут зловещая долина — вполне похоже на обычного человека, только записывавшегося через некачественный микрофон или например говорящего по рации(аналоговой).

beavaon Sep 10 2016 at 22:33

Около года назад думал о подобном методе синтеза речи на основе реальных фрагментов.
Возможно через некоторое время можно будет адаптировать этот метод и производить перевод
смоделированной речи с одного языка на другой с оригинальным голосом.

perfect_genius Sep 11 2016 at 08:43

Рано или поздно видео и аудиозаписи перестанут быть доказательством в суде из-за лёгкости их подделывания.

Я не понял, почему я ответил именно на ваше сообщение =) Похоже, это одна из особенностей Хабра.

alibertino Sep 12 2016 at 01:07

Даешь Эдди Мёрфи из Шрэка на русском!

13_beta2 Sep 12 2016 at 01:07

Так Microsoft пару лет назад уже показывала перевод и синтез на основе исходного голоса.

Sadler Sep 10 2016 at 23:59

Ну да, с неограниченными финансовыми возможностями можно и напрямую часы аудиопотока прогонять. Я всё-таки для своих скромных задач предпочитаю сначала пройтись каким-нибудь constant Q transform перед обработкой — размерность по времени сокращается значительно. Минус, конечно, в том, что приходится потом генерировать фазу, т.к. её приходится отбрасывать. Зато не надо быть гуглом, чтобы заниматься этим.

Equin0x Sep 11 2016 at 03:00

Такими темпами этот ИИ скоро сможет подделать любой голос — со всеми особенностями, интонациями, ритмом.

UFO landed and left these words here

Idot Sep 11 2016 at 07:17

Только мне вспомнились Vocaloid'ы?

Danov Sep 11 2016 at 16:52

В тему вспомнили.

С Vocaloid'ами оказалось проще, потому как частота голоса фиксированная, т.е. в ноту и продолжительность тоже предопределена. Потому первыми сходство получили именно вокалоиды. В реальной речи эти два параметра определяют интонацию и прочие оттенки речи, т.е. их нужно еще научиться качественно моделировать. А в музыке они зафиксированы мотивом.

tUUtiKKi13 Sep 12 2016 at 16:03

Мне первым делом вспомнилась сцена из терминатора где т-1000 по телефону вместо Джонна Конора говорил.

lim Sep 13 2016 at 17:19

T-101, а T-1000 был на другом конце провода.

perfect_genius Sep 11 2016 at 08:57

Рано или поздно видео и аудиозаписи перестанут быть доказательством в суде из-за лёгкости их подделывания.

Ockonal Sep 12 2016 at 01:37

Сразу приходит в голову удивительная возможность перевести все книги в аудиоформат.
В принципе, когда слушаешь книги на протяжении нескольких лет, актерство и качество записи уже уходит на второй план, привыкаешь к этому. Так что безэмоциональность не особо повлияет на восприятие текста.