Комментарии 24
Неплохо.
Но в записи слышно какое-то шипение или шум.
эффект долины (зловещей) )))
Для игр уже подойдет. Может здорово снизить цену озвучки.
Актёры могут продавать лицензии на голоса.
Но в записи слышно какое-то шипение или шум.
эффект долины (зловещей) )))
Для игр уже подойдет. Может здорово снизить цену озвучки.
Актёры могут продавать лицензии на голоса.
По-моему, для игр лучше не такие системы, что генерят «с нуля», а модификаторы речи — так что один-два актёра могут озвучить сразу все роли — ведь компьютеру сложно объяснить, какую и где надо делать интонацию, ударения и прочие особенности речи.
На помощь должны опять придти нейронные сети. Прогнать через них пару миллионов уже озвученных текстов и акценты будут раставлять сами, основываясь на «опыте» сети. А дальше человеку в простом WYSIWYG-редакторе останется их усилить или ослабить. Дело пяти лет, максимум.
Не поможет.
Особенности воспроизведения — это дополнительный информационный слой, не содержащийся в тексте — и поэтому его нельзя сгенерировать на основе «опыта», и никакой WYSIWYG редактор тут не поможет, потому что вариантов — не фиксированое дискретное множество, а полноценный континуум. Именно способность создавать этот слой отличает профессиональных актёров от обычных людей с улицы, которых можно набрать для озвучки.
Это как рисование — да, компьютер прекрасно сделает фото, и смодифицирует их в любой из набора заданых стилей — но художника из него не получится.
Особенности воспроизведения — это дополнительный информационный слой, не содержащийся в тексте — и поэтому его нельзя сгенерировать на основе «опыта», и никакой WYSIWYG редактор тут не поможет, потому что вариантов — не фиксированое дискретное множество, а полноценный континуум. Именно способность создавать этот слой отличает профессиональных актёров от обычных людей с улицы, которых можно набрать для озвучки.
Это как рисование — да, компьютер прекрасно сделает фото, и смодифицирует их в любой из набора заданых стилей — но художника из него не получится.
В такое случае ждем полноценный слабый AI для этих целей :)
На мой скромный взгляд человеческая уникальность сильно надумана.
На мой скромный взгляд человеческая уникальность сильно надумана.
Тут нужен сильный ИИ, а не слабый, чтобы по контексту понять, фразу нужно произнести с угрозой или безразличием. Либо на тексте дополнительная разметка, но скорее всего она не сможет выразить все варианты, либо будет слишком сложной для написания.
Это как рисование — да, компьютер прекрасно сделает фото, и смодифицирует их в любой из набора заданых стилей — но художника из него не получится.Вы затронули старую тему, что компьютер не креативен. И далее следует вопрос о теории творчества, которых несколько. По одной из теорий, творчество это умение комбинировать существующие признаки в соответствии с набором ограничений. Компьютер очень хорошо справляется с этой задачей.
Возразите, что у нейросеток нет чувства прекрасного? Уже есть научные работы в которых нейросетки обучают различать прекрасное и не очень и, думаю, не хуже людей могут различать. Так что контраргумент не зачитывается.
Правильнее — так что один-два «индуса» из ближайшего театрального ПТУ за доширак.
Это шипение — это следствие того, что входной сигнал (для обучения) квантизован до 256 значений (алгоритмом μ-law). И, кстати, в тексте не совсем корректно переведено как «обрабатывает каждую секунду 16000 образцов аудио». Речь про «16000 samples per second», что по-русски просто означает дискретизацию в 16Кгц.
На самом деле они проделывали то же самое и с 16битами, и «похожесть» была хуже. Некоторые шумы, они как-то работают в сторону реалистичности. Так уж получается.
На самом деле они проделывали то же самое и с 16битами, и «похожесть» была хуже. Некоторые шумы, они как-то работают в сторону реалистичности. Так уж получается.
Кстати по китайски она болтает намного «чище». Не знаю насчет адекватности произношения/акцента (китайского не знаю), но вот конкретно шумов, шипений и искажений намного меньше.
А по английски — да очень неплохо. Не знаю какая тут зловещая долина — вполне похоже на обычного человека, только записывавшегося через некачественный микрофон или например говорящего по рации(аналоговой).
А по английски — да очень неплохо. Не знаю какая тут зловещая долина — вполне похоже на обычного человека, только записывавшегося через некачественный микрофон или например говорящего по рации(аналоговой).
Около года назад думал о подобном методе синтеза речи на основе реальных фрагментов.
Возможно через некоторое время можно будет адаптировать этот метод и производить перевод
смоделированной речи с одного языка на другой с оригинальным голосом.
Возможно через некоторое время можно будет адаптировать этот метод и производить перевод
смоделированной речи с одного языка на другой с оригинальным голосом.
Рано или поздно видео и аудиозаписи перестанут быть доказательством в суде из-за лёгкости их подделывания.
Я не понял, почему я ответил именно на ваше сообщение =) Похоже, это одна из особенностей Хабра.
Я не понял, почему я ответил именно на ваше сообщение =) Похоже, это одна из особенностей Хабра.
Даешь Эдди Мёрфи из Шрэка на русском!
Так Microsoft пару лет назад уже показывала перевод и синтез на основе исходного голоса.
Ну да, с неограниченными финансовыми возможностями можно и напрямую часы аудиопотока прогонять. Я всё-таки для своих скромных задач предпочитаю сначала пройтись каким-нибудь constant Q transform перед обработкой — размерность по времени сокращается значительно. Минус, конечно, в том, что приходится потом генерировать фазу, т.к. её приходится отбрасывать. Зато не надо быть гуглом, чтобы заниматься этим.
Такими темпами этот ИИ скоро сможет подделать любой голос — со всеми особенностями, интонациями, ритмом.
Только мне вспомнились Vocaloid'ы?
В тему вспомнили.
С Vocaloid'ами оказалось проще, потому как частота голоса фиксированная, т.е. в ноту и продолжительность тоже предопределена. Потому первыми сходство получили именно вокалоиды. В реальной речи эти два параметра определяют интонацию и прочие оттенки речи, т.е. их нужно еще научиться качественно моделировать. А в музыке они зафиксированы мотивом.
С Vocaloid'ами оказалось проще, потому как частота голоса фиксированная, т.е. в ноту и продолжительность тоже предопределена. Потому первыми сходство получили именно вокалоиды. В реальной речи эти два параметра определяют интонацию и прочие оттенки речи, т.е. их нужно еще научиться качественно моделировать. А в музыке они зафиксированы мотивом.
Мне первым делом вспомнилась сцена из терминатора где т-1000 по телефону вместо Джонна Конора говорил.
Рано или поздно видео и аудиозаписи перестанут быть доказательством в суде из-за лёгкости их подделывания.
Сразу приходит в голову удивительная возможность перевести все книги в аудиоформат.
В принципе, когда слушаешь книги на протяжении нескольких лет, актерство и качество записи уже уходит на второй план, привыкаешь к этому. Так что безэмоциональность не особо повлияет на восприятие текста.
В принципе, когда слушаешь книги на протяжении нескольких лет, актерство и качество записи уже уходит на второй план, привыкаешь к этому. Так что безэмоциональность не особо повлияет на восприятие текста.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
WaveNet: синтезированная компьютером речь, похожая на человеческую