alizar6 ноя 2016 в 14:20

«Фотошоп» для человеческой речи

4 мин

30K

СофтЗвукIT-компании

+18

Комментарии 63

dfgwer 6 ноя 2016 в 14:35

Проклятый прогресс, теперь звонки от родственников с просьбой срочно 100 штук закинуть станут реалистичнее.

НЛО прилетело и опубликовало эту надпись здесь

negodnik 9 ноя 2016 в 08:35

Ничто не мешает сказать «У меня поменялся номер карты, запиши»

НЛО прилетело и опубликовало эту надпись здесь

Anarions 6 ноя 2016 в 15:05

Осталось прикрутить нейросеть распознающую эмоции в голосе-источнике, и накладывающую эти эмоции на переведённый результат.

tunelix 6 ноя 2016 в 19:01

все эмоции будут закодированы в сабах

НЛО прилетело и опубликовало эту надпись здесь

j_wayne 7 ноя 2016 в 07:13

Вот и найдется наконец полезное применение эмодзи)

pestilent 9 ноя 2016 в 12:57

Ну основу W3C запилили: EmotionML.

handicraftsman 6 ноя 2016 в 19:03

Осталось сделать свободный вариант этого всего дела.

Tabke 7 ноя 2016 в 09:54

Более того, озвучка будет но русском, но с оригинальными голосами иностранных актёров.

tundrawolf_kiba 7 ноя 2016 в 10:37

Вот тут встает интересный вопрос, станут ли анимешники смотреть аниме с русской озвучкой, но голосами сэйю, или продолжат смотреть с оригинальной озвучкой и сабами?

SirEdvin 7 ноя 2016 в 11:41

Ну… послушайте японскую калинку-малинку.

Loki3000 6 ноя 2016 в 16:30

Даже имея текст перед глазами, мне с трудом удавалось разобрать что он бормочет. Тембр голоса может передает и верно, но читает так же как любая другая электронная читалка.

Anarions 6 ноя 2016 в 23:13

Голос такой у человека-оригинала. Вполне внятно читает, один в один с человеком.

Meklon 7 ноя 2016 в 08:05

Олично читает. Jordan как-то чуть промямлил, но three times произнес отлично на мой вкус.

gionet 6 ноя 2016 в 16:41

В принципе, чего-то подобного давно ожидал… Недавно показали гугловский алгоритм, который читает почти так же как человек, даже вздыхает и паузы делает… Следом наверняка натаскают нейросеть на имитацию разных голосов и манеры речи.
Потом через год-другой эти технологии обработают напильником, и скоро можно будет, например, навигатор в машине заставить голосом Левитана объявлять повороты и названия населенных пунктов… Или голосом уже умерших актеров продублировать фильм. Эраст Гарин — король из золушки, мог бы читать сказки. Раневская читать рассказы Чехова и т.д.
Все предпосылки уже есть, технологии почти готовы.
Короче, ждём…

road_t 7 ноя 2016 в 06:59

наконец получим навигацию настоящим голосом жириновского)
А уж если эту штуку петь научить… диджеи разного рода получат новый виток к развитию.

unxed 7 ноя 2016 в 10:58

> Все предпосылки уже есть, технологии почти готовы.

Вот и с управляемым термоядерным синтезом так. Лет 50 уже)

fireSparrow 7 ноя 2016 в 13:00

Интересно, как скоро голоса начнут законодательно защищаться?

Насколько я знаю, сейчас существует защита визуального образа (статья 152.1 ГК РФ) — визуальный образ человека нельзя использовать без согласия этого человека (или его родственников, если человек уже умер).
Для голоса пока ничего похожего не нагуглил.

Kirtis 6 ноя 2016 в 18:03

Слишком опасная технология для выпуска её в качестве реального продукта. Очень много можно найти способов использовать её в противозаконных, преступных целях: любого человека можно скомпрометировать, всего лишь изменив пару слов в его речи. При этом регулировать распространение программ в эру интернета слишком проблематично, поэтому надеяться на то, что данная технология не попадёт в руки мошенников и других преступников, не приходится.

destroy 6 ноя 2016 в 18:07

Все в порядке, эволюция сделает свое дело.

Alexufo 6 ноя 2016 в 19:19

Я думаю у вас пройдет это глумление с возрастом.

aapazhe 7 ноя 2016 в 08:14

В тринадцать лет нормально так думать.

Alexufo 7 ноя 2016 в 18:01

Возраст как будто обозначает наличие мозгов.
Есть такая иерархия живых.
Живые это:
1) Я, дети
2) жена муж
3) мать отец
4) дед и бабка
5) дядя — тетя

Все, а дальше все те — на кого распространяется эволюция. То есть дураки. А раз они дураки то должны умирать по законам эволюции.
Нужно мне говорить, что это убеждение в эволюции среди дураков строится на религиозных убеждениях?
Я не говорю что программа топика — зло. Я имею ввиду что выражения про эволюци..( ляляля что то там. эволюция сделает свое дело) признаны доказать себе превосходство над теми кто не читает geektimes.

entze 6 ноя 2016 в 18:47

"… и других..."
20 минут записей голоса любого человека найдётся в небезызвестном «пакете», И отредактированный могут сохранять туда же.

SBKarr 6 ноя 2016 в 19:15

Мошенники и преступники и так живут неплохо, ведь суть их деятельности не в технологиях, а в знании процессов у человека в голове. В том числе в знании о том, как сделать так, чтобы человек не обратил внимания на различия в голосе. Компрометация и так успешно осуществляется с помощью единственной безвредной записи путём добавления собеседника и перестановки слов.

Реально беспокоится можно актёрам озвучания, когда к технологии приделают генератор эмоций. Очень много проходных текстов можно будет записывать и без человека. Они и сейчас не слишком довольны жизнью… https://www.google.ru/search?q=pf,fcnjdrf+frn%60hjd+jpdexfybz&ie=utf-8&oe=utf-8&gws_rd=cr&ei=eoAfWK3-EomksAHDi5nQBA#newwindow=1&tbm=nws&q=SAG-AFTRA

P.S. А база PRISM будет побольше базы из известного пакета, но почему первым всплывает именно он? Всё таки, АНБ и начали раньше, и размах покруче, и касается это граждан любой страны, а не одной конкретной…

SinsI 7 ноя 2016 в 05:11

Генератор эмоций не нужен — эмоции можно брать из голоса озвучивающего.актёра.
Просто он один сможет выдавать все виды голосов — от самого низкого хриплого баса до тончайшего сопрано, так что вместо команды будет достаточно 1-2 профессионалов на все звуки.

General_Failure 7 ноя 2016 в 08:37

Где-то я уже видел что-то похожее
Кажется, у Гоблина :)
Ну что ж, ждём новых переводов от VoCo-Гоблина

GeeSVe 6 ноя 2016 в 19:18

Как и многие другие технологии и разработки — она может и будет использована не только во благо, но и во вред. Обязательно найдутся жулики, которые ей воспользуются. Просто надо будет знать, что не всему сказанному по телефону или ТВ можно верить. В общем-то, что в этом плохого?

multlc 6 ноя 2016 в 20:19

А сейчас как? Многому сказанному по ТВ можно верить?

GeeSVe 6 ноя 2016 в 21:11

Ну как сказать… Вот я когда посуду мою, мне двух каплей моющего средства никогда не хватает! Прям аж бесит! А так всё хорошо :)

jex 6 ноя 2016 в 20:49

Теперь всех либиралов наконец-то поймают за руку! А то они всё гудят «голос не мой, не похож, бла бла бла».

alexvoz 6 ноя 2016 в 21:04

За фотошоп можно было сказать тоже самое, подделка документов, фотографий с места преступлений и т.д. но массово сейчас как-то такое не наблюдается. Экспертиза почти всегда сможет отличить оригинал.

Alexufo 7 ноя 2016 в 18:25

Вот фейк с пририсованными тачками к буку.

https://vimeo.com/146179080

Что скажет экспертиза?

agugnin 7 ноя 2016 в 08:12

Тут есть и обратная сторона медали — всегда ситуацию можно будет обиграться так, что любая компрометирующая запись сможет быть подана как синтезированная поддлка, так что даже если что-то ляпнул, можно будет легче отмыться.

alexvoz 7 ноя 2016 в 09:31

Так же, как и сейчас ссылаются на поддельные фото, видео и документы. Это не повод не развивать технологии )

artemerschow 7 ноя 2016 в 10:16

Разумеется, разумеется https://gitlab.com/worldmind/fire-story

unxed 7 ноя 2016 в 11:01

Если технология в принципе реальна — рано или поздно появится open source аналог — не на гитхабе так в даркнетах. Как прикажете это дело ограничивать или регулировать? Лучше сразу включать мозг и придумывать, как обезопасить себя/близких от потенциально опасных применений.

kalmarius 6 ноя 2016 в 19:05

… и сразу вспомнился момент из «Терминатора-2», когда Т800 разговаривал по телефону голосом Джона Коннора.

Скрытый текст

alexvoz 6 ноя 2016 в 21:12

На таких конференциях представляли технологии деблюра (восстановление четкости в изначально размытой или смазанной фотографии), удаления людей по нескольким фото, для редактора анимаций показывали панель генерирования реалистической анимации с физикой — это из того, что я вспомнил. Но пока что то не вижу я в их продуктах таких функций. Так что и эта технология может отправится «на полку».

SOb_S 7 ноя 2016 в 04:36

В их продуктах может и нет, но на рынке же есть. В Affinity Photo, к примеру, есть Stack и операции с ним – те самые увеличение чёткости и удаление объектов.

alexvoz 7 ноя 2016 в 09:40

В бэта-версии для Win таких функций не обнаружил. Судя по видео работы программы удаление объектов работает по тому же принципу, что и заливка content-aware в photoshop, причем примерно такого же качества. Видео демонстрации кардинального увеличения четкости не нашел (как на Adobe Max 2011).
Понятно, что есть и будут появляться программные продукты с полезными уникальными функциями. Еще это все можно вручную делать, хоть и долго. Я к тому, что сама Adobe показывает какую то интересную функцию или технологию а потом нигде ее не использует.

fundorin 7 ноя 2016 в 17:37

Потому что у вас бета Designer, а он пишет про Photo.

Namynnuz 7 ноя 2016 в 17:25

Вот прямо щас запустил фотошоп, скачал картинку с презентации и проделал все те же самые действия… Всё внимание на правый нижний угол: http://i.imgur.com/fI4GLc5.png

Было бы невероятно странно, если бы свёртка вдруг отказалась работать. В данном случае, вся сложность в автоматическом снятии с картинки корректного зерна, приведшего к искажению.

И нет, не обязательно результатом лабораторных изысканий становится коммерчески успешное приложение.

Meklon 7 ноя 2016 в 19:05

На самом деле давно пора добавить копеечные акселерометры в фотоаппараты. И тогда траектория смаза связанная с движением камеры во время экспозиции может быть скорректирована.

ittakir 7 ноя 2016 в 05:46

Ждем новых фейков от Киселева о «прослушке» Навального.

SyGi 7 ноя 2016 в 07:00

На каких языках всё это закодено?

alexisneverlate 7 ноя 2016 в 08:28

Следующий шаг — синтезирование речи тем же голосом, но на другом языке, что подойдет для переозвучки фильмов с сохранением голоса тех же актеров, ну и конечно перевод твоей речи на лету на другой язык.
Перспективы фантастические и немного пугающие.

Особенно пугает тем что может любой человек позвонить и разговаривать голосом любого человека — без видеосвязи уже будешь не верить.

Radmin 7 ноя 2016 в 08:41

Особенно пугает тем что может любой человек позвонить и разговаривать голосом любого человека — без видеосвязи уже будешь не верить.

Можете уже начинать не верить даже с наличием видеосвязи… :)
https://geektimes.ru/post/273030/

alexisneverlate 7 ноя 2016 в 08:52

Да, но это реалистично (можно ведь лицо повернуть или еще что то сделать) будет мне кажется сложнее сделать чем голос т.е. какое то время хотя бы это даст шанс на проверку

safinaskar 7 ноя 2016 в 16:02

У меня сильное подозрение, что это сгенерированно на компьютере.
Так что видеосвязи верить нельзя. Можно подделать целиком видео вместе со звуком.

Namynnuz 7 ноя 2016 в 18:09

Ну это уж совсем какая-то пелевинщина полезла…

alexvoz 7 ноя 2016 в 08:49

Более качественное видео
https://youtu.be/I3l4XLZ59iw

RaymanOne 7 ноя 2016 в 09:31

Объединяем вот с этим https://geektimes.ru/post/273030/

Bimawa 7 ноя 2016 в 11:41

я один не понимаю в чем прикол?
И чем это отличается от проги say?

say "And ur I kiss my dog and love my wife"

Anarions 7 ноя 2016 в 16:31

Тем что она может говорить это любым голосом?

SBKarr 7 ноя 2016 в 13:20

На работе путём анализа видео установили, что это пропросту удобный GUI для уже существующей фичи в Adobe Audition. Оно берёт аналог звучания из образца и подставляет на место вставки. Например, слово wife в презентации было тупо скопировано с образца таким образом, что явно слышно падение интонации, характерное для конца утвердительного предложения в английском, хотя вставка была в середину. Проще говоря, система не умеет синтезировать речь, она умеет поставлять образцы звуков в соответствии с фонемами букв. Никакой хитрой начинки типа обученной нейросети там нет (или оно на совсем примитивном уровне), это просто адаптированный к речи интерфейс.

P.S. В сущности это действительно аналог say, если на вход подавать различные звуки для фонем помимо строки на чтение. Ничего больше.

4ebriking 8 ноя 2016 в 00:19

анекдот на эту тему вспомнился:

Во время записи сложной фортепианной партии пианист всё время сбивался — то в одном месте, то в другом…
наконец звукорежиссер не выдержал: «слушай, да не мучайся ты… сыграй гамму»

alecv 8 ноя 2016 в 10:00

Ямаховские Вокалоиды не дают спать Adobe
https://ru.wikipedia.org/wiki/Vocaloid

ZaytsevArtem 9 ноя 2016 в 14:06

Здарова, начальник! Начальник, привет!

vgray 6 июн 2020 в 17:32

Искал в поиске информацию на тему синтезирования голоса и наткнулся на эту статью, просто для истории, чтобы зафиксировать.

В 2016м году обсуждали простую программу, которая может подставлять фрагменты. А в 2019 году уже есть программы которые могут говорить голосами знаменитостей ( проект вера войс от Бекмамбетова). Полагаю, что еще через 2-3 года любые сервисы озвучки текста ( например voxworker.com/ru ) смогут тоже говорить любыми голосами.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий