alizar Nov 6 2016 at 17:20

«Фотошоп» для человеческой речи

4 min

29K

SoftwareSoundIT-companies

+21

Comments 63

dfgwer Nov 6 2016 at 17:35

Проклятый прогресс, теперь звонки от родственников с просьбой срочно 100 штук закинуть станут реалистичнее.

+23

UFO just landed and posted this here

negodnik Nov 9 2016 at 11:35

Ничто не мешает сказать «У меня поменялся номер карты, запиши»

UFO just landed and posted this here

Anarions Nov 6 2016 at 18:05

Осталось прикрутить нейросеть распознающую эмоции в голосе-источнике, и накладывающую эти эмоции на переведённый результат.

tunelix Nov 6 2016 at 22:01

все эмоции будут закодированы в сабах

UFO just landed and posted this here

j_wayne Nov 7 2016 at 10:13

Вот и найдется наконец полезное применение эмодзи)

pestilent Nov 9 2016 at 15:57

Ну основу W3C запилили: EmotionML.

handicraftsman Nov 6 2016 at 22:03

Осталось сделать свободный вариант этого всего дела.

Tabke Nov 7 2016 at 12:54

Более того, озвучка будет но русском, но с оригинальными голосами иностранных актёров.

tundrawolf_kiba Nov 7 2016 at 13:37

Вот тут встает интересный вопрос, станут ли анимешники смотреть аниме с русской озвучкой, но голосами сэйю, или продолжат смотреть с оригинальной озвучкой и сабами?

SirEdvin Nov 7 2016 at 14:41

Ну… послушайте японскую калинку-малинку.

Loki3000 Nov 6 2016 at 19:30

Даже имея текст перед глазами, мне с трудом удавалось разобрать что он бормочет. Тембр голоса может передает и верно, но читает так же как любая другая электронная читалка.

Anarions Nov 7 2016 at 02:13

Голос такой у человека-оригинала. Вполне внятно читает, один в один с человеком.

Meklon Nov 7 2016 at 11:05

Олично читает. Jordan как-то чуть промямлил, но three times произнес отлично на мой вкус.

gionet Nov 6 2016 at 19:41

В принципе, чего-то подобного давно ожидал… Недавно показали гугловский алгоритм, который читает почти так же как человек, даже вздыхает и паузы делает… Следом наверняка натаскают нейросеть на имитацию разных голосов и манеры речи.
Потом через год-другой эти технологии обработают напильником, и скоро можно будет, например, навигатор в машине заставить голосом Левитана объявлять повороты и названия населенных пунктов… Или голосом уже умерших актеров продублировать фильм. Эраст Гарин — король из золушки, мог бы читать сказки. Раневская читать рассказы Чехова и т.д.
Все предпосылки уже есть, технологии почти готовы.
Короче, ждём…

road_t Nov 7 2016 at 09:59

наконец получим навигацию настоящим голосом жириновского)
А уж если эту штуку петь научить… диджеи разного рода получат новый виток к развитию.

unxed Nov 7 2016 at 13:58

> Все предпосылки уже есть, технологии почти готовы.

Вот и с управляемым термоядерным синтезом так. Лет 50 уже)

fireSparrow Nov 7 2016 at 16:00

Интересно, как скоро голоса начнут законодательно защищаться?

Насколько я знаю, сейчас существует защита визуального образа (статья 152.1 ГК РФ) — визуальный образ человека нельзя использовать без согласия этого человека (или его родственников, если человек уже умер).
Для голоса пока ничего похожего не нагуглил.

Kirtis Nov 6 2016 at 21:03

Слишком опасная технология для выпуска её в качестве реального продукта. Очень много можно найти способов использовать её в противозаконных, преступных целях: любого человека можно скомпрометировать, всего лишь изменив пару слов в его речи. При этом регулировать распространение программ в эру интернета слишком проблематично, поэтому надеяться на то, что данная технология не попадёт в руки мошенников и других преступников, не приходится.

-2

destroy Nov 6 2016 at 21:07

Все в порядке, эволюция сделает свое дело.

Alexufo Nov 6 2016 at 22:19

Я думаю у вас пройдет это глумление с возрастом.

-5

aapazhe Nov 7 2016 at 11:14

В тринадцать лет нормально так думать.

Alexufo Nov 7 2016 at 21:01

Возраст как будто обозначает наличие мозгов.
Есть такая иерархия живых.
Живые это:
1) Я, дети
2) жена муж
3) мать отец
4) дед и бабка
5) дядя — тетя

Все, а дальше все те — на кого распространяется эволюция. То есть дураки. А раз они дураки то должны умирать по законам эволюции.
Нужно мне говорить, что это убеждение в эволюции среди дураков строится на религиозных убеждениях?
Я не говорю что программа топика — зло. Я имею ввиду что выражения про эволюци..( ляляля что то там. эволюция сделает свое дело) признаны доказать себе превосходство над теми кто не читает geektimes.

entze Nov 6 2016 at 21:47

"… и других..."
20 минут записей голоса любого человека найдётся в небезызвестном «пакете», И отредактированный могут сохранять туда же.

SBKarr Nov 6 2016 at 22:15

Мошенники и преступники и так живут неплохо, ведь суть их деятельности не в технологиях, а в знании процессов у человека в голове. В том числе в знании о том, как сделать так, чтобы человек не обратил внимания на различия в голосе. Компрометация и так успешно осуществляется с помощью единственной безвредной записи путём добавления собеседника и перестановки слов.

Реально беспокоится можно актёрам озвучания, когда к технологии приделают генератор эмоций. Очень много проходных текстов можно будет записывать и без человека. Они и сейчас не слишком довольны жизнью… https://www.google.ru/search?q=pf,fcnjdrf+frn%60hjd+jpdexfybz&ie=utf-8&oe=utf-8&gws_rd=cr&ei=eoAfWK3-EomksAHDi5nQBA#newwindow=1&tbm=nws&q=SAG-AFTRA

P.S. А база PRISM будет побольше базы из известного пакета, но почему первым всплывает именно он? Всё таки, АНБ и начали раньше, и размах покруче, и касается это граждан любой страны, а не одной конкретной…

SinsI Nov 7 2016 at 08:11

Генератор эмоций не нужен — эмоции можно брать из голоса озвучивающего.актёра.
Просто он один сможет выдавать все виды голосов — от самого низкого хриплого баса до тончайшего сопрано, так что вместо команды будет достаточно 1-2 профессионалов на все звуки.

General_Failure Nov 7 2016 at 11:37

Где-то я уже видел что-то похожее
Кажется, у Гоблина :)
Ну что ж, ждём новых переводов от VoCo-Гоблина

GeeSVe Nov 6 2016 at 22:18

Как и многие другие технологии и разработки — она может и будет использована не только во благо, но и во вред. Обязательно найдутся жулики, которые ей воспользуются. Просто надо будет знать, что не всему сказанному по телефону или ТВ можно верить. В общем-то, что в этом плохого?

multlc Nov 6 2016 at 23:19

А сейчас как? Многому сказанному по ТВ можно верить?

GeeSVe Nov 7 2016 at 00:11

Ну как сказать… Вот я когда посуду мою, мне двух каплей моющего средства никогда не хватает! Прям аж бесит! А так всё хорошо :)

jex Nov 6 2016 at 23:49

Теперь всех либиралов наконец-то поймают за руку! А то они всё гудят «голос не мой, не похож, бла бла бла».

-1

alexvoz Nov 7 2016 at 00:04

За фотошоп можно было сказать тоже самое, подделка документов, фотографий с места преступлений и т.д. но массово сейчас как-то такое не наблюдается. Экспертиза почти всегда сможет отличить оригинал.

Alexufo Nov 7 2016 at 21:25

Вот фейк с пририсованными тачками к буку.

https://vimeo.com/146179080

Что скажет экспертиза?

agugnin Nov 7 2016 at 11:12

Тут есть и обратная сторона медали — всегда ситуацию можно будет обиграться так, что любая компрометирующая запись сможет быть подана как синтезированная поддлка, так что даже если что-то ляпнул, можно будет легче отмыться.

alexvoz Nov 7 2016 at 12:31

Так же, как и сейчас ссылаются на поддельные фото, видео и документы. Это не повод не развивать технологии )

artemerschow Nov 7 2016 at 13:16

Разумеется, разумеется https://gitlab.com/worldmind/fire-story

unxed Nov 7 2016 at 14:01

Если технология в принципе реальна — рано или поздно появится open source аналог — не на гитхабе так в даркнетах. Как прикажете это дело ограничивать или регулировать? Лучше сразу включать мозг и придумывать, как обезопасить себя/близких от потенциально опасных применений.

kalmarius Nov 6 2016 at 22:05

… и сразу вспомнился момент из «Терминатора-2», когда Т800 разговаривал по телефону голосом Джона Коннора.

Скрытый текст

alexvoz Nov 7 2016 at 00:12

На таких конференциях представляли технологии деблюра (восстановление четкости в изначально размытой или смазанной фотографии), удаления людей по нескольким фото, для редактора анимаций показывали панель генерирования реалистической анимации с физикой — это из того, что я вспомнил. Но пока что то не вижу я в их продуктах таких функций. Так что и эта технология может отправится «на полку».

SOb_S Nov 7 2016 at 07:36

В их продуктах может и нет, но на рынке же есть. В Affinity Photo, к примеру, есть Stack и операции с ним – те самые увеличение чёткости и удаление объектов.

alexvoz Nov 7 2016 at 12:40

В бэта-версии для Win таких функций не обнаружил. Судя по видео работы программы удаление объектов работает по тому же принципу, что и заливка content-aware в photoshop, причем примерно такого же качества. Видео демонстрации кардинального увеличения четкости не нашел (как на Adobe Max 2011).
Понятно, что есть и будут появляться программные продукты с полезными уникальными функциями. Еще это все можно вручную делать, хоть и долго. Я к тому, что сама Adobe показывает какую то интересную функцию или технологию а потом нигде ее не использует.

fundorin Nov 7 2016 at 20:37

Потому что у вас бета Designer, а он пишет про Photo.

Namynnuz Nov 7 2016 at 20:25

Вот прямо щас запустил фотошоп, скачал картинку с презентации и проделал все те же самые действия… Всё внимание на правый нижний угол: http://i.imgur.com/fI4GLc5.png

Было бы невероятно странно, если бы свёртка вдруг отказалась работать. В данном случае, вся сложность в автоматическом снятии с картинки корректного зерна, приведшего к искажению.

И нет, не обязательно результатом лабораторных изысканий становится коммерчески успешное приложение.

Meklon Nov 7 2016 at 22:05

На самом деле давно пора добавить копеечные акселерометры в фотоаппараты. И тогда траектория смаза связанная с движением камеры во время экспозиции может быть скорректирована.

ittakir Nov 7 2016 at 08:46

Ждем новых фейков от Киселева о «прослушке» Навального.

-2

SyGi Nov 7 2016 at 10:00

На каких языках всё это закодено?

alexisneverlate Nov 7 2016 at 11:28

Следующий шаг — синтезирование речи тем же голосом, но на другом языке, что подойдет для переозвучки фильмов с сохранением голоса тех же актеров, ну и конечно перевод твоей речи на лету на другой язык.
Перспективы фантастические и немного пугающие.

Особенно пугает тем что может любой человек позвонить и разговаривать голосом любого человека — без видеосвязи уже будешь не верить.

Radmin Nov 7 2016 at 11:41

Особенно пугает тем что может любой человек позвонить и разговаривать голосом любого человека — без видеосвязи уже будешь не верить.

Можете уже начинать не верить даже с наличием видеосвязи… :)
https://geektimes.ru/post/273030/

alexisneverlate Nov 7 2016 at 11:52

Да, но это реалистично (можно ведь лицо повернуть или еще что то сделать) будет мне кажется сложнее сделать чем голос т.е. какое то время хотя бы это даст шанс на проверку

safinaskar Nov 7 2016 at 19:02

У меня сильное подозрение, что это сгенерированно на компьютере.
Так что видеосвязи верить нельзя. Можно подделать целиком видео вместе со звуком.

Namynnuz Nov 7 2016 at 21:09

Ну это уж совсем какая-то пелевинщина полезла…

-1

alexvoz Nov 7 2016 at 11:49

Более качественное видео
https://youtu.be/I3l4XLZ59iw

RaymanOne Nov 7 2016 at 12:31

Объединяем вот с этим https://geektimes.ru/post/273030/

Bimawa Nov 7 2016 at 14:41

я один не понимаю в чем прикол?
И чем это отличается от проги say?

say "And ur I kiss my dog and love my wife"

Anarions Nov 7 2016 at 19:31

Тем что она может говорить это любым голосом?

SBKarr Nov 7 2016 at 16:20

На работе путём анализа видео установили, что это пропросту удобный GUI для уже существующей фичи в Adobe Audition. Оно берёт аналог звучания из образца и подставляет на место вставки. Например, слово wife в презентации было тупо скопировано с образца таким образом, что явно слышно падение интонации, характерное для конца утвердительного предложения в английском, хотя вставка была в середину. Проще говоря, система не умеет синтезировать речь, она умеет поставлять образцы звуков в соответствии с фонемами букв. Никакой хитрой начинки типа обученной нейросети там нет (или оно на совсем примитивном уровне), это просто адаптированный к речи интерфейс.

P.S. В сущности это действительно аналог say, если на вход подавать различные звуки для фонем помимо строки на чтение. Ничего больше.

-1

4ebriking Nov 8 2016 at 03:19

анекдот на эту тему вспомнился:

Во время записи сложной фортепианной партии пианист всё время сбивался — то в одном месте, то в другом…
наконец звукорежиссер не выдержал: «слушай, да не мучайся ты… сыграй гамму»

alecv Nov 8 2016 at 13:00

Ямаховские Вокалоиды не дают спать Adobe
https://ru.wikipedia.org/wiki/Vocaloid

ZaytsevArtem Nov 9 2016 at 17:06

Здарова, начальник! Начальник, привет!

vgray Jun 6 2020 at 20:32

Искал в поиске информацию на тему синтезирования голоса и наткнулся на эту статью, просто для истории, чтобы зафиксировать.

В 2016м году обсуждали простую программу, которая может подставлять фрагменты. А в 2019 году уже есть программы которые могут говорить голосами знаменитостей ( проект вера войс от Бекмамбетова). Полагаю, что еще через 2-3 года любые сервисы озвучки текста ( например voxworker.com/ru ) смогут тоже говорить любыми голосами.

Show the best of all time