Comments 63
Проклятый прогресс, теперь звонки от родственников с просьбой срочно 100 штук закинуть станут реалистичнее.
+23
UFO just landed and posted this here
Осталось прикрутить нейросеть распознающую эмоции в голосе-источнике, и накладывающую эти эмоции на переведённый результат.
+1
Более того, озвучка будет но русском, но с оригинальными голосами иностранных актёров.
+3
Даже имея текст перед глазами, мне с трудом удавалось разобрать что он бормочет. Тембр голоса может передает и верно, но читает так же как любая другая электронная читалка.
+1
В принципе, чего-то подобного давно ожидал… Недавно показали гугловский алгоритм, который читает почти так же как человек, даже вздыхает и паузы делает… Следом наверняка натаскают нейросеть на имитацию разных голосов и манеры речи.
Потом через год-другой эти технологии обработают напильником, и скоро можно будет, например, навигатор в машине заставить голосом Левитана объявлять повороты и названия населенных пунктов… Или голосом уже умерших актеров продублировать фильм. Эраст Гарин — король из золушки, мог бы читать сказки. Раневская читать рассказы Чехова и т.д.
Все предпосылки уже есть, технологии почти готовы.
Короче, ждём…
Потом через год-другой эти технологии обработают напильником, и скоро можно будет, например, навигатор в машине заставить голосом Левитана объявлять повороты и названия населенных пунктов… Или голосом уже умерших актеров продублировать фильм. Эраст Гарин — король из золушки, мог бы читать сказки. Раневская читать рассказы Чехова и т.д.
Все предпосылки уже есть, технологии почти готовы.
Короче, ждём…
+8
наконец получим навигацию настоящим голосом жириновского)
А уж если эту штуку петь научить… диджеи разного рода получат новый виток к развитию.
А уж если эту штуку петь научить… диджеи разного рода получат новый виток к развитию.
+2
> Все предпосылки уже есть, технологии почти готовы.
Вот и с управляемым термоядерным синтезом так. Лет 50 уже)
Вот и с управляемым термоядерным синтезом так. Лет 50 уже)
0
Интересно, как скоро голоса начнут законодательно защищаться?
Насколько я знаю, сейчас существует защита визуального образа (статья 152.1 ГК РФ) — визуальный образ человека нельзя использовать без согласия этого человека (или его родственников, если человек уже умер).
Для голоса пока ничего похожего не нагуглил.
Насколько я знаю, сейчас существует защита визуального образа (статья 152.1 ГК РФ) — визуальный образ человека нельзя использовать без согласия этого человека (или его родственников, если человек уже умер).
Для голоса пока ничего похожего не нагуглил.
0
Слишком опасная технология для выпуска её в качестве реального продукта. Очень много можно найти способов использовать её в противозаконных, преступных целях: любого человека можно скомпрометировать, всего лишь изменив пару слов в его речи. При этом регулировать распространение программ в эру интернета слишком проблематично, поэтому надеяться на то, что данная технология не попадёт в руки мошенников и других преступников, не приходится.
-2
Все в порядке, эволюция сделает свое дело.
+4
Я думаю у вас пройдет это глумление с возрастом.
-5
В тринадцать лет нормально так думать.
+1
Возраст как будто обозначает наличие мозгов.
Есть такая иерархия живых.
Живые это:
1) Я, дети
2) жена муж
3) мать отец
4) дед и бабка
5) дядя — тетя
Все, а дальше все те — на кого распространяется эволюция. То есть дураки. А раз они дураки то должны умирать по законам эволюции.
Нужно мне говорить, что это убеждение в эволюции среди дураков строится на религиозных убеждениях?
Я не говорю что программа топика — зло. Я имею ввиду что выражения про эволюци..( ляляля что то там. эволюция сделает свое дело) признаны доказать себе превосходство над теми кто не читает geektimes.
Есть такая иерархия живых.
Живые это:
1) Я, дети
2) жена муж
3) мать отец
4) дед и бабка
5) дядя — тетя
Все, а дальше все те — на кого распространяется эволюция. То есть дураки. А раз они дураки то должны умирать по законам эволюции.
Нужно мне говорить, что это убеждение в эволюции среди дураков строится на религиозных убеждениях?
Я не говорю что программа топика — зло. Я имею ввиду что выражения про эволюци..( ляляля что то там. эволюция сделает свое дело) признаны доказать себе превосходство над теми кто не читает geektimes.
0
"… и других..."
20 минут записей голоса любого человека найдётся в небезызвестном «пакете», И отредактированный могут сохранять туда же.
20 минут записей голоса любого человека найдётся в небезызвестном «пакете», И отредактированный могут сохранять туда же.
0
Мошенники и преступники и так живут неплохо, ведь суть их деятельности не в технологиях, а в знании процессов у человека в голове. В том числе в знании о том, как сделать так, чтобы человек не обратил внимания на различия в голосе. Компрометация и так успешно осуществляется с помощью единственной безвредной записи путём добавления собеседника и перестановки слов.
Реально беспокоится можно актёрам озвучания, когда к технологии приделают генератор эмоций. Очень много проходных текстов можно будет записывать и без человека. Они и сейчас не слишком довольны жизнью… https://www.google.ru/search?q=pf,fcnjdrf+frn%60hjd+jpdexfybz&ie=utf-8&oe=utf-8&gws_rd=cr&ei=eoAfWK3-EomksAHDi5nQBA#newwindow=1&tbm=nws&q=SAG-AFTRA
P.S. А база PRISM будет побольше базы из известного пакета, но почему первым всплывает именно он? Всё таки, АНБ и начали раньше, и размах покруче, и касается это граждан любой страны, а не одной конкретной…
Реально беспокоится можно актёрам озвучания, когда к технологии приделают генератор эмоций. Очень много проходных текстов можно будет записывать и без человека. Они и сейчас не слишком довольны жизнью… https://www.google.ru/search?q=pf,fcnjdrf+frn%60hjd+jpdexfybz&ie=utf-8&oe=utf-8&gws_rd=cr&ei=eoAfWK3-EomksAHDi5nQBA#newwindow=1&tbm=nws&q=SAG-AFTRA
P.S. А база PRISM будет побольше базы из известного пакета, но почему первым всплывает именно он? Всё таки, АНБ и начали раньше, и размах покруче, и касается это граждан любой страны, а не одной конкретной…
+3
Генератор эмоций не нужен — эмоции можно брать из голоса озвучивающего.актёра.
Просто он один сможет выдавать все виды голосов — от самого низкого хриплого баса до тончайшего сопрано, так что вместо команды будет достаточно 1-2 профессионалов на все звуки.
Просто он один сможет выдавать все виды голосов — от самого низкого хриплого баса до тончайшего сопрано, так что вместо команды будет достаточно 1-2 профессионалов на все звуки.
0
Как и многие другие технологии и разработки — она может и будет использована не только во благо, но и во вред. Обязательно найдутся жулики, которые ей воспользуются. Просто надо будет знать, что не всему сказанному по телефону или ТВ можно верить. В общем-то, что в этом плохого?
+2
За фотошоп можно было сказать тоже самое, подделка документов, фотографий с места преступлений и т.д. но массово сейчас как-то такое не наблюдается. Экспертиза почти всегда сможет отличить оригинал.
+1
Тут есть и обратная сторона медали — всегда ситуацию можно будет обиграться так, что любая компрометирующая запись сможет быть подана как синтезированная поддлка, так что даже если что-то ляпнул, можно будет легче отмыться.
+1
Разумеется, разумеется https://gitlab.com/worldmind/fire-story
0
Если технология в принципе реальна — рано или поздно появится open source аналог — не на гитхабе так в даркнетах. Как прикажете это дело ограничивать или регулировать? Лучше сразу включать мозг и придумывать, как обезопасить себя/близких от потенциально опасных применений.
0
… и сразу вспомнился момент из «Терминатора-2», когда Т800 разговаривал по телефону голосом Джона Коннора.
Скрытый текст
+1
На таких конференциях представляли технологии деблюра (восстановление четкости в изначально размытой или смазанной фотографии), удаления людей по нескольким фото, для редактора анимаций показывали панель генерирования реалистической анимации с физикой — это из того, что я вспомнил. Но пока что то не вижу я в их продуктах таких функций. Так что и эта технология может отправится «на полку».
0
В их продуктах может и нет, но на рынке же есть. В Affinity Photo, к примеру, есть Stack и операции с ним – те самые увеличение чёткости и удаление объектов.
0
В бэта-версии для Win таких функций не обнаружил. Судя по видео работы программы удаление объектов работает по тому же принципу, что и заливка content-aware в photoshop, причем примерно такого же качества. Видео демонстрации кардинального увеличения четкости не нашел (как на Adobe Max 2011).
Понятно, что есть и будут появляться программные продукты с полезными уникальными функциями. Еще это все можно вручную делать, хоть и долго. Я к тому, что сама Adobe показывает какую то интересную функцию или технологию а потом нигде ее не использует.
Понятно, что есть и будут появляться программные продукты с полезными уникальными функциями. Еще это все можно вручную делать, хоть и долго. Я к тому, что сама Adobe показывает какую то интересную функцию или технологию а потом нигде ее не использует.
0
Вот прямо щас запустил фотошоп, скачал картинку с презентации и проделал все те же самые действия… Всё внимание на правый нижний угол: http://i.imgur.com/fI4GLc5.png
Было бы невероятно странно, если бы свёртка вдруг отказалась работать. В данном случае, вся сложность в автоматическом снятии с картинки корректного зерна, приведшего к искажению.
И нет, не обязательно результатом лабораторных изысканий становится коммерчески успешное приложение.
Было бы невероятно странно, если бы свёртка вдруг отказалась работать. В данном случае, вся сложность в автоматическом снятии с картинки корректного зерна, приведшего к искажению.
И нет, не обязательно результатом лабораторных изысканий становится коммерчески успешное приложение.
0
Ждем новых фейков от Киселева о «прослушке» Навального.
-2
На каких языках всё это закодено?
0
Следующий шаг — синтезирование речи тем же голосом, но на другом языке, что подойдет для переозвучки фильмов с сохранением голоса тех же актеров, ну и конечно перевод твоей речи на лету на другой язык.
Перспективы фантастические и немного пугающие.
Особенно пугает тем что может любой человек позвонить и разговаривать голосом любого человека — без видеосвязи уже будешь не верить.
Перспективы фантастические и немного пугающие.
Особенно пугает тем что может любой человек позвонить и разговаривать голосом любого человека — без видеосвязи уже будешь не верить.
+2
Особенно пугает тем что может любой человек позвонить и разговаривать голосом любого человека — без видеосвязи уже будешь не верить.
Можете уже начинать не верить даже с наличием видеосвязи… :)
https://geektimes.ru/post/273030/
+1
У меня сильное подозрение, что это сгенерированно на компьютере.
Так что видеосвязи верить нельзя. Можно подделать целиком видео вместе со звуком.
+1
Более качественное видео
https://youtu.be/I3l4XLZ59iw
https://youtu.be/I3l4XLZ59iw
0
Объединяем вот с этим https://geektimes.ru/post/273030/
+2
я один не понимаю в чем прикол?
И чем это отличается от проги say?
И чем это отличается от проги say?
say "And ur I kiss my dog and love my wife"
0
На работе путём анализа видео установили, что это пропросту удобный GUI для уже существующей фичи в Adobe Audition. Оно берёт аналог звучания из образца и подставляет на место вставки. Например, слово wife в презентации было тупо скопировано с образца таким образом, что явно слышно падение интонации, характерное для конца утвердительного предложения в английском, хотя вставка была в середину. Проще говоря, система не умеет синтезировать речь, она умеет поставлять образцы звуков в соответствии с фонемами букв. Никакой хитрой начинки типа обученной нейросети там нет (или оно на совсем примитивном уровне), это просто адаптированный к речи интерфейс.
P.S. В сущности это действительно аналог say, если на вход подавать различные звуки для фонем помимо строки на чтение. Ничего больше.
P.S. В сущности это действительно аналог say, если на вход подавать различные звуки для фонем помимо строки на чтение. Ничего больше.
-1
анекдот на эту тему вспомнился:
Во время записи сложной фортепианной партии пианист всё время сбивался — то в одном месте, то в другом…
наконец звукорежиссер не выдержал: «слушай, да не мучайся ты… сыграй гамму»
0
Ямаховские Вокалоиды не дают спать Adobe
https://ru.wikipedia.org/wiki/Vocaloid
https://ru.wikipedia.org/wiki/Vocaloid
0
Здарова, начальник! Начальник, привет!
0
Искал в поиске информацию на тему синтезирования голоса и наткнулся на эту статью, просто для истории, чтобы зафиксировать.
В 2016м году обсуждали простую программу, которая может подставлять фрагменты. А в 2019 году уже есть программы которые могут говорить голосами знаменитостей ( проект вера войс от Бекмамбетова). Полагаю, что еще через 2-3 года любые сервисы озвучки текста ( например voxworker.com/ru ) смогут тоже говорить любыми голосами.
В 2016м году обсуждали простую программу, которая может подставлять фрагменты. А в 2019 году уже есть программы которые могут говорить голосами знаменитостей ( проект вера войс от Бекмамбетова). Полагаю, что еще через 2-3 года любые сервисы озвучки текста ( например voxworker.com/ru ) смогут тоже говорить любыми голосами.
0
Sign up to leave a comment.
«Фотошоп» для человеческой речи