Как стать автором
Поиск
Написать публикацию
Обновить

Комментарии 63

Проклятый прогресс, теперь звонки от родственников с просьбой срочно 100 штук закинуть станут реалистичнее.
НЛО прилетело и опубликовало эту надпись здесь
Ничто не мешает сказать «У меня поменялся номер карты, запиши»
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Осталось прикрутить нейросеть распознающую эмоции в голосе-источнике, и накладывающую эти эмоции на переведённый результат.
все эмоции будут закодированы в сабах
НЛО прилетело и опубликовало эту надпись здесь
Вот и найдется наконец полезное применение эмодзи)
Ну основу W3C запилили: EmotionML.
Осталось сделать свободный вариант этого всего дела.
Более того, озвучка будет но русском, но с оригинальными голосами иностранных актёров.
Вот тут встает интересный вопрос, станут ли анимешники смотреть аниме с русской озвучкой, но голосами сэйю, или продолжат смотреть с оригинальной озвучкой и сабами?
Ну… послушайте японскую калинку-малинку.
Даже имея текст перед глазами, мне с трудом удавалось разобрать что он бормочет. Тембр голоса может передает и верно, но читает так же как любая другая электронная читалка.
В принципе, чего-то подобного давно ожидал… Недавно показали гугловский алгоритм, который читает почти так же как человек, даже вздыхает и паузы делает… Следом наверняка натаскают нейросеть на имитацию разных голосов и манеры речи.
Потом через год-другой эти технологии обработают напильником, и скоро можно будет, например, навигатор в машине заставить голосом Левитана объявлять повороты и названия населенных пунктов… Или голосом уже умерших актеров продублировать фильм. Эраст Гарин — король из золушки, мог бы читать сказки. Раневская читать рассказы Чехова и т.д.
Все предпосылки уже есть, технологии почти готовы.
Короче, ждём…
наконец получим навигацию настоящим голосом жириновского)
А уж если эту штуку петь научить… диджеи разного рода получат новый виток к развитию.
> Все предпосылки уже есть, технологии почти готовы.

Вот и с управляемым термоядерным синтезом так. Лет 50 уже)
Интересно, как скоро голоса начнут законодательно защищаться?

Насколько я знаю, сейчас существует защита визуального образа (статья 152.1 ГК РФ) — визуальный образ человека нельзя использовать без согласия этого человека (или его родственников, если человек уже умер).
Для голоса пока ничего похожего не нагуглил.
Слишком опасная технология для выпуска её в качестве реального продукта. Очень много можно найти способов использовать её в противозаконных, преступных целях: любого человека можно скомпрометировать, всего лишь изменив пару слов в его речи. При этом регулировать распространение программ в эру интернета слишком проблематично, поэтому надеяться на то, что данная технология не попадёт в руки мошенников и других преступников, не приходится.
Все в порядке, эволюция сделает свое дело.
Я думаю у вас пройдет это глумление с возрастом.
В тринадцать лет нормально так думать.
Возраст как будто обозначает наличие мозгов.
Есть такая иерархия живых.
Живые это:
1) Я, дети
2) жена муж
3) мать отец
4) дед и бабка
5) дядя — тетя

Все, а дальше все те — на кого распространяется эволюция. То есть дураки. А раз они дураки то должны умирать по законам эволюции.
Нужно мне говорить, что это убеждение в эволюции среди дураков строится на религиозных убеждениях?
Я не говорю что программа топика — зло. Я имею ввиду что выражения про эволюци..( ляляля что то там. эволюция сделает свое дело) признаны доказать себе превосходство над теми кто не читает geektimes.
"… и других..."
20 минут записей голоса любого человека найдётся в небезызвестном «пакете», И отредактированный могут сохранять туда же.
Мошенники и преступники и так живут неплохо, ведь суть их деятельности не в технологиях, а в знании процессов у человека в голове. В том числе в знании о том, как сделать так, чтобы человек не обратил внимания на различия в голосе. Компрометация и так успешно осуществляется с помощью единственной безвредной записи путём добавления собеседника и перестановки слов.

Реально беспокоится можно актёрам озвучания, когда к технологии приделают генератор эмоций. Очень много проходных текстов можно будет записывать и без человека. Они и сейчас не слишком довольны жизнью… https://www.google.ru/search?q=pf,fcnjdrf+frn%60hjd+jpdexfybz&ie=utf-8&oe=utf-8&gws_rd=cr&ei=eoAfWK3-EomksAHDi5nQBA#newwindow=1&tbm=nws&q=SAG-AFTRA

P.S. А база PRISM будет побольше базы из известного пакета, но почему первым всплывает именно он? Всё таки, АНБ и начали раньше, и размах покруче, и касается это граждан любой страны, а не одной конкретной…
Генератор эмоций не нужен — эмоции можно брать из голоса озвучивающего.актёра.
Просто он один сможет выдавать все виды голосов — от самого низкого хриплого баса до тончайшего сопрано, так что вместо команды будет достаточно 1-2 профессионалов на все звуки.
Где-то я уже видел что-то похожее
Кажется, у Гоблина :)
Ну что ж, ждём новых переводов от VoCo-Гоблина
Как и многие другие технологии и разработки — она может и будет использована не только во благо, но и во вред. Обязательно найдутся жулики, которые ей воспользуются. Просто надо будет знать, что не всему сказанному по телефону или ТВ можно верить. В общем-то, что в этом плохого?

А сейчас как? Многому сказанному по ТВ можно верить?

Ну как сказать… Вот я когда посуду мою, мне двух каплей моющего средства никогда не хватает! Прям аж бесит! А так всё хорошо :)
Теперь всех либиралов наконец-то поймают за руку! А то они всё гудят «голос не мой, не похож, бла бла бла».
За фотошоп можно было сказать тоже самое, подделка документов, фотографий с места преступлений и т.д. но массово сейчас как-то такое не наблюдается. Экспертиза почти всегда сможет отличить оригинал.
Вот фейк с пририсованными тачками к буку.

https://vimeo.com/146179080

Что скажет экспертиза?
Тут есть и обратная сторона медали — всегда ситуацию можно будет обиграться так, что любая компрометирующая запись сможет быть подана как синтезированная поддлка, так что даже если что-то ляпнул, можно будет легче отмыться.
Так же, как и сейчас ссылаются на поддельные фото, видео и документы. Это не повод не развивать технологии )
Если технология в принципе реальна — рано или поздно появится open source аналог — не на гитхабе так в даркнетах. Как прикажете это дело ограничивать или регулировать? Лучше сразу включать мозг и придумывать, как обезопасить себя/близких от потенциально опасных применений.
… и сразу вспомнился момент из «Терминатора-2», когда Т800 разговаривал по телефону голосом Джона Коннора.
Скрытый текст

На таких конференциях представляли технологии деблюра (восстановление четкости в изначально размытой или смазанной фотографии), удаления людей по нескольким фото, для редактора анимаций показывали панель генерирования реалистической анимации с физикой — это из того, что я вспомнил. Но пока что то не вижу я в их продуктах таких функций. Так что и эта технология может отправится «на полку».
В их продуктах может и нет, но на рынке же есть. В Affinity Photo, к примеру, есть Stack и операции с ним – те самые увеличение чёткости и удаление объектов.
В бэта-версии для Win таких функций не обнаружил. Судя по видео работы программы удаление объектов работает по тому же принципу, что и заливка content-aware в photoshop, причем примерно такого же качества. Видео демонстрации кардинального увеличения четкости не нашел (как на Adobe Max 2011).
Понятно, что есть и будут появляться программные продукты с полезными уникальными функциями. Еще это все можно вручную делать, хоть и долго. Я к тому, что сама Adobe показывает какую то интересную функцию или технологию а потом нигде ее не использует.
Потому что у вас бета Designer, а он пишет про Photo.
Вот прямо щас запустил фотошоп, скачал картинку с презентации и проделал все те же самые действия… Всё внимание на правый нижний угол: http://i.imgur.com/fI4GLc5.png

Было бы невероятно странно, если бы свёртка вдруг отказалась работать. В данном случае, вся сложность в автоматическом снятии с картинки корректного зерна, приведшего к искажению.

И нет, не обязательно результатом лабораторных изысканий становится коммерчески успешное приложение.
На самом деле давно пора добавить копеечные акселерометры в фотоаппараты. И тогда траектория смаза связанная с движением камеры во время экспозиции может быть скорректирована.
Ждем новых фейков от Киселева о «прослушке» Навального.
На каких языках всё это закодено?
Следующий шаг — синтезирование речи тем же голосом, но на другом языке, что подойдет для переозвучки фильмов с сохранением голоса тех же актеров, ну и конечно перевод твоей речи на лету на другой язык.
Перспективы фантастические и немного пугающие.

Особенно пугает тем что может любой человек позвонить и разговаривать голосом любого человека — без видеосвязи уже будешь не верить.
Особенно пугает тем что может любой человек позвонить и разговаривать голосом любого человека — без видеосвязи уже будешь не верить.

Можете уже начинать не верить даже с наличием видеосвязи… :)
https://geektimes.ru/post/273030/

Да, но это реалистично (можно ведь лицо повернуть или еще что то сделать) будет мне кажется сложнее сделать чем голос т.е. какое то время хотя бы это даст шанс на проверку

У меня сильное подозрение, что это сгенерированно на компьютере.
Так что видеосвязи верить нельзя. Можно подделать целиком видео вместе со звуком.
Ну это уж совсем какая-то пелевинщина полезла…
Более качественное видео
https://youtu.be/I3l4XLZ59iw
Объединяем вот с этим https://geektimes.ru/post/273030/
я один не понимаю в чем прикол?
И чем это отличается от проги say?

say "And ur I kiss my dog and love my wife"
Тем что она может говорить это любым голосом?
На работе путём анализа видео установили, что это пропросту удобный GUI для уже существующей фичи в Adobe Audition. Оно берёт аналог звучания из образца и подставляет на место вставки. Например, слово wife в презентации было тупо скопировано с образца таким образом, что явно слышно падение интонации, характерное для конца утвердительного предложения в английском, хотя вставка была в середину. Проще говоря, система не умеет синтезировать речь, она умеет поставлять образцы звуков в соответствии с фонемами букв. Никакой хитрой начинки типа обученной нейросети там нет (или оно на совсем примитивном уровне), это просто адаптированный к речи интерфейс.

P.S. В сущности это действительно аналог say, если на вход подавать различные звуки для фонем помимо строки на чтение. Ничего больше.
анекдот на эту тему вспомнился:
Во время записи сложной фортепианной партии пианист всё время сбивался — то в одном месте, то в другом…
наконец звукорежиссер не выдержал: «слушай, да не мучайся ты… сыграй гамму»
Ямаховские Вокалоиды не дают спать Adobe
https://ru.wikipedia.org/wiki/Vocaloid
Искал в поиске информацию на тему синтезирования голоса и наткнулся на эту статью, просто для истории, чтобы зафиксировать.

В 2016м году обсуждали простую программу, которая может подставлять фрагменты. А в 2019 году уже есть программы которые могут говорить голосами знаменитостей ( проект вера войс от Бекмамбетова). Полагаю, что еще через 2-3 года любые сервисы озвучки текста ( например voxworker.com/ru ) смогут тоже говорить любыми голосами.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации