Pull to refresh

Comments 31

Теперь в экранках будет всегда чистый звук;)
Когда нибудь и «экранок» не будет, а только Full-HD восстановленные нейросетью по записям из ручки-камеры.)
И даже ручки не надо. Пришёл из кино и рассказываешь нейросети: «Ну там, короче, всё так зашибись, и махача, короче, такая, ну просто отвал башки, и космические корабли такие, в натуре, а этот м#дак в чёрном, прикинь, говорит: «Люк, я тебя, типа, породил, а теперь, короче, опаньки», а потом, херакс, и наши, типа, победили». Пара минут — и фильм готов.
Слишком много энтропии. Но вот создание таких фильмов как «Варкрафт» могло бы обойтись без участия человека.
Свинку Пэпу можно генерировать прямо в ящике.
Недавно смотрел экранку Civil War. Снятая в 4К со штатива и уменьшенная до 1080 она ничем не отличалась от рипа. Порой даже как-то… лучше выглядела))))
>>Учёные предполагают, что эта разработка найдёт широкое применение в кинематографе и на телевидении…

Поправлю данную фразу более приближенно к реальности: «ученые предполагают, что эта разработка даст очередной жирный грант, позволящий им и далее заниматься всяческой интересной фигней, а, при удачном стечении обстоятельств, позволит основать новый стартап, развести лохов на финансирование и обогатить отцов-основателей»

P.S. У кого там из фантастов MIT-шный AI «навернул» (тут должно быть другое слово) Землю через 400 милилсекунд после обретения самосознания? C этими MIT-шными учеными нужно бы построже :D

P.P.S. Тэг в P.S. был опущен ;)
Если их технология доходит до коробочного решения, то это много дешевле чем восстанавливать звук в студии — почему бы и нет?
Где вы прочитали про «коробочное решение»-то? Лично я обратил внимание на фразу: «В результате эксперимента ИИ удалось обмануть людей в 40% случаев», что, на мой взгляд, говорит лишь о том, что три из пяти человек заметили явную «лажу» (абсолютно неудовлетворительный результат для кинематографа. Опять-таки непонятно, как «обманулись» эти 40 процентов.
40 процентов — это маркетология, не для специалистов. Не обращайте просто внимание на это.

А вот про уровень «коробочности» решения — я нигде ничего не видел, потому и написал «Если их технология доходит… то:»
Какая «маркетология»-то? (судя по тому, как мой пост заминусовали, окружающие все-таки придерживаются мнения, что это «чистая наука», они же пока не продают ничего. Да и процент для «маркетологии» уж больно низок ;) Из текста опять-таки ясно, что ни о каком «коробочном решении» речь не идет — весьма ранние эксперименты с непонятным результатом (кстати, то, что они тестировали через «Amazon Mechanical Turk», тоже весьма показательно — рекомендую взглянуть на тамошнюю оплату; как ожидать реальных результатов от таких тестеров, просто непонятно. Для справки замечу, что всевозможные компании и исследовательские лаборатории в США регулярно набирают добровольцев для тестов, только оплата там обычно не центы, а сотни долларов.
Вас заминусовали за обратное. Показана интересная идея, с некоторой реализацией. Сообщество же намекает: «Ваши предположения о мотивации учёных оставьте при себе»
А с моей точки зрения, описана довольно странная идея, с абсолютно непонятным будущим (глубоко сомневаюсь, что эта идея найдет хоть какое-то практическое применение), зато обильно уснащенная модными баззвордами: ИИ, роботы и т.п.

А эксперимент с копеечными тестерами (вопрос еще раз — почему? Если это серьезная разработка, что им мешало нанять людей локально, и провести реальный серьезный эксперимент?) и 40% результатом — это вообще курам на смех.

Сейчас, похоже, просто тренд такой — нацепить на любую разработку яркий лейбл «AI» и продать подороже…
Прогнать бы видео игры на гитаре или хотя бы на барабанной установке.
>>На основании этой информации она генерирует звук, который человек в 40% случаев считает более реалистичным, чем настоящий звук.
Обожаю то, как люди умеют оперировать процентами.
Видеоролики со звуком использовались для обучения нейросети, а расставленные вручную метки — только для анализа результата обучения нейросети, но не для обучения её.


Правда??? Вот это прорыв… Хотя, постойте: зачем в цепочке «видео -> изображение -> звук» текстовые метки? Да, как-то неудобное получилось… Но ведь всё равно круто — по видео восстановить звук? Что говоришь, мальчик? Это только классификатор, который не может выйти за пределы множества известных классов, то есть всё ещё не умеет делать обобщения? Сейчас вот прям совсем неловко вышло.

Если серьёзно, то статья — отличный показатель того, чем сейчас занимаются 95% исследовательских институтов. Алгоритм примерно такой:

1. Так заходим в интернет, смотрим… что там у гуглов? — Ага, RNN, LSTM, TensorFlow, свёрточные сети.
2. Вообщем так, народ, сейчас в моде нейронные сети. Будем из бросать, пилить, ломать, лизать, засовывать куда-нибудь, пока не получим материал, который можно оформить в виде статьи.
3. Пишем статью, где экстраполируем наш результат и рассказываем, как сильный ИИ перенесёт столицу в Нью-Васюки.
4. ???
5. PROFIT!
6. 10 GOTO 1.
Насколько я понял — исходные звуки не использовались как семплы, а использовались как исходный материал для обучения. В итоге мы должны получить не классификатор а генератор. При этом использовалась ограниченная выборка для барабанной палочки и элементов природы, для простоты.
Классификатор является частью генератора. Классифицируются не куски аудио целиком, а какие-то их короткие фрагменты, переведённых их временной в частотную область. Поищите «classify» по тексту статьи.

Генерация происходит или простой подстановкой аудио-сэмпла или обратным переходом их частотной области во временную:

To synthesize sound from these videos, we present an algorithm that uses a recurrent neural network to map videos to audio features. It then converts these audio features to a wave-form, either by matching them to exemplars in a database and transferring their corresponding sounds, or by parametrically inverting the features.


Идею касательно восстановления с помощью LSTM принял к сведению, спасибо.
Если умеет читать по губам, полезная штука)
Вы ведь в курсе, что в данной работе восстанавливается только звук того, по чему бьют барабанной палочкой? Нафиг бы такое чтение по губам.
Москва не сразу строилась
Только если бить по губам, если верить описанию:)
А смогут ли они оживить звук в немом кино? (работы Чарли Чаплина например)
А зачем? Там вся прелесть именно в том, что оно немое. Но теоретически, наверное смогут.
Пусть тогда визуализируют потоки воздуха, например от вентилятора, какими-нибудь частицами или дымом.
Cкоро такое сделают для игр и без всяких грантов.
Например, этим можно еще сильнее улучшить распознавание речи — подцепляем модуль считывания по губам и вуаля.
UFO just landed and posted this here
Эта технология была бы полезна в видеоиграх и, особенно, в набирающей популярность VR. Например, когда герой шляется по лесу, переходит ручей и падает в яму, то всё звуковое сопровождение будет генерироваться на ходу и каждый раз звучать уникально. Атмосферность будет на выстоте.
Sign up to leave a comment.

Articles