Глядя на фотографию, человек легко может предположить, какой звук должен соответствовать этому кадру.

Знания о звуках приходят с жизненным опытом. Мы наблюдаем различные события в жизни и слушаем звуки. С опытом в мозге накапливается большая коллекция. Человек проводит быстрый ассоциативный поиск в памяти, подбирает наиболее подходящий звук — и воспроизводит его, наблюдая фотографию.

Примерно по такому же принципу работает и новая программа, разработанная специалистами Disney Research и Швейцарской высшей технической школы Цюриха для подбора звуков к фотографиям. В принципе, авторы программы специально старались скопировать именно человеческий процесс установления взаимосвязи между звуком и картинкой.

Информацию о звуках можно получать не только из реальности. В детском садике всех детей обязательно учат, что коровка говорит «му».

В очень большой степени мозговую коллекцию звуков пополняют кинофильмы и компьютерные игры. Ведь там часто показывают события, о которых у людей нет жизненного опыта. Поэтому почти каждый знает, как звучит выстрел из пистолета, хотя мало кто слышал его в реальности. Можно предположить, что звуки из кинофильмов/игр составляют больше половины всех звуков, накопленных в памяти за жизнь человека.

Программу Disney Research тоже обучали составлять коллекцию звуков по видеоряду. Это не такая уж простая задача, ведь система должна отфильтровать большое количество посторонних звуков и точно определить, какому объекту соответствует какой звук.

Интерпретация визуального контента — ключевая задача машинного зрения. За последние годы в этой области получено много впечатляющих результатов в классификации и распознавании объектов, сегментации, трекинге и 3D-реконструкции. А вот обучение нейросети взаимосвязи визуального контента и аудиоданных — до сих пор довольно неизученная область.

В этой связи нужно заметить, что человеческий мозг способен на поразительные вещи. Например, он может подобрать «подходящий» звук, который в принципе не может существовать. Например, звук растущего цветка, хотя цветы в принципе не издают никаких звуков. Авторы новой программы не ставили целью скопировать функциональность мозга человека в области таких фантазий. Хотя такое возможно, наверное.

Как генерировать звук

Один из вариантов подбора звука для объекта — синтез звука по физическим характеристикам объекта на видео. Но таким способом можно озвучивать очень ограниченное количество объектов.

В отличие от него, система Disney Research и Швейцарской высшей технической школы Цюриха собрала образцы уже готовых звуков с реальных видеороликов. На видео показаны примеры таких видеороликов, которые использовались для обучения.

Затем систему научили отделять нужный звук от посторонних. Главный принцип в этой процедуре — найти похожий звук во всех видеороликах одного объекта. Этот звук и будет звуком объекта, а всё остальное — фоновый шум.

После того как система научилась выделять соответствующий звук для определённого объекта, остаётся тривиальная задача, поскольку распознавание объектов на видео системы машинного зрения достаточно хорошо выполняется уже сейчас.

Исследователи проводили эксперименты на 9 типах объектов с 10−20 образцами видео продолжительностью 15−90 с для каждого из них. Для выделения нужных звуков использовали классификатор kNN.

Опрос людей показал, что они узнают звуки, отфильтрованные программой, гораздо лучше, чем неотфильтрованные.

Для чего это нужно

Помимо самой логичной задачи самообучения роботов и других систем искусственного интеллекта, которые копируют функциональность человеческого мозга, сопоставление звука графическим объектам пригодится во многих полезных приложениях машинного зрения и мультимедиа. Например, для автоматизации работы шумовика — специалиста по записи шумовых эффектов в кино и компьютерных играх.

Известно, что при съёмке кинофильмов звуки выходят не слишком выразительными. Для улучшения выразительности кино звуковые эффекты потом отдельно накладывают на видеоряд. Так получается гораздо более зрелищное и эффектное кино. Кроме того, шумовик помогает устранить дефекты, когда реальный звук не соответствует видеоряду. Например, когда в кино герой сильно бьёт противника — а в реальности актёры только симулируют удары. В этом случае шумовик исправляет дефект, то есть накладывает реалистичные звуки хруста костей, чавкающей плоти, вытекающего мозга и другие привлекательные эффекты.

Другое возможное применение программы — озвучка окружающего мира для людей с нарушениями слуха. Теперь они смогут не просто слышать окружающие звуки, но слышать их в лучшем качестве, сочными, без ненужных шумов — как в кино. Обычные люди без нарушений слуха будут даже завидовать инвалидам, как сейчас спортсмены с одной ногой завидуют полностью безногим, у которых есть конкурентное преимущество — более продвинутые бионические протезы, так что они бегают гораздо быстрее и легко побеждают одноногих (и даже двуногих) атлетов.

Подобные технологии дополненной реальности наверняка станут востребованными в индустрии развлечений, в которой человек воспринимает окружающую реальность через компьютерный интерфейс. Наконец-то мы сможем блокировать ненужных людей из окружающего мира (как в сериале «Чёрное зеркало»). Система будет просто фильтровать звук их голоса. Заменять его на другой, разрешённый звук. Изображение заблокированного человека будет заменяться на другой объект с генерацией соответствующих звуков. Как вариант, вы просто можете поменять голоса коллег в офисе и родственников на более приятные голоса. Например, голос подруги можно изменить на сексуальный прононс во время вечерних ласк, добавить недостающие звуки и т.д.

Программу научили подбирать реалистичные звуки для фотографий

Как генерировать звук

Для чего это нужно

Публикации