
Исследовательская команда, связанная с Meta*, представила SAM Audio, расширение концепции Segment Anything на аудио. Если оригинальный SAM умел выделять объекты на изображениях и видео, то новая модель решает более сложную задачу и разделяет звуки внутри аудио-визуального контента.
SAM Audio работает как мультимодальная система. Пользователь может указать, какой звук нужно извлечь, тремя способами. Первый это текстовый запрос, например голос диктора или фоновая музыка. Второй это выбор временного отрезка, когда нужный звук хорошо слышен. Третий и самый необычный способ это клик по объекту прямо в кадре видео, после чего модель сама сопоставляет визуальный источник со звуком.
Модель рассчитана на работу со сложными миксами, где несколько источников перекрывают друг друга. Она способна выделять речь, музыкальные инструменты, окружающие шумы и отдельные эффекты даже в насыщенных сценах. Это делает SAM Audio полезной для видеомонтажа, подкастов, кино, а также для датапайплайнов обучения мультимодальных моделей.
Разработчики выложили код инференса и веса модели в трех вариантах small, base и large. Проект доступен на GitHub и Hugging Face под открытой лицензией SAM. Кроме того, запущен официальный Playground, где можно протестировать возможности модели без локальной установки.
Выход SAM Audio показывает, что идея Segment Anything постепенно превращается в универсальный слой для работы не только с изображениями, но и с любыми типами медиа.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Meta* и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации.
