
ИИ-подразделение компании *Meta представило Perception Encoder Audiovisual (PE-AV) - мультимодальную модель, которая объединяет аудио, видео и текст в единое пространство эмбеддингов. PE-AV является техническим ядром, лежащим в основе SAM Audio, и предназначена для улучшения понимания сцены в задачах, где важно учитывать синхронный контекст изображения и звука.
Модель умеет извлекать векторы признаков из аудио- и видеопотоков, формируя совместные аудиовизуальные представления. Это повышает точность в задачах кросс-модального поиска, детекции звуков, анализа видео и глубокого понимания сцен. Например, PE-AV может одновременно определить, какой звук относится к какому объекту на видео, или идентифицировать действия и события, комбинируя визуальную и аудиосоставляющую.
PE-AV доступна в шести чекпоинтах различного размера - от Small до Large - с вариациями по количеству обрабатываемых кадров, что позволяет подбирать оптимальный вариант для конкретных задач. Модель опубликована с открытым кодом на GitHub, а веса доступны на Hugging Face, что делает её доступной для исследователей, разработчиков и команд, занимающихся мультимодальными проектами.
Технология PE-AV демонстрирует, что мультимодальные модели становятся всё более необходимыми для решений в области ИИ для анализа видео, аудио и текстовой информации одновременно. Она открывает возможности для улучшения систем видеонаблюдения, мультимедийного поиска, создания умных ассистентов и аналитики контента, где важна синхронизация звука и изображения.
Релиз PE-AV показывает, что *Meta продолжает инвестировать в мультимодальные ИИ-технологии, которые позволяют объединять разные типы данных в единое представление. Это особенно актуально для исследователей и компаний, работающих с комплексными мультимедийными потоками, где требуется высокая точность и совместное понимание аудио и ��изуального контекста.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
*Meta признана экстремистской организацией и запрещена в РФ.
