Задача Emotional FusionBrain 4.0: итоги и победители / Хабр

Всем привет! На связи снова лаборатория FusionBrain!

В сентябре мы анонсировали задачу Emotional FusionBrain 4.0, которая стала частью соревнования AI Journey Contest. Участникам предстояло разработать универсальную мультимодальную модель, которая учится понимать социальные взаимодействия людей по видео — другими словами, создать эмоциональный искусственный интеллект.

Теперь пришла пора подводить итоги!

Но начнём мы, конечно же, с описания задачи, чтобы уважаемые читатели оказались в едином контексте :)

Формулировка задачи

Сначала стоит напомнить, какие у нас были вводные нашего трека.

Данные. Модели участников должны уметь работать с тремя модальностями на входе: видео, аудио и текст. Каждой видеозаписи в наших данных сопутствовал ряд задач на английском языке по развитию сюжета и по событиям, происходящим на записи. Задачи мы условно разделили на три типа:

Video QA — задачи, для ответа на которые модель должна опираться минимум на визуальную составляющую видеозаписи.
Video‑Audio QA — это усложненные Video QA задачи, где для правильного ответа необходимо опираться также на аудио‑модальность в качестве важного источника информации.
Video Captioning — задачи, направленные на базовое понимание моделью искусственного интеллекта визуального повествования на видеозаписи.

Для непредвзятой оценки решений участников мы собрали собственный тестовый датасет из «сырых» источников без использования готовых бенчмарков или датасетов. В нём мы и объединили все разнообразные типы задач, разделив его на две части: публичный и приватный — в последний попала часть наиболее сложных, с нашей точки зрения, задач.

Метрики. Результаты решений участников мы оценивали с помощью двух метрик:

Accuracy (доля правильных ответов), которую использовали для оценки качества ответов на задачи с выбором варианта ответа (QA‑задачи).
METEOR для оценки генерации ответов, которые выдавали модели, на задаче детального описания видео (Captioning).

Для создания единой итоговой оценки мультимодальной модели мы ввели интегральную метрику I, которая формировалась путем агрегации значений метрик качества по всем типам задач.

Дополнительные номинации. Кроме того, в рамках контеста было введено две дополнительных номинации:

«Ролевая игра» — за способность разработанной мультимодальной модели решать ряд задач по видеозаписям ролевой интеллектуальной игры: отвечать на вопросы по сюжету игры, определять роли участников, оценивать правдоподобность тезисов, озвучиваемых и демонстрируемых игроками.
«Самое быстрое решение» — традиционная номинация, где выбирается самое быстрое и вычислительно эффективное решение.

Ограничения и ресурсы. Помимо прочего, в этом году у нас был ряд ограничений, накладываемых на решения:

Фиксированный докер образ с предустановленным набором библиотек и без доступа в интернет. В образе было собрано некоторое количество весов для мультимодальных моделей и специальных энкодеров модальностей.
Лимит на объем загружаемого решения 4.5 Гб и лимит дискового пространства 10 Гб.
Ограничение на общее время работы решения на каждой из частей тестового датасета — 3.5 часа.
Технические параметры: 243 Gb RAM, 16 CPU‑cores, 1 GPU Tesla A100 (80 Гб).

Решения нужно было загрузить на платформу DS Works до 28 октября 2024 года.

Победители

Победителей мы определяли по приватному лидерборду, который формировался на основе итоговой интегральной метрики I (чем больше значение I, тем выше рейтинг участника на лидерборде).

Суммарно в этом году более 40 команд загрузили на платформу свои успешные решения. Достаточно быстро на публичном лидерборде выделились топ-3 команды, решения которых значительно преуспели в метриках на фоне остальных участников.

Расстановка мест на приватном лидерборде, тем не менее, оставалась интригой, так как задачи в приватном датасете были сложнее. Однако лидирующие команды не сдали свои позиции и на нём, лишь поменялись местами внутри топ-3. Это показало, что созданные ими мультимодальные подходы стабильны в своем качестве и хорошо масштабируются на новые типы заданий.

В рамках дополнительных номинаций мы проверяли решения участников на отдельном датасете и определили следующих призеров:

Победитель в первой дополнительной номинации «Ролевая игра» — perevalov7071.
Победитель во второй дополнительной номинации «Самое быстрое решение» с весьма значительным отрывом во времени инференса — arli0031.

Ограничения, накладываемые в этом году, не могли позволить участникам вырваться вперед ни за счет «серебряной пули» — т. е. выбора лучшей и самой большой мультимодальной модели из доступных на данный момент, — ни за счет тяжелого и полноценного обучения на узко специфическую задачу понимания эмоций людей.

Все это должно было привести к очевидной и желательной для нас стратегии — поиску или изобретению подходов для легковесной адаптации и оптимизации мультимодальной модели на определенный целевой домен. Поэтому пути и подходы, с помощью которых самые изобретательные и удачливые участники контеста пришли к выдающимся результатам, представляют для нас особенный интерес.

Думаем, теперь мы готовы кратко рассмотреть решения топ-3 команд‑победителей.

Инсайты победных решений?

1 место - команда DeepPavlov

Очевидный лидер нашей задачи команда DeepPavlov с самого начала продумала лучшую стратегию решения задачи и сделала основную ставку на данные. Они справедливо заключили, что другие участники начнут подбирать гиперпараметры моделей и обучения, чтобы повысить свои метрики на публичном лидерборде хотя бы на 1–2%, в то время как тщательная работа с доменом и анализ данных к задаче смогут дать, хоть и отложенный, но куда более значительный прирост качества.

Базов��я архитектура: Qwen2-VL-7B‑Instruct

Обработка аудио: отдельная модель Whisper‑base для транскрибации речи в текст (ASR)

Ключевые идеи подхода:

Знай свою задачу «в лицо» (даже если датасет тебе не доступен 😊). На основе дата‑пробинга ребята выяснили, что задача Video‑QA в тестовом датасете требует более глубокого понимания пространственных и временных динамик в контексте видео (например «what did person A do after person B left the room?»), а не только сосредоточена на тривиальных фактических или статических деталях (например «what color is the man's shirt?»). В результате чего они выбрали, отфильтровали по релевантности и собрали для дообучения датасеты с искомыми типами вопросов по видео (к примеру, MVBench). Для задачи Captioning участники сделали акцент на взаимодействии людей и эмоциях на видео. Они собрали набор данных для обучения модели из отфильтрованного по этим тематикам открытого датасета описаний видеозаписей — ShareGPTVideo.
LoRA адаптеры. Учитывая ограничения в ресурсах для обучения модели, участники остановились на подходе обучения отдельных адаптеров LoRA для каждой из типов задач: QA и Captioning. Команда провела отдельные эксперименты по выбору гиперпараметров для LoRA и смогла не только без потери качества решения существенно снизить ранг разложения, но и в результате заметно сократить размер решения!
Квантизация решения. Ограничения по времени инференса и объёму загружаемого решения толкают на бо́льшую оптимизацию мультимодальной модели. Ребята пошли двумя путями: во‑первых, квантизовали веса базовой VLLM до 4 бит точности и, во‑вторых, эффективно распараллелили свое решение на CPU/GPU процессы.
Работа со звуком. Так как базовые мультимодальные модели редко включают в себя параметры для понимания аудио, то участники предложили простой подход транскрибации звуковой составляющей видеозаписи в текст.

Основные выводы (TLDR): Тщательное изучение задачи и подбор данных для обучения дал существенное преимущество подходу. Вкупе с продуманным пайплайном подхода и грамотным составом самбита, он обеспечил отличный рецепт победы на соревновании.

2 место - команда 326606

В этой команде всего один исследователь. Столкнувшись со сложностями и ограничениями контеста, он выбрал для себя несколько иную, очень интересную стратегию — адаптация и мерждинг весов моделей.

Базовая архитектура: LLaVA‑OneVision-0.5-sis

Обработка аудио: отдельная модель Whisper‑base для транскрибации речи в текст (ASR) и модель BEATs для генерации описания аудио

Ключевые моменты подхода:

Объединение моделей (мерджинг). Как использовать новую SOTA модель, которая только‑только вышла на просторы HuggingFace, принимая во внимание ограниченный и фиксированный на момент начала задачи набор мультимодальных моделей в образе? Участник ответил на этот вопрос достаточно изобретательно:
- Во‑первых, он подобрал в образе мультимодальную архитектуру, которая наиболее похожа в плане компонентов на желаемую. Особенно важно, что те части общей модели, которые обучались в обоих подходах, были идентичны (к примеру, LLM или адаптеры).
- Затем он предположил, что веса целевой модели ( $Q2_{new}$ ) можно «приблизить» относительно исходной () через некую дельту матриц весов Δ:
  $Q2_{new} = Q2 + Δ$ .
  Причем Δ в достаточной степени разряжения, чтобы ее можно было представить через матрицу более низкого ранга (то есть применив truncated SVD разложение): .
- Еще более эффективно такую разность весов можно представить через подход SVD‑LLM.
- А чтобы проконтролировать «вклад» каждой из моделей в итоговую их версию, участник применил также метод Spherical merge (SLERP):
  $SLERP(Q2_{new}, Q2) = Q2 + Δ,$
  где в $SLERP(Q2_{new}, Q2)$ мы определяем весовые коэффициенты следующим образом (— матрица весов первой модели, а — матрица весов второй модели):
  $\Theta=arccos(W_1\times W_2)$ ,
  $W_{new}=sin(\Theta-t\Theta)/sin(\Theta)\times W_1+sin(t\Theta)/sin(\Theta)\times W_2$ .
Масштабирование на более длинные видео. Длины видеозаписей могут сильно варьироваться. Для лучшего понимания контента в более длинных видео модели потребуется сэмплировать больше опорных кадров. Увеличение числа кадров провоцирует сильный рост визуального контекста, к которому модель нужно адаптировать. Участник предложил без дополнительного файнтюна улучшить изначальное RoPE позиционное кодирование подходом YaRN.

Основные выводы (TLDR): В условиях ограничений на добавление новых мультимодальных подходов в решение задачи эффективным подходом становится продуманный мерджинг весов моделей — он позволяет привнести новые знания и навыки в уже реализованный подход без фактического его дообучения. Подобная изобретательность и находчивость помогли участнику 326606 существенно превзойти подходы на основе бейзлайна и занять второе место в лидерборде.

3 место - команда fffrrt5736

И последний наш призер в рамках основной номинации — также одиночка, участник с ником fffrrt5736. Он занял третье место на приватном лидерборде, объединив в своем лучшем решении уже описанную ранее методику обновления модели за счет объединения весов, наблюдательность и интуицию в разработке успешной стратегии.

Базовая архитектура: LLaVA‑OneVision-0.5-sis

Обработка аудио: аудио‑энкодер BEATs с MLP адаптером как аудио часть мультимодальной модели

Ключевые моменты подхода:

Влияние звука на решение задачи. Добавив аудио энкодер с адаптером к стандартной архитектуре LLaVA‑NeXT участник обратил внимание, что сама базовая модель слишком сильно опирается на визуальную модальность, практически игнорируя инъекции аудио модальности в процессе ответа на вопросы. То есть наивного добавления звука в мультимодальную модель без совместного обучения оказалось недостаточно для полноценного объединения информации, извлекаемой из разных модальностей.
Способ выбора варианта ответа в задачах Video‑QA. Следующим интересным шагом участника стала замена способа, как выбрать вариант ответа в задаче Video‑QA и Audio‑Video‑QA. Бо́льшая часть команд в своих решениях перенесла реализацию выбора ответа для этих задач из бейзлайна, в то время как этот участник заменил его генерацией одной единственной буквы ответа. При этом, он заменил стандартные обозначений букв, присваиваемых вариантам ответа в multiple‑choice QA (A, B, C, D,…), на другие буквы алфавита, отметив сильный перевес числа ответов в пользу варианта А. Эти, казалось бы, простые модификации, дали существенный прирост в метриках!
Объединение моделей (мерджинг) и LoRA. И в этом решении не обошлось без обновления весов базовых мультимодальных моделей, как за счет мерджинга с более новыми их версиями, так и за счет добавления обученных LoRA адаптеров с низким рангом к разным частям подхода.

Основные выводы (TLDR): Не только данные и обновление весов моделей могут поднять ваше решение в лидерборд соревнования, но и быстрые, простые модификации, казалось бы, стандартных компонентов.

Заключение

В этом году задача Emotional FusionBrain вышла очень насыщенной — участники постарались выйти за пределы бейзлайна и построить собственные интересные решения. Каждая команда из топа лидерборда привнесла что‑то свое в решение, и это «свое» делает выбор самого «прорывного» решения не таким очевидным. Что касается остальных команд, то им есть куда расти: кому‑то не хватило силы базового решения, кто‑то уделил слишком мало времени изучению задачи или обучению собственных адаптеров для модели.

Увидеть награждение победителей AIJ Contest можно будет в прямом эфире на главной сцене AI Journey 13 декабря �� программа уже на сайте конференции.

Надеемся, что вам, как и нам, было очень интересно посмотреть за ходом мысли лидеров. Увидимся в следующем году!

Задача Emotional FusionBrain 4.0: итоги и победители