Всем привет! Недавно мы — Алексей Спасёнов и Кирилл Никоров @KIIN из ML‑команды Мультимедиа Поиска Яндекса (Картинки и Видео) — и ещё 90 яндексоидов побывали на конференции ICLR-2025 и рады рассказать о свежих направлениях исследований в области мультимодального ранжирования.

С каждым годом эта область ML становится всё более важной. Люди всё чаще предпочитают получать информацию из визуальных медиа и кратких ИИ‑выжимок, а не привычных текстовых статей. При этом область мультимодального ранжирования является довольно сложной и интересной, так как она постоянно использует разные данные (тексты, аудио, изображения) и требует высокой вычислительной эффективности.
В этой статье мы хотели бы поделиться самыми интересными и перспективными для нашей области работами, которые мы выделили на конференции. Они помогут понять:
Как улучшить поиск по сложно структурированным разнородным данным.
Как оценить ситуацию с Out‑of‑Domain‑объектами в вашей поисковой системе и попытаться исправить проблемы.
Что нового на поле энкодинга картинок и видео.

Конференции такого масштаба традиционно собирают огромное количество исследователей со всего мира. На ICLR были представлены работы из самых разных направлений: от классического машинного обучения и диффузионных моделей до медицины, синтеза материалов и фундаментальных исследований в математике для e‑commerce.
А вот так выглядел главный зал конференции в первый день:

Лейтмотив конференции в этом году (ни за что не догадаетесь!) — применение и исследование больших языковых моделей (LLM): агенты, безопасность, Retrieval‑Augmented Generation (RAG) и многое другое.
В этом году премию Test of Time Award получила работа Adam: A Method for Stochastic Optimization (2015) от Diederik Kingma и Jimmy Ba. Авторы выступили перед аудиторией и поделились историей публикации — как и у многих значимых исследований, их путь был непростым и не обошёлся без реджектов.

Обзор статей
При выборе постеров и докладов для нашего обзора мы сосредоточились на технологиях, потенциально полезных для задач ранжирования, — таких как текстовое ранжирование, исследование поведения моделей за пределами обучающего распределения (OOD), анализ свойств CLIP‑подобных моделей, вопросы безопасности, а также применение мультимодальных LLM в поиске по изображениям и видео.
Представленные работы можно условно разделить на две категории:
Академические исследования, фокусирующиеся на отдельных аспектах моделей, — зачастую в условиях ограниченных вычислительных ресурсов и данных.
Разработки, претендующие на создание фундаментальных подходов в области ранжирования.
Часть из того, что мы хотели бы рассказать, уже была в докладах CTO Международного Поиска Алексея Степанова и руководителя отдела Research Артёма Бабенко на ICLR Recap. Чтобы не повторяться, оставим тут ссылку на доклады коллег.
Текстовые модели
В пайплайне мультимедийного поиска задачи, связанные с обработкой текстовой информации, так или иначе присутствуют в разных компонентах. Часто входные данные оказываются слабо структурированными, поэтому приходится использовать разнообразные методы для более качественного извлечения информации — как из самих документов, так и из поискового контекста.
Multi‑Field Adaptive Retrieval

Работа от авторов из Northeastern University, Augment Code и Microsoft посвящена улучшению поиска по структурированным данным с произвольным числом блоков с помощью подхода под названием Multi‑Field Adaptive Retrieval (MFAR).
Авторы комбинируют близость лексикографическую (BM25) и семантическую — на основе векторных представлений. Для вычисления близости между запросом и документом используется скалярное произведение (dot product), а энкодеры дообучаются в контрастивном режиме.
Также применяется механизм внимания: модель учится определять значимость каждого блока документа относительно запроса. На этапе генерации кандидатов сначала выбираются топ‑k документов стандартными методами ретривала, после чего проводится уточнение результатов с помощью MFAR.
Contextual Document Embeddings

Авторы этой работы из Cornell University вдохновляются идеями статистического подхода к поиску, где ключевую роль играет оценка важности термов в корпусе документов. В предложенной методике используется информация из соседних (похожих) документов, которая помогает уточнить значимость слов в контексте.
Метод применяется на этапе контрастивного обучения bi‑encoder‑моделей и оказывается особенно чувствителен к ложноотрицательным парам. Это связано с тем, что документы объединяются в кластеры по схожести, и в таких группах легко ошибочно принять релевантный документ за нерелевантный.
Чтобы снизить влияние ложноотрицательных примеров, авторы вводят дополнительную фильтрацию: при формировании батчей учитывается расстояние от документа до запроса, вычисленное с помощью предобученной модели.
Has My System Prompt Been Used? Large Language Model Prompt Membership Inference
Исследователи из Amazon предлагают довольно простую и эффективную процедуру расчёта статистического теста для проверки, использует ли LLM новые вводные из системного промта. Тест основывается на сравнении средних значений бертовых эмбеддингов того текста, который сгенерировала LLM с разными промтами. По их словам, для статзначимости даже на незначительных изменениях через LLM достаточно прогнать около 300 примеров для каждого промта.
Исследование OOD
In Search of Forgotten Domain Generalization
Авторы этой работы переосмысляют одно из ключевых свойств CLIP — его способность обобщаться на домены, не представленные в обучении. Главный вопрос, который они ставят: обусловлена ли эта способность преимущественно архитектурой модели и её масштабом или всё же огромным мультидоменным датасетом?
Чтобы ответить на него, авторы собрали два чистых монодоменных датасета:
LAION‑Natural (57 млн изображений) — только фотографии;
LAION‑Rendition (16 млн изображений) — только нарисованные картинки.
Оба датасета были получены путём фильтрации LAION-400M с использованием классификации. Авторы подчёркивают, что такие объёмы чистых монодоменных данных собираются впервые.
Результаты оказались неожиданными: модель CLIP, обученная только на Natural, демонстрирует крайне слабую способность обобщаться на Rendition. Её качество на OOD‑домене (Rendition) оказалось сопоставимо с лучшими результатами времён ImageNet.
Это ставит под сомнение популярное представление о «магии архитектуры» и подчёркивает, что ML‑сообщество всё ещё не до конца понимает, как именно масштаб модели и разнообразие обучающих данных влияют на способность к обобщению.
Кроме того, авторы провели исследование по подбору оптимального соотношения Natural‑ и Rendition‑примеров в обучающей смеси — с целью достижения максимального качества на обоих доменах.

Оказалось, что оптимальными значениями для доли Rendition:Natural служат значения от 1:3 до 1:1.
Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap

Авторы из Boston University предлагают подход к задаче Domain Generalization — улучшение обобщающей способности моделей без доступа к целевому домену.
Они улучшают качество поиска с использованием Approximate Nearest Neighbor (ANN) за счёт уточнённых эмбеддингов объектов. Для этого используется аугментация текстовых описаний классов: к каждому классу генерируется набор вариантов запросов, после чего вычисляются эмбеддинги этих текстов.
Центроиды изображений смещаются в сторону усреднённых позиций, рассчитанных относительно эмбеддингов аугментированных текстов. Полученные представления используются для дообучения CLIP — таким образом модель становится более устойчивой к вариативности запросов и доменных сдвигов.
Теория игр в задаче поиска
В рамках конференции были представлены не только практические работы, но и работы, посвящённые математическим задачам, в том числе и задачам, возникающим в поиске.
Интересный взгляд на задачу ранжирования с точки зрения теории игр. В работе предлагается рассмотреть взаимодействие между поисковым движком, пользователями и контент‑мейкерами (веб‑мастерами, блогерами), как T‑раундную игру.
В этой игре все контент‑мейкеры имеет свою основную тематику и в каждом раунде стараются опубликовать новый документ по такой стратегии, чтобы охватить как можно более широкую аудиторию и сохранить при этом свою тематику. Заинтересованность пользователей в тех или иных темах моделируется с помощью вероятностного распределения.
Авторы доказывают теорему, что если ранжирующая функция поискового движка имеет вид PRF — пропорциональной функции с убывающей дифференцируемой функцией активации
и полуметрикой
(может не удовлетворять неравенству треугольника):
, где — запрос пользователя,
— документы контент‑мейкеров, то такая игра сходится к равновесию Нэша тогда и только тогда, когда функция активации
вогнута.
Равновесие Нэша в этом контексте означает, что в какой‑то момент контент‑мейкерам больше не придётся подстраиваться под стратегии своих конкурентов и изменять публикации в зависимости от них. Им просто нужно будет «быть собой», следовать собственной оптимальной стратегии и хорошо освещать свою тематику. Звучит как довольно приятное свойство поискового движка, не правда ли?
На самом деле, здорово, что PRF имеет относительно простой вид. Нам кажется, что большинство поисковых движков сейчас вполне могут быть представлены в таком виде. Действительно, берём в качестве косинусное расстояние между эмбеддингами запроса и документа, в качестве
— что‑нибудь около тождественной функции, нормализуем по всей базе документов и сразу же получаем вид PRF. А значит, дальше дело за самими контент‑мейкерами!
В статье помимо теоретических результатов также описываются интересные численные эксперименты, направленные на изучение состояния равновесия и скорости сходимости к нему, в зависимости от гиперпараметров игры.
CLIP
TULIP: Token‑length Upgraded CLIP

Авторы из University of Amsterdam решают задачу адаптации текстовой части CLIP к длинному контексту. Данная проблема возникает из‑за того, что большая часть открытых моделей была обучена на коротких текстах. В качестве решения в работе рассматривается подход Rotary Positional Encoding (RoPE).
Также используется двухстадийное обучение текстового энкодера: на первом этапе происходит дистилляция из текстового энкодера CLIP в ученика с длиной контекста 77 токенов с последующим дообучением на оставшемся тексте. Полученное решение позволяет анализировать более длинный текстовый контекст без переобучения визуального энкодера.
Подробности — на странице проекта.
LeanVec: Searching vectors faster by making them fit

Авторы из Intel предлагают решение по ускорению процедуры поиска:
Собираем выборку «запрос — документ», вычисляем матрицы A и B, преобразующие данные в меньшую размерность.
На этапе построения базы вычисляем Bx. Получаем базу документов меньше размерности и строим ANN (quant).
В процессе поиска делаем Aq, на основе которой из графа ищем ближайшие документы, после чего уточняем кандидатов на этапе реранкинга по оригинальным векторам.
Решается задача минимизации:
В статье приводят итоги экспериментов: меньшая размерность может быть в 3–4 раза меньше исходной без значимой потери качества поиска. К тому же полученное преобразование устойчиво к OOD. Такой подход позволяет ускорить поиск по базе в пять раз без потери качества.
MLLM
Авторы предлагают MLLM‑фреймворк для проверки качества поисковой системы в рамках еком‑платформы.Фреймворк основывается на наборе больших моделей:

LLM‑генератор подробно описывает для запроса, какие товары хотелось бы видеть по данному запросу в выдаче (например, «чёрные кроссовки»).
MLLM‑аннотатор по тройке (запрос, аннотация, товар) собирает всю имеющуюся информацию о товаре (описание, его изображения) и определяет, насколько эта тройка согласованна. Кроме того, аннотатор предоставляет объяснение, почему он выставил тот или иной уровень релевантности.
Запросы и товары извлекаются из поисковых логов.
По результатам экспериментов и сравнения разметки данного подхода с 20 000 человеческих оценок релевантности, авторы выяснили, что качество полученной MLLM‑разметки вполне сравнимо с человеческим. При этом им удалось значительно сократить как денежные, так и временные затраты на разметку.
MM‑Embed: Universal Multimodal Retrieval with Multimodal LLMs

В данной работе от NVIDIA и University of Waterloo предлагается методика улучшения мультимодального поиска на основе MLLM. На первом этапе выполняют Fine‑Tune LlavaNext под различные задачи ранжирование (с текстом, с картинкой, и с картинкой и текстом), в том числе с мультимодальным запросом, сохраняя качество унимодальных бенчмарков.
Полученную модель также можно использовать на этапе переранжирования, подбирая правильный промт. А ещё она может выполнять роль учителя, например для CLIP, с целью улучшения его ранжирующих способностей.
Веса модели собраны на отдельной странице.
Безопасность
Interpreting the Second‑Order Effects of Neurons in CLIP
В работе предлагается новый способ интерпретации отдельных нейронов в архитектуре CLIP. Авторы предлагают рассматривать не только непосредственное влияние изменений значения нейрона на выход модели (например, через прямое residual‑соединение с выходом) — это эффект первого порядка, — но и влияние такого изменения на выходы всех последующих блоков внимания — это эффект нейрона второго порядка.

Авторы отмечают, что такой подход позволяет выделить довольно специфичные домены активации нейронов. Высокие значения эффекта второго порядка наблюдаются только на <2% изображений. При этом текстовое представление (близкое по CLIP‑эмбеддингам) этих изображений получается довольно разнородным. Например, в один и тот же домен попадают такие классы, как ship и car.
С одной стороны, это позволяет генерировать довольно забавные атаки на сеть, с другой — с помощью данных эффектов второго порядка авторам удаётся реализовывать сегментацию изображений довольно неплохого качества.

Атака генерируется следующим способом:
Берутся текстовые концепты изображений с высоким эффектом второго порядка одного и того же нейрона.
С активным использованием этих концептов составляется описание выдуманного изображения.
Один из важных концептов в этом описании подменяется на любой другой класс.
С помощью любой text‑to‑image‑модели по данному описанию генерируется изображение.
На сгенерированных таким образом изображениях у нашей CLIP‑модели наблюдаются довольно глупые ошибки классификации.
Сегментация осуществляется через выделения наиболее чувствительных к меткам класса нейронов и анализ их влияния на патчи изображения. Ниже — сравнение сегментации через эффект первого (средний ряд) и второго (нижний ряд) порядков.

Ещё больше деталей — на странице проекта.
Century: A Framework and Dataset for Evaluating Historical Contextualisation of Sensitive Images

Исследователи из DeepMind предлагают новый бенч для оценки понимания мультимодальными моделями разных исторических событий, стратифицированных по типам событий (люди, места и т. д.) и по типу входных данных, из‑за неоднозначности в их интерпретации. Для сбора датасета исследователи использовали информацию из графа знаний, а также LLM‑модель.
Видео
TeaserGen: Generating Teasers for Long Documentaries
Авторы предлагают метод автоматической генерации тизеров к документальным фильмам на основе современных ASR‑, TTS‑ и LLM‑технологий. Основная идея заключается в том, что в документальном кино вся суть передаётся речевым сопровождением, тогда как визуальный ряд выполняет лишь вспомогательную функцию.
Для дообучения и замера качества своих моделей авторы представили новый датасет DocumentaryNet — это 1269 высококачественных документальных фильмов (видео, речь, музыка, звуковые эффекты, субтитры и теги) и их тизеров.
Схема самого метода выглядит довольно просто:
Делим все субтитры (получаем их через ASR либо ручную расшифровку) на 10 сегментов, суммаризируем каждый из сегментов в одно предложение через LLM и пересказываем эти 10 предложений, тоже через LLM.
Сгенерированный рассказ переводим в аудиоформат через TTS‑модель.
Далее для каждого предложения из рассказа выбираем подходящие кадры из фильма. Это нужно делать так, чтобы длина кадра соответствовала аудиодлине предложения. Для этого есть два подхода:
TeaserGen‑PT. Для каждого предложения используем готовую text‑video‑модель (UniVTG) и строим кривые похожести; далее бинарным поиском находим порог так, чтобы получить необходимую длину клипа — частые смены сцен.

TeaserGen‑LR. Обучаем отдельную CLIP‑модель для отображения text → Eimg из текста в картиночное представление. Далее с помощью дополнительных диффузионных моделей и kNN находим наиболее подходящие под наши предложения кадры из фильма.

Для оценки качества такого метода авторы предлагают использовать покадровую F1-меру между сгенерированным и истинным тизерами. Кроме того, для прокси‑оценки визуального качества тизеров предлагаются такие метрики, как доля уникальных кадров и частота смены сцены. Разметка с помощью асессоров, как самая дорогая, является финальным этапом оценки модели.
По замерам авторов, на автоматических метриках лучше показывает себя метод TeaserGen‑LR, а вот на асессорах — уже TeaserGen‑PT. По сравнению с базовыми методами, у TeaserGen‑PT более высокое качество и на автоматических, и на асессорских метриках, так что авторы отдают предпочтение этому подходу.
На странице проекта можно ознакомиться со сгенерированными данными методами тизерами. Честно говоря, для финального бизнес‑решения качество пока оставляет желать лучшего. Но вот в качестве промежуточного этапа в какой‑либо большой системе анализа видео такой подход может быть вполне полезным, так как при такой обработке происходит сжатие фильмов дольше 30 минут в трёхминутные тизеры, как по визуальной, так и по аудиоразмерностям.
VideoGLUE: Video General Understanding Evaluation of Foundation Models
Статья от DeepMind, в которой для основных прикладных задач анализа видео проводится сравнение фундаментальных видеомоделей (в форматах Frozen Backbone и Fine‑Tuning) со специфичными для каждой из задач методами.
По результатам сравнения был собран бенчмарк для разносторонней оценки качества фундаментальных видеомоделей — VideoGLUE. Весь код доступен по ссылке.
В бенчмарке предлагается измерять общее качество модели на основе трёх основных задач: видеоклассификации (VC), пространственно‑временной локализации (STAL) и просто временной локализации (TAL). Для каждой из задач используется от одного до пяти открытых датасетов:

В качестве специфичных видеомоделей берутся текущие SOTA‑модели на рассматриваемых датасетах.
На роль фундаментальных предлагаются следующие модели:

Итоговые результаты сравнения представлены в виде наглядного колеса баланса:

Основной вывод статьи: текущие фундаментальные видеомодели всё ещё сильно проигрывают специфичным моделям на множестве задач, в отличие от текстовых и картиночных моделей. Есть задачи, на которых даже полный Fine‑Tuning даёт околонулевой прирост качества. Это говорит о том, что анализ видео в настоящий момент является довольно перспективным направлением с точки зрения исследований.
TempMe: Video Temporal Token Merging for Efficient Text‑Video Retrieval

В данной статье авторы предлагают новую архитектуру для ранжирования видео по текстовому запросу. Temporal Token Merging (TempMe) — эффективная в вычислительном плане архитектура с небольшим количеством параметров. Основа архитектуры — text‑video‑CLIP‑модель.
Выигрыш в вычислительном плане достигается благодаря так называемым блокам Intra‑ и Cross‑clip Merging. В них происходят агрегации эмбеддингов похожих кадров и патчей. Тем самым от слоя к слою уменьшается не только пространственная размерность, но и временная.
Авторы получают ускорение в 1,8 раза и улучшение качества ранжирования видео на 4,4% (в терминах mAR@10), по сравнению с предыдущими вычислительно эффективными методами text‑video retrieval. В данных использовались как очень короткие видео по 4–5 секунд (датасет LSMDC), так и довольно продолжительные — вплоть до 20 минут (датасет ActivityNet). Однако домен всех датасетов, конечно же, сильно смещён относительно стандартного поискового потока.
Vision‑LSTM: xLSTM as Generic Vision Backbone

Не так давно классическая архитектура LSTM была расширена экспоненциальными гейтами и памятью с параллелизуемой структурой — xLSTM. Это позволило частично избавиться от проблем LSTM, сделать эту архитектуру более масштабируемой и вычислительно эффективной. Авторы данной статьи адаптируют xLSTM к задачам компьютерного зрения, по аналогии с ViT‑ами.
Основной результат статьи — это архитектура Vision‑LSTM (ViL). Она представляет собой несколько xLSTM‑блоков, которые последовательно обрабатывают токены видео сверху вниз и снизу вверх. Как и у классической модели LSTM, у этого варианта линейная вычислительная сложность. При этом на задачах классификации (ImageNet-1K), сегментации (ADE20K) и переноса знаний (VTAB-1K) модель показывает вполне сопоставимое с ViT‑ами качество.

Вот то, что мы нашли интересным и перспективным для мультимодального ранжирования на ICLR-2025. Такие конференции привлекают прежде всего возможностью обмена идеями с ведущими исследователями, демонстрацией самых актуальных разработок и нетворкингом. Они предоставляют отличную среду для вдохновения и получения новых идей для исследований и решения наших рабочих задач.
Особенно запоминаются кулуарные беседы с участниками конференции. Это непередаваемое ощущение — видеть, как люди со всего мира интересуются тем же, чем увлечены вы; решают задачи, похожие на ваши; сталкиваются с такими же трудностями и открыто делятся своим видением, как их преодолеть.
Надеемся, что наш обзор окажется полезным для вас. Пишите в комментариях, какая из работ показалась вам наиболее интересной, что из опубликованного на ICLR-2025 было самым полезным для вас и из какой вы области ML?
Кстати, разборы этих и других статей с ICLR можно почитать в телеграм‑канале ML Underhood.