Диалог — самая распространённая форма общения. В основном мы общаемся текстом (да здравствуют мессенджеры), но также регулярно пользуемся фотографиями или аудиосообщениями для детализации и придания окраски диалогу. Понимать текст, изображения и аудио в диалоге с человеком, одновременно сохраняя предыдущий контекст беседы, — настоящий вызов для современных AI-моделей. Приглашаем присоединиться к решению этой сложной, но увлекательной задачи на соревновании AI Journey Contest!

В этом году трек Strong Intelligence на AI Journey Contest шагнул ещё дальше: мы решили проверить, насколько хорошо модели могут поддерживать диалог в нескольких модальностях. Участникам предстоит разработать архитектуру и обучить LLM-модель, способную вести мультимодальный диалог с пользователем, выступая в роли полезного, вежливого и правдивого ассистента. Задача разработана совместно с Институтом искусственного интеллекта AIRI.

Модель должна уметь принимать на вход данные трёх типов: текст, изображение и звук, анализировать их, учитывать их положение в контексте диалога и генерировать ответ на английском языке.

В этом году список задач заранее не регламентирован, чтобы не ограничивать разрабатываемые модели в возможностях. Участникам необходимо научить модель понимать все типы данных из предложенного списка модальностей, чтобы генерировать ответы на неограниченный спектр задач, возникающих в контексте мультимодального диалога.

Поскольку цель соревнования не предполагает конкретных задач, мы определили для диалогов четыре ключевых типа.

  1. Текст — текст (Text + Text). Стандартные унимодальные диалоги, в которых вопросы пользователя и ответы модели представлены исключительно в текстовой форме. Модель должна обладать знаниями о мире и поддерживать контекст диалога, чтобы корректно отвечать на возникающие вопросы.

  2. Изображение — текст (Image + Text). Бимодальные диалоги, которые содержат одно или несколько изображений и текстовые вопросы, ответы на которые опираются на представленную на изображении информацию.

  3. Аудио — текст (Audio + Text). Бимодальные диалоги, которые включают в себя одну или несколько аудиозаписей и текстовые вопросы, для ответа на которые необходимо распознавание аудио.

  4. Изображения — аудио — текст (Image + Audio + Text). Трёхмодальные диалоги, которые объединяют все модальности соревнования. В диалоге могут встретиться изображения и аудиозаписи в одном или нескольких экземплярах. Текстовые вопросы могут быть заданы по изображениям и аудио — как к данным одной модальности, так и сразу обеих.

Любой диалог представляет собой список реплик пользователя и ответов ассистента, где каждая реплика представлена списком словарей (каждый словарь соответствует конкретной модальности в рамках одного запроса участника диалога).

Решением является JSON-файл определённого формата, формирующийся на платформе. На его основе будут рассчитаны две метрики: генеративная (общеизвестная метрика METEOR умножается на весовой коэффициент в зависимости от типа диалога) и скрытая (на основе внутренней оценки уверенности модели в ответе). Итоговая оценка мультимодальной модели будет сформирована из значений метрик качества по всем типам диалогов, при этом диалоги с бОльшим количеством модальностей получат более высокий коэффициент.

В рамках соревнования также вводится дополнительная номинация для топ-10 команд на приватном лидерборде: лучшие модели примут участие в импровизированной игре на эрудицию и ответят на 10 сложных и нетривиальных вопросов — ответы на них предполагают наличие некоторой цепочки логических рассуждений, а не просто наличие общих знаний. Вопросы будут сочетать текстовую, визуальную и аудио информацию.

Присоединиться к AI Journey Contest 2023 можно как самостоятельно, так и в составе команды — главное условие, чтобы все участники были старше 18 лет.

Познакомиться с заданиями можно уже сегодня, а решения нужно загрузить на платформу DS Works до 7 ноября 2023 года.

В этом году победители соревнований разделят рекордный призовой фонд — более 11 млн рублей. Информация об организаторе и полные правила конкурса — на сайте.