Исследователи из Института AIRI, МФТИ и Лондонского института математических наук (LIMS) разработали бенчмарк BABILong для оценки производительности языковых моделей при работе с большими текстами. Бенчмарк включает 20 задач, ориентированных на поиск и анализ разрозненных фактов в крупных текстах, включая индукцию, дедукцию, связывание информации, простейшие вычисления и работу со списками. BABILong опубликован в публичном репозитории для поддержки научного сообщества и будет представлен на конференции NeurIPS 2024 в Ванкувере.
Длина контекста — объем информации, удерживаемой нейросетью для выполнения задачи. Несмотря на увеличение этого параметра в современных моделях, фактическое использование данных часто ограничено 10–20%, и модели преимущественно обращают внимание на первые и последние абзацы текста. Производительность существенно снижается с увеличением сложности задач.
BABILong измеряет качество ответа модели и зависимость точности от длины контекста. Основой послужил набор задач из BABI, ориентированный на базовые операции логики и арифметики, дополненный данными художественной литературы. Первоначально рассчитанные на короткие тексты задачи были распределены по литературным произведениям, требуя от моделей не просто находить информацию, но и анализировать её для получения верного ответа.
В ходе экспериментов исследователи использовали бенчмарк для анализа производительности популярных моделей при контексте длиной от тысячи до 50 миллионов токенов. Результаты показали, что модели теряют точность, когда объем данных превышает 25% от заявленной длины контекста, что подчеркивает необходимость улучшения обработки информации.
Команда также разработала адаптацию бенчмарка для русского языка — Libra, в сотрудничестве с R&D командой SberDevices. Libra тестирует языковые модели на длинных контекстах, предлагая аналогичные задачи для русскоязычных текстов.
Юрий Куратов
Кандидат физико-математических наук, Руководитель группы «Модели с памятью» лаборатории «Когнитивные системы ИИ» Института AIRI
«Разработка BABILong — это важный шаг в оценке реальной эффективности языковых моделей. Бенчмарк не только позволяет сравнивать корректность работы моделей на разной длине контекста, но и служит индикатором их качества, что демонстрирует, в каких аспектах требуется улучшение. Это значительно поможет разработчикам новых моделей».