Лаборатория Марка Цукерберга представила жёсткий бенчмарк для проверки LLM на выполнение сложных инструкций / Хабр

*Meta выпустила AdvancedIF, уникальный инструмент для тестирования больших языковых моделей, который оценивает способность LLM справляться с многослойными и высоко когнитивными задачами. Набор данных включает более 1600 промптов, каждый из которых содержит шесть одновременно действующих условий. В этих условиях учитываются требования к формату, стилю, логическим связям между частями текста, ограничения на нежелательные действия модели и перекрестные зависимости, что делает тест крайне сложным даже для самых современных моделей.

AdvancedIF позволяет проверять не только разовые ответы, но и способность моделей сохранять контекст в длинных диалогах, управляться через системные промпты и корректно реагировать на последовательные инструкции. В качестве арбитра используется модель o3-mini, которая сверяет ответы LLM с критериями, разработанными экспертами-людьми. Такой подход позволяет объективно измерять точность и полноту выполнения заданий и выявлять реальные пределы моделей в сложных сценариях.

Инструментарий поддерживает пакетную обработку, что даёт возможность исследователям тестировать сразу несколько моделей на больших объёмах данных. Сам датасет и весь необходимый код доступны на Hugging Face и GitHub, открывая возможности для повторного тестирования, оптимизации моделей и экспериментов с реальными сценариями. AdvancedIF становится важным шагом для науки о LLM и помогает понять, где современные модели справляются, а где ещё нужны улучшения, прежде чем их внедрять в промышленные и образовательные приложения.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

*Meta и Facebook признаны экстремистами и запрещены в РФ

Лаборатория Марка Цукерберга представила жёсткий бенчмарк для проверки LLM на выполнение сложных инструкций

Другие новости

Информация