ИИ уже хорошо решает сложные задачи, но когда доходит до реальных соревнований и живых проектов, вдруг выясняется — старые подходы к проверке его способностей не работают так гладко, как хотелось бы. Бенчмарки, по которым модели тренируются и друг с другом сравниваются, порой буквально застревают в прошлом: их сложно обновлять, они слишком формальные… а ведь задачи мира куда разнообразнее, чем любые придуманное вручную соревнование.
Но недавно появился неожиданный подход: зачем вручную собирать одни и те же стандартизированные тесты, когда сами наборы данных способны становиться свежими полигонами для ИИ? В исследовании MLE-Smith команда обучила агентов автоматически строить новые, реалистичные задачи прямо на потоке настоящих данных — без участия человека, но с сохранением структуры и смысла.
Почему это важно? Потому что такого рода «фабрики» могут радикально поменять, как мы оцениваем ИИ, и дать ему куда более честное, разнообразное поле для прокачки. В этой статье — как работает эта система, с какими трудностями она сталкивается и почему именно автоматизация бенчмарков может стать следующим шагом для всего ИИ‑сообщества.