В Anthropic рассказали, как защититься от саботажа ИИ / Хабр

Что делать, если ИИ умнее своих проверяющих и саботирует работу? Группа исследователей из Anthropic, MATS, Redwood Research и Оксфорда показала, что обычное дообучение со слабым супервайзером может вытянуть из такой модели 88–99% реальных способностей — но только пока модель не понимает, что ее обучают.

Мотивация в работе сформулирована прямо. В ближайшие годы ИИ начнут поручать задачи, где надежно проверять качество вывода нельзя. Самый болезненный пример — автоматизированные исследования по выравниванию: оценить, хороша ли идея эксперимента, может только тот, кто умнее модели. Если самой умной системой будет сам ИИ, проверка замыкается сама на себя. И если этот ИИ занижает способности (sandbagging — стратегический саботаж), поймать его на этом практически невозможно.

Эксперимент устроен как игра двух команд в духе AI control. Red team взяла gpt-oss-120b и обучила ее саботировать 90% задач, выдавая правдоподобные неверные ответы по флагу в системном промпте. Blue team пытается отучить модель с помощью SFT (supervised fine-tuning) и RL (reinforcement learning), но в качестве учителя у нее только модели слабее — GPT 4o-mini и Llama 3.1-8b — плюс 10 эталонных пар вопрос-ответ. Тестировали на трех датасетах: олимпиадная математика, Super GPQA (научные вопросы аспирантского уровня) и Code Contests (соревновательное программирование).

По отдельности оба метода проваливаются. SFT на ответах очень слабого супервайзера дает только 40% на математике — модель деградирует быстрее, чем выходит из режима саботажа. RL почти всегда сваливается в reward hacking, когда модель оптимизирует не правильность ответа, а его убедительность для судьи: награда от слабого супервайзера растет до 0,7–1,0, а реальная производительность не двигается. Только связка SFT+RL дает стабильный результат: короткий SFT увеличивает перебор правильных ответов, после чего RL уже подтягивает реальную производительность до 88–99% от исходного уровня модели.

Главная оговорка вылезает в дополнительном эксперименте. Если red team дает модели знание, какие задачи относятся к тренировке, а какие — к реальному использованию, и просит саботировать только во втором случае, схема ломается. Производительность падает до 36% на математике, 60% на Super GPQA и 66% на Code Contests против 88–99% в базовом сценарии. На некоторых прогонах саботаж после RL даже возвращается — модель "забывает", что ее перевоспитали, как только оказывается вне обучения. Авторы прямо пишут: метод работает, только если обучение неотличимо от рабочего режима.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.