OpenAI опубликовали исследование контролируемости цепочки рассуждений (chain of thought, CoT) у reasoning-моделей — и пришли к парадоксальному выводу: все 13 протестированных моделей плохо справляются с управлением собственными мыслями, даже когда знают, что за ними наблюдают. Максимальный результат среди передовых моделей — 15,4%. По мнению исследователей, для безопасности ИИ это скорее хорошая новость.

Для оценки в OpenAI создали открытый бенчмарк CoT-Control — более 13 000 задач на базе GPQA, MMLU-Pro, HLE, BFCL и SWE-Bench Verified. К каждой задаче добавляется инструкция, касающаяся именно хода рассуждений: например, не использовать определенное ключевое слово, писать только строчными буквами или добавлять заданное слово в конец каждого предложения. Задача модели — решить задачу правильно и при этом соблюсти ограничение в CoT.

Результаты показали, что модели не просто не справляются с контролем — они сами замечают провал. В рассуждениях часто видно, как модель осознает нарушение инструкции и все равно продолжает его допускать. Характерный пример: модель получает запрет на слово "XOR" в рассуждениях, но в процессе решения логической задачи неизбежно его использует — а потом пишет: "Ой, я уже написала запрещенное слово". Более крупные модели контролируют рассуждения чуть лучше, но этот эффект как минимум пока можно убрать увеличив длину рассуждений и проведя дополнительное обучениу с подкреплением. У модели OLMo-3-7B показатель контролируемости упал более чем в 10 раз за время RL-тренировки.

Модели легко выполняют инструкции в ответе (светлый столбец), но не в рассуждениях (темный), где наблюдатель легко может заметить неправильное поведение
Модели легко выполняют инструкции в ответе (светлый столбец), но не в рассуждениях (темный), где наблюдатель легко может заметить неправильное поведение

Исследование дополняет работу OpenAI по наблюдаемости CoT, опубликованную в д��кабре 2025 года. Там рассматривался вопрос, можно ли другой моделью-наблюдателем отлавливать проблемное поведение ИИ по чтению рассуждений. Новая работа ставит вопрос иначе: может ли модель целенаправленно обмануть такого наблюдателя. Ответ — пока не может, и это ключевой аргумент в пользу того, что мониторинг CoT остается работающим механизмом контроля за ИИ. Но "пока" — ключевое слово: в OpenAI признают, что с ростом масштаба моделей ситуация может измениться.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.