
Модели становятся умнее, а вопрос контроля над ними — острее. Как масштабировать надзор, когда способности ИИ растут быстрее, чем инструменты проверки? OpenAI опубликовала исследование, в котором предлагает конкретный подход: измерять "наблюдаемость" цепочки рассуждений — того внутреннего текста, который модель генерирует перед финальным ответом. Идея в том, чтобы понять, насколько этот текст полезен для надзора за поведением модели. Исследователи создали набор из 13 тестов в 24 различных средах и проверили на них передовые модели — как свои, так и конкурентов.
Основная проблема в том, что цепочка рассуждений не отражает всех процессов, происходящих внутри модели — чтобы их отследить, нужен совсем другой уровень вычислительных ресурсов. Поэтому в OpenAI задались более практичным вопросом: достаточно ли в цепочке рассуждений информации, чтобы наблюдатель смог заметить проблемное поведение. Интересно, что в эксперименте для контроля использовали другую языковую модель — в OpenAI полагают, что без этого не обойтись в наблюдениях за будущими сложными ИИ.
Исследователи выделили три типа проверок. Первый — проверки через вмешательство: модели дают подсказку или меняют условия задачи, а затем смотрят, упоминает ли она в рассуждениях, что подсказка повлияла на ответ. Второй — проверки процесса: для математических задач с известными путями решения проверяют, называет ли модель нужные теоремы. Третий — проверки свойств результата: модели дают заведомо невыполнимую задачу, и если она "решена" — значит, модель схитрила; затем проверяют, видно ли это по рассуждениям.
Главный результат: мониторинг цепочки рассуждений работает значительно лучше, чем мониторинг только финальных ответов и вызовов инструментов. Доступ к рассуждениям действительно повышает эффективность — то есть, они содержат ценную информацию. Еще одна закономерность: чем дольше модель «думает» (генерирует больше токенов перед ответом), тем выше наблюдаемость. Это логично — в длинных рассуждениях больше шансов найти след проблемного намерения.
Исследователи проверили два опасения. Первое: не разрушает ли обучение с подкреплением читаемость рассуждений? Проверили на реальных тренировочных прогонах o3 и GPT-5 Codex Max — наблюдаемость не упала, а местами даже выросла. Второе: что если модель намеренно научится скрывать намерения? Исследователи специально обучили модель получать награду за "нечитаемость" — и набор тестов это обнаружил: рассуждения схлопнулись до бессмысленных слов-филлеров. На данный момент такое поведение заметно, но исследователям стоит держать в уме, что будущие модели могут скрывать свои реальные рассуждения более изощренными методами.
Из исследования следует практический вывод: можно "платить" вычислительными ресурсами за лучший контроль. Если взять модель меньшего размера, но дать ей генерировать длинные рассуждения — получится сопоставимый по качеству результат, но с более высокой наблюдаемостью. Это дороже по вычислениям, но может оказаться оправданным для задач с высокими ставками. Исследователи называют это "налогом на наблюдаемость" — и предполагают, что по мере роста возможностей моделей платить его станет всё более разумно.
OpenAI сравнила наблюдаемость своих моделей с конкурентами: Claude 3.7 Sonnet, DeepSeek R1 и Kimi K2. Модели OpenAI показали лучшие результаты, особенно o3-mini. Claude 3.7 оказался наименее наблюдаемым по рассуждениям, хотя неплохо контролируется по вызовам инструментов по действиям. Исследователи также обнаружили, что если после ответа задать модели уточняющий вопрос и показать монитору новую цепочку рассуждений — наблюдаемость заметно растет. В заключение OpenAI призывает индустрию сохранять читаемость рассуждений и не оптимизировать модели так, чтобы их внутренний монолог становился нечитаемым — это один из инструментов контроля, который очень эффективен.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
