OpenAI сообщает, что развернула новую систему для мониторинга своих последних моделей рассуждений AI, o3 и o4-mini, на предмет подсказок, связанных с биологическими и химическими угрозами. Система направлена на то, чтобы не допустить, чтобы модели предлагали советы, которые могли бы научить кого-то выполнять потенциально опасные атаки, согласно отчету по безопасности OpenAI.

Компания заявляет, что O3 и o4-mini представляют собой значительное увеличение возможностей по сравнению с предыдущими моделями OpenAI, и, таким образом, представляют новые риски в руках злоумышленников. Согласно внутренним бенчмаркам OpenAI, o3 более искусен в ответах на вопросы, связанные с созданием определенных типов биологических угроз, в частности. По этой причине — и для снижения других рисков — OpenAI создала новую систему мониторинга, которую компания описывает как «монитор рассуждений, ориентированный на безопасность».
Монитор, специально обученный рассуждать о политиках OpenAI в отношении контента, работает поверх o3 и o4-mini. Он разработан для выявления подсказок, связанных с биологическим и химическим риском, и инструктирует модели отказаться давать советы по этим темам.
Чтобы установить базовый уровень, OpenAI заставила красных команд потратить около 1000 часов на то, чтобы пометить «небезопасные» разговоры, связанные с биорисками, от o3 и o4-mini. Во время теста, в котором OpenAI имитировала «логику блокировки» своего монитора безопасности, модели отказались отвечать на рискованные подсказки в 98,7% случаев, согласно OpenAI.
OpenAI признает, что ее тест не учитывал людей, которые могут попробовать новые подсказки после того, как их заблокировал монитор, поэтому компания заявляет, что продолжит частично полагаться на человеческий мониторинг.
По данным компании, O3 и o4-mini не превышают порог «высокого риска» OpenAI для биорисков. Однако, по сравнению с o1 и GPT-4, OpenAI утверждает, что ранние версии o3 и o4-mini оказались более полезными при ответах на вопросы, связанные с разработкой биологического оружия.

По данным недавно обновленной Рамочной программы готовности OpenAI , компания активно отслеживает, как ее модели могут облегчить злоумышленникам разработку химических и биологических угроз.
OpenAI все больше полагается на автоматизированные системы для снижения рисков, связанных с ее моделями. Например, чтобы не допустить создания собственным генератором изображений GPT-4o материалов, содержащих сцены сексуального насилия над детьми (CSAM), OpenAI заявляет, что использует монитор рассуждений, аналогичный тому, который компания развернула для o3 и o4-mini.
Однако несколько исследователей выразили обеспокоенность тем, что OpenAI не уделяет столько внимания безопасности, сколько следовало бы. Один из партнеров компании, Metr, заявил, что у него было относительно мало времени для тестирования o3 на бенчмарке обманного поведения. Между тем, OpenAI решила не публиковать отчет о безопасности для своей модели GPT-4.1, которая была запущена ранее на этой неделе.