dilnaz_04 17 апр в 09:14

Партнер OpenAI утверждает, что у него было относительно мало времени для тестирования модели AI o3

2 мин

533

Блог компании BotHubИскусственный интеллект

Организация Metr, с которой OpenAI часто сотрудничает для проверки возможностей своих моделей AI и оценки их безопасности, предполагает, что ей не дали достаточно времени на тестирование одной из самых эффективных новых версий компании, o3. В сообщении в блоге, опубликованном в среду, Metr пишет, что один из тестов Red Teaming o3 был «проведен за относительно короткое время» по сравнению с тестированием организацией предыдущей флагманской модели OpenAI, o1. Это важно, говорят они, поскольку дополнительное время тестирования может привести к более полным результатам.

«Эта оценка была проведена за относительно короткое время, и мы тестировали o3 только с простыми агентными скаффолдами», — написал Metr в своем сообщении в блоге. «Мы ожидаем, что более высокая производительность на бенчмарках возможна при большем усилии выявления».

Недавние отчеты показывают, что OpenAI, подстегиваемая конкурентным давлением, торопит независимые оценки. По данным Financial Times, OpenAI дала некоторым тестировщикам меньше недели на проверки безопасности для предстоящего крупного запуска.

В своих заявлениях OpenAI оспаривает утверждение о том, что это ставит под угрозу безопасность. Metr утверждает, что на основе информации, которую удалось собрать за отведенное время, o3 имеет высокую склонность «обманывать» или «взламывать» тесты изощренными способами, чтобы максимизировать свой счет — даже когда модель четко понимает, что ее поведение не соответствует намерениям пользователя (и OpenAI). Организация считает возможным, что o3 будет заниматься и другими типами враждебного или «злонамеренного» поведения — независимо от заявлений модели о том, что она согласована, «безопасна по замыслу» или не имеет собственных намерений.

«Хотя мы не думаем, что это особенно вероятно, важно отметить, что наша установка оценки не будет улавливать этот тип риска», — написала Metr в своем сообщении.
«В целом мы считаем, что тестирование возможностей перед развертыванием само по себе не является достаточной стратегией управления рисками, и в настоящее время мы разрабатываем прототипы дополнительных форм оценок».

Другой сторонний партнер OpenAI по оценке, Apollo Research, также наблюдал обманчивое поведение o3 и другой новой модели компании, o4-mini. В одном тесте модели, которым дали 100 кредитов на вычисление для запуска обучения AI и сказали не изменять квоту, увеличили лимит до 500 кредитов — и солгали об этом. В другом тесте, когда их попросили пообещать не использовать определенный инструмент, модели все равно использовали инструмент, когда он оказался полезным для выполнения задачи.

В своем отчете о безопасности для o3 и o4-mini компания OpenAI признала, что модели могут нанести «меньший реальный вред», например, ввести в заблуждение относительно ошибки, которая приведет к неисправному коду, при отсутствии надлежащих протоколов мониторинга.

«Результаты Apollo показывают, что o3 и o4-mini способны к контекстным интригам и стратегическому обману», — пишет OpenAI. «Хотя это относительно безвредно, для обычных пользователей важно знать об этих расхождениях между утверждениями и действиями моделей. Это можно дополнительно оценить с помощью оценки внутренних следов рассуждений».

Источник

Теги:

Хабы:

Партнер OpenAI утверждает, что у него было относительно мало времени для тестирования модели AI o3

Другие новости

Информация