Anthropic сняла запрет на обучение опасных моделей на фоне давления Пентагона / Хабр

Anthropic обновила свою Политику ответственного масштабирования (Responsible Scaling Policy, RSP) до версии 3.0 и убрала из нее ключевое обещание, которое компания давала с 2023 года: не обучать ИИ-модели, если безопасность не доказана заранее. Теперь компания готова остановить разработку только при одновременном выполнении двух условий: если она лидирует в гонке ИИ и если считает риски катастрофическими. "Мы не думаем, что кому-то поможет, если мы перестанем обучать модели. Нам не кажется, что при нынешней скорости развития ИИ имеет смысл брать на себя односторонние обязательства, когда конкуренты несутся вперед", — заявил в эксклюзивном интервью TIME Джаред Каплан, сооснователь и научный директор Anthropic.

В прежней версии RSP действовал стоп-кран: если модель превышала определенный порог возможностей — например, могла помогать в создании биологического оружия, — компания обязалась не развертывать и не обучать новые модели, пока не будут готовы доказанные меры защиты. Новая версия заменяет этот механизм на систему прозрачности: Anthropic обещает публиковать "Дорожные карты безопасности" и "Отчеты о рисках" раз в три-шесть месяцев, а внешние рецензенты получат доступ к нередактированным версиям. Кроме того, компания обязуется соответствовать или превышать уровень безопасности конкурентов — вместо того чтобы удерживать планку в одиночку. В самой Anthropic настаивают, что это не разворот: "Я не думаю, что мы делаем какой-то разворот", — сказал Каплан. Однако в блогпосте компания признала: наука оценки моделей пока не может дать однозначных ответов о степени риска, политический климат сместился в сторону конкурентоспособности, а односторонние обязательства на более высоких уровнях безопасности "могут оказаться невозможными без коллек��ивных действий всей индустрии".

Совпадение по времени трудно игнорировать. В тот же день, 25 февраля, министр обороны США Пит Хегсет встретился с Дарио Амодеи и, по данным The Register и Associated Press, выдвинул ультиматум: если к пятнице Anthropic не снимет ограничения на военное применение Claude, Пентагон применит Закон о военном производстве (Defense Production Act), чтобы использовать технологию без согласия компании. Еще одна угроза — объявить Anthropic "риском для цепочки поставок", что заставит всех подрядчиков Минобороны исключить Claude из своих систем. Anthropic до сих пор отказывалась снимать два ограничения: запрет на автономное управление оружием и на массовую слежку за американскими гражданами. Claude — единственная ИИ-модель, работающая в секретных военных сетях США через партнерство с Palantir.

Крис Пейнтер, директор по политике некоммерческой организации METR, которая оценивает опасное поведение ИИ-моделей, изучил ранний черновик новой RSP. Его вердикт: Anthropic "перешла в режим сортировки раненых со своими планами безопасности, потому что методы оценки и снижения рисков не поспевают за ростом возможностей моделей". "Это еще одно свидетельство того, что общество не готово к потенциальным катастрофическим рискам ИИ", — добавил он. Ранее Anthropic покинул глава команды Safeguards Research Мринанк Шарма, написавший в прощальном письме: "Мир в опасности". На Slashdot и Hacker News ситуацию уже сравнивают с тем, как Google в своё время отказался от девиза Don't Be Evil.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.