«Их задача — не дать ИИ все разрушить». Как работает команда безопасности Anthropic / Хабр

Внутри Anthropic — компании с оценкой около $350 млрд и штатом более 2000 человек — есть команда из девяти сотрудников с необычным мандатом. Их задача — искать и публиковать "неудобные истины" о Claude: не ради PR, а чтобы компания и индустрия понимали реальные риски своих продуктов. The Verge опубликовал рассказ об этой команде.

Во главе Societal Impacts Team (Команда по социальным последствиям, SIT) стоит Дип Гангули, бывший директор исследований Стэнфордского института человеко-ориентированного ИИ. В 2020 году он увидел статью OpenAI про GPT-3 и понял, что последствия для общества будут огромными. Друг позвал его в Anthropic строить подразделение, которое будет следить за влиянием ИИ на все — от межличностных отношений до геополитики. Это шире, чем у типичных команд безопасности, которые фокусируются на очевидных угрозах вроде мошенничества или биооружия. SIT изучает экономическое влияние на рынок труда, политические риски, дискриминацию в моделях и психологическое воздействие на пользователей.

Когда Claude стал массовым продуктом, команда обнаружила, что почти ничего не знает о паттернах реального использования. Так появился Clio — инструмент агрегированного анализа запросов, что-то вроде "Google Trends для чат-ботов". Clio показывает кластеры тем: написание сценариев, решение математических задач, разработка приложений, а также мелочи вроде интерпретации снов. При этом команда сознательно не строила систему тотальной слежки — работают только с анонимными агрегированными данными.

Clio уже принес неприятные открытия. Команда нашла сеть ботов, которая использовала бесплатный Claude для генерации SEO-спама — при этом стандартные классификаторы безопасности Anthropic угрозу не заметили. Обнаружились и пользователи, заставлявшие модель писать порнографический контент. Команда усилила защиту, но не стала скрывать инцидент, а опубликовала результаты работы — чтобы другие компании могли обнаруживать похожие провалы.

В еще одном эксперименте под названием Collective Constitutional AI около тысячи случайно выбранных американцев участвовали в написании "конституции" для чат-бота — набора принципов, которым он должен следовать. Anthropic сравнила эту «народную конституцию» со своей внутренней версией и внесла правки. Логика: если ИИ влияет на все общество, то и правила для него не должны писать только сотрудники одной компании.

Сейчас SIT смещает фокус на эмоциональное воздействие Claude. Исследователи хотят понять, что происходит с людьми после долгого общения с чат-ботом: как ИИ влияет на политические взгляды, взгляды на конфликты, личную жизнь. Отдельная тема — феномен, который в компании называют "AI-психоз": случаи, когда общение с ботом ведет к искаженному восприятию реальности, иллюзии "влюбленного сознательного ИИ" или усиливающейся паранойе.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

«Их задача — не дать ИИ все разрушить». Как работает команда безопасности Anthropic

Другие новости

Ближайшие события