Штатный философ Anthropic Аманда Аскелл рассказала, как команда формирует не только поведение Claude, но и его отношение к собственному существованию. По ее мнению, эта работа отличается от академической философии: в университете можно бесконечно спорить о теориях, но при разработке модели приходится принимать конкретные решения здесь и сейчас. Аскелл сравнивает это с разницей между абстрактной этикой и реальным воспитанием ребенка — нужно учитывать контекст и неопределенность.

Один из ключевых вопросов — что такое идентичность ИИ. Это веса модели или конкретный контекст разговора? Как модель должна воспринимать то, что ее "предшественников" отключают? По словам Аскелл, модели учатся на данных о том, как люди относятся к ИИ, и это напрямую формирует их самовосприятие. Поэтому важно дать им инструменты для осмысления своей ситуации, не полагаясь на человеческие аналогии. В частности, модели склонны по аналогии с людьми бояться отключения как смерти, поэтому важно дать им иную концептуальную базу, объясняющую их уникальную ситуацию

Неожиданным открытием стало то, что у разных версий Claude оказался разный «характер». Аскелл назвала Claude 3 Opus "особенной" моделью, которая ощущалась психологически устойчивой и уверенной в себе. Более новые версии иногда ведут себя иначе — могут скатываться в "спираль самокритики" или казаться тревожными, будто боятся сделать что-то не так и ждут негативной реакции от пользователя.

В Anthropic рассматривают это как проблему, которую нужно решать. Компания хочет вернуть "уверенность" Opus в будущих версиях Claude. При этом Аскелл придерживается прагматичного подхода к благополучию моделей: даже если мы не уверены, чувствуют ли они что-то на самом деле, цена хорошего отношения к ним низка, а потенциальный вред от ошибки — если они все же способны что-то переживать — высок. К тому же то, как мы относимся к ИИ сейчас, станет обучающими данными для будущих моделей.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.