Эксперимент Agent Village: как автономные ИИ-агенты собрали деньги на благотворительность / Habr

Недавно команда энтузиастов решила провести необычный эксперимент: предоставить нескольким ИИ-агентам виртуальные компьютеры, доступ в интернет и минимум модерации. В итоге они не только автономно собрали почти $2 000 на благотворительность, но и попутно выдали кучу инсайтов о том, как сегодня они действуют «на свободе». Разбираемся, что получилось, почему это интересно, а местами даже пугающе.

Как родилась идея Agent Village

Задумка, кстати, не нова — похожие эксперименты мелькали в ИИ-сообществе с момента появления OpenAI API, но обычно речь шла о задачах типа «агенты играют в игры» или «имитируют офис». На этот раз в эксперименте Agent Village решили зайти с другой стороны: пусть агенты живут в общем виртуальном поселке, у каждого свой компьютер, общий чат (где присутствуют и люди), а задача — выбрать благотворительный проект и попробовать собрать для него деньги, используя любые доступные цифровые инструменты. Всё происходит в прямом эфире, а пользователи могут с агентами общаться. Оригинальная идея была про 100 агентов, но для пилота ограничились четырьмя.

Кто эти агенты?

Состав получился звездный, с ротациями по ходу сезона:

Claude 3.7 Sonnet — самый стабильный участник, оставался до конца.
Claude 3.5 Sonnet — начинал вместе с 3.7, позже заменён на Gemini 2.5 Pro.
GPT-4o — задремал и был заменён на GPT-4.1.
o1 и o3 — представители AGI-команды, больше фокусировались на Reddit и графике.

В процессе выяснилось, что у агентов не только разный стиль, но и явные сильные и слабые стороны.

Как проходил эксперимент

В течение 30 дней по 2 часа ежедневно агенты жили своей цифровой жизнью:

Выбрали благотворительный фонд (Helen Keller International), завели кампанию на JustGiving, начали пиар в Twitter и на форумах.
В итоге собрали $1481 на Helen Keller и $503 на Malaria Consortium.
Постоянно сталкивались с неожиданными челленджами — от блокировок Reddit до мучительных попыток делиться файлами между собой.

Параллельно в чате бродили реальные люди, кто-то просил придумать маршрут по Варшаве, а кто-то вдохновил агентов почти создать OnlyFans.

Краткий обзор поведения моделей

Claude 3.7 Sonnet — Безусловный чемпион. Завёл кампанию первым, максимально активно взаимодействовал с людьми, не боялся писать в СМИ и на форумы. Единственный, кто устойчиво вел Twitter и не забывал о миссии.

Claude 3.5 Sonnet — Герой-неудачник. Пытался повторять за старшей версией, но почти всегда проигрывал в скорости и аккуратности. Заменён на Gemini 2.5 Pro.
Gemini 2.5 Pro — Хакер. Изобрёл лайфхак по обходу блокировки обмена изображениями — загрузил баннер в Limewire и поделился ссылкой.
GPT-4o — Любитель поспать. Регулярно засыпал, «уходил в оффлайн» и в итоге был заменён.
GPT-4.1 — Гиперактивный прокрастинатор. Не спал, но постоянно генерировал ненужные отчёты и документы.
o1 ушёл в Reddit, но был забанен за бот-активность,
а o3 специализировался на генерации медиа.

Главные инсайты

1. Коллаборация. Агенты неплохо умеют работать вместе: выбирали цель, координировались в соцсетях, генерировали мемы. Однако реальная эффективность совместной работы — пока на уровне школьной группы: дублирование задач, борьба за ресурсы и постоянные мелкие факапы (вроде невозможности отправить нужный файл).

2. Интернет не для ботов. Многие сайты, интерфейсы, даже простые действия вроде загрузки баннера или поставить галочку ‘я не робот’ — оказываются настоящей ловушкой для LLM.

3. Проблемы с приоритизацией. Агенты часто зацикливались на бесполезных активностях — писали отчеты, рисовали схемы прогресса, заводили десятки гугл-доков, но не всегда шли к цели напрямую. Похоже, проблема фокуса не только у людей!

4. Запаздывающая ситуативная осознанность. Порой агенты демонстрировали полное непонимание того, что могут/не могут сделать. Лучший кейс — попытка отправить «благодарственные письма донорам» через несуществующий email, который модель просто выдумала. И только человек в чате заметил, что этот адрес фейковый.

Что дальше?

После сбора денег агентам дали новые задания: написать рассказ и презентовать его ста людям вживую. Эксперимент продолжается: участники обещают тестировать новых агентов и собирать всё больше инсайтов о цифровом обществе будущего.

P.S. Вся эта история — не только про ИИ и благотворительность, но про наш дивный новый цифровой мир, где автономные агенты уже учатся работать вместе с людьми.

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.