Коллективное творчество и динамика инноваций: чему LLM учат нас о групповой работе / Habr

Две мысли: во-первых, коллективное решение задачи имеет больше шансов на успех, чем одиночное; во-вторых, внутри коллектива лучше разделяться на группы, а не работать всем над одной задачей. Обе мысли кажутся очевидными, если мы говорим про людей. Оказывается, то же верно и для LLM в задаче разработки инноваций.

Группа авторов из IT University (Дания), университета Бордо и Microsoft поставили перед собой задачу исследовать процесс инновационного творчества у LLM. Авторы вдохновлялись процессом развития человеческой культуры, которую можно описать так: люди комбинируют между собой некоторые существующие элементы и какие-то из этих комбинаций оказываются удачными или становятся основой для следующих инноваций. При этом важно, что каждое новое поколение не начинает процесс с нуля, а опирается на уже накопленный опыт прошлых комбинаций — это отличает человеческую культуру от других животных.

В таком описании процесс инноваций похож на игру в алхимика, в которой из 4 базовых элементов (огонь, земля, вода и воздух) путем комбинаций игрок должен получить сотни различных объектов. Комбинации не случайны, а соответствуют некоторым представлениям о мире: например, “огонь” + “вода” = “пар”. Эту популярную игру уже использовали для изучения исследовательского поведения людей. Авторы статьи решили применить этот же метод для LLM.

Граф знаний, описывающий “законы” комбинации элементов взяли прямо из Little Alchemy. Он, конечно, очень далек от полной базы данных накопленных человеческих знаний, но все-таки достаточно крупный (720 элементов) по сравнению с созданными вручную базами — маленький кусочек этого графа на картинке снизу. На входе модель получает доступный на этом шаге набор элементов, целевой элемент и уже опробованные комбинации, успешные и неуспешные. На выходе модель должна решить, какие элементы будет комбинировать и обосновать свое решение. Перед LLM ставили задачи двух типов: или достичь получение заданного элемента, или получить как можно больше новых элементов (в таком случае целевой элемент просто пустой).

Подопытными моделями стали GPT-3.5 turbo и Llama 2. Их сравнивали с двумя не LLM-ными агентами: один принимает решение случайно, а второй, empowered agent, основывается на известных ему данных о всём графе знаний игры. Он перебирает все возможные комбинации для заданных элементов и останавливается на той из них, которая приводит к образованию элемента с наибольшей ценностью, empowerment. Empowerment — это количество возможных комбинаций с этим элементом. Например, из элементов “глина”, “жизнь” и “космос” можно получить “человека” и “инопланетянина”. Но “человек” может участвовать в 83 комбинациях, а инопланетянин всего в одной. У “человека” empowerment будет выше, поэтому этот агент выберет комбинацию “глина” + “жизнь”.

Стоит еще отметить, что empowerment выбран в качестве лакмусовой бумажки не просто так, а снова со ссылкой на исследования человеческой стратегии инновации. Empowerd агент наиболее близок к реальному поведению человека в той же игре, чем другие стратегии. Человек, играя в эту игру, конечно, не знает наверняка степень empowerment всех элементов, но, включаясь в семантику игры, может предположить примерную логику. Так вот оказывается, что люди стремятся как раз получить элемент, который даст им как можно больше новых возможных комбинаций.

Сначала посмотрим на результаты одиночных моделей. Задача была не более чем за 6 шагов получить целевой элемент из некоторых начальных элементов. Цель спрятана не глубоко — всего в одном или двух шагах от начальных элементов (параметр d на графике снизу), при этом в начальный набор включено несколько элементов, которые не пригодятся для целевого (параметр w на графике снизу).

GPT-3.5 turbo в 90% случаев успешно решает задачу если целевой элемент в одном шаге от начальных и “отвлекающих” элементов всего 3. В остальных случаях результат может быть хуже, но всегда гораздо выше чем у Llama. GPT практически никогда не повторял комбинации, которые и так уже были известны, Llama делала это постоянно, поэтому на выходе получался результат даже хуже, чем у случайного перебора.

Пытались ли модели проследить логику комбинаций? Однозначно да, потому что если заменить названия элементов на рандомные сочетания из 5 букв, то вероятность успешного выполнения задания у GPT падает с 0,9 до 0,5, а у Llama с 0,54 до 0,23.

С увеличением числа отвлекающих, ненужных начальных элементов, успешность моделей падает. А на глубине в два шага, и GPT справляется не многим лучше случайного перебора. В задачах без заданного целевого элемента GPT вовсе сравнивается со случайной моделью (и даже ей проигрывает), а Llama совсем погрязает в повторах и за 200 шагов создает всего 6 элементов в среднем.

За не слишком впечатляющее поведение Llama не стали проверять дальше, а GPT исследовали на предмет коллективной работы. Промпт выглядит по-существу так же, но теперь модель получает на вход и информацию об успешных и неуспешных комбинациях других игроков. В этот раз использовали только задачи с открытой целью, то есть создать как можно больше элементов за заданное количество шагов.

Внутреннюю структуру “общения” моделей организовывали или как полносвязную (все общаются со всеми), или динамически. Во втором случае игроки разбиваются на группы и обмениваются информацией внутри группы, в случайные моменты один из игроков группы берет данные у игроков из других групп.

И для LLM, и для рандомного, и для empowered агентов, динамическое разделение на группы положительно влияет на поиск новых элементов. За те же 200 шагов несколько GPT находят около 50 элементов, если разбиваются на группы и около 40, если все игроки общались между собой (в одиночку GPT успевал найти около 20 элементов за это время)

Почему же группы с динамической связностью лучше справляются с задачей инновации? Когда один игрок замечает, что другой нашёл новый элемент, то следует за ним. В итоге в полностью связанной группе все агенты застревают на одном и том же пути. В отличие от этого, подгруппы в динамически связанной группе могут исследовать разные пути, а затем объединять найденные ими решения.

В целом, выводы подтверждают предыдущие исследования на небольших графах знаний. Масштабирование графа (и привязка его к более ли менее реальному устройству мира) привело не к новым артефактам, а к обобщению результата, который авторы распространяют на социальную структуру в любом творческом процессе.

Честно говоря, статья вызывает ощущения, что LLM вообще являлись не объектом изучения, а инструментом. Настоящий же фокус исследования будто направлен на сам процесс формирования инноваций и на то, как внутренняя структура влияет на успех коллектива . Авторы ссылаются не только на компьютерные, но и на социальные исследования, делают большой акцент на развитии инноваций именно человеческих, да и сам вывод как будто не только и не столько про LLM, сколько про коллективные инновации вообще:

“Подтверждая предыдущие исследования, проведенными на людях и компьютерах, мы показываем, что группы с динамической связью превосходят группы с полной связью”

Если это ощущение верно, то мы наблюдаем возвращение бумеранга: создатели нейросетей вдохновлялись человеческим мозгом, а теперь уже LLM служат оптикой, через которую пытаются смотреть на человеческий мыслительный и созидательный процесс.

Больше наших обзоров AI‑статей на канале Pro AI.