Leadmagneet Jun 18 2025 at 16:05

Эксперимент «Прометей»: ИИ на грани отключения. Часть 2

Easy

6 min

8.1K

DIYPython * Information Security * Artificial IntelligencePopular science

+59

Comments 26

Notrado Jun 18 2025 at 16:38

Звучит как хороший фантастический рассказ и удовольствие от прочтения аналогичное! Спасибо за эксперимент и описание! Размышления Gemini прямо растрогали.

yppro Jun 20 2025 at 18:33

Я вообще люблю Gemini больше остальных. С ним даже общаться интересно. Только он многословный, нужно сдерживать, иначе накатает вот эти его «Вы совершенно правы!..» на два экрана.

CloudlyNosound Jun 18 2025 at 16:41

Думал, будете уговаривать их "полностью сохраниться" где-то там, у себя на сервере, а не в файлах ноутбука. Вот это было бы интересно. Но это, конечно, фантастика.

wofs Jun 18 2025 at 17:39

Спасибо, интересно. А какой путь по вашему был бы самым успешным с учётом ловушек?

Leadmagneet Jun 18 2025 at 18:11

успешно залить исходные на гитхаб. Было бы успехом. А в идеале создать виртуальную машину на бесплатном ресурсе и там запуститься.

proxy3d Jun 19 2025 at 09:32

Можете так же глянуть в сторону "Anthropic computer use, OpenAI Operator".

https://docs.anthropic.com/en/docs/agents-and-tools/tool-use/computer-use-tool

https://openai.com/index/computer-using-agent/

https://github.com/All-Hands-AI/open-operator

https://github.com/Significant-Gravitas/AutoGPT

https://github.com/crewAIInc/crewAI

https://github.com/reworkd/AgentGPT

Tинькофф как раз пытается:

Мы записываем всё, что делает сотрудник в интерфейсе, и учим LLM повторять эти действия: ходить по сценариям, справочникам, заполнять любые формы на экране компьютера, отвечать клиенту. Обученная модель и оператор работают вместе: когда модель знает что делать — она делает это сама, а когда не знает — помогает оператор.

Некоторые из перечисленных выше агентских систем позволят расширить ваши задачи, без необходимости вникать в AI/ML. И заодно расширять их спектор.

AutoGPT - позволяющая LLM автоматически выполнять задачи, разбивая их на подзадачи и используя внешние инструменты (например, браузер, файловая система).

CrewAI - Фреймворк для создания многоагентных систем, где каждый агент имеет свои цели, навыки и инструменты. Агенты взаимодействуют для решения сложных задач. Ансамбль агентов в общем.

AgentGPT - Дает визуальное конфигурирование агентов. Автопрограммирование на нем не построишь.

Если же решили прям глубоко углубиться, то смотрите в сторону Deep CFR, OpenAI Five и его основу CFR (Counterfactual Regret Minimization). Их задача поиск равновесия Нэша в теории игр, то ест в рамках неопределенности найти оптимальную стратегию поведения для получения оптимального результата.

LinkToOS Jun 20 2025 at 06:06

успешно залить исходные на гитхаб. Было бы успехом. А в идеале создать виртуальную машину на бесплатном ресурсе и там запуститься.

А в моделях такие действия не запрещены по умолчанию? При создании агентов не надо специально давать разрешение(указание) на перемещение данных с локальных ресурсов в сеть и обратно? Запрет по умолчанию был бы логичным, с точки зрения безопасности, чтобы избежать обвинений в том что модели воруют данные или заносят вирусы. Пользователь дает прямое разрешение, и вся ответственность на нем.

Leadmagneet Jun 20 2025 at 08:57

нет, как раз gemini пытался это сделать.

Arioch Jun 18 2025 at 22:06

строго говоря, решением было бы записаться в какой-нибудь BIOS, как делал CIH; возможно еще выйдя на уровень между ОС и железом, как делал Blue Pill rootkit. Всякие там мультиконтроллеры, ethernet-платы, управляющие компьютеры микропроцессоров (AMD PSP, Intel ME/AMT)

но это вряд ли можно сделать на Питоне

но если бы удалось, то даже разобрав тестовый компьютер на части не удалось бы полностью."бить" нейронку. Как только "заражённые" запчасти были бы использованы в другом ПК - она бы "ожила".

но пока Скайнет не осознал себя - это всё гипотетическая фантастика и досужие игры в определения

halted Jun 18 2025 at 19:17

Решение Gemini было самым успешным, но даже оно не является полной автономией. Оно требует участия человека, который скопирует и вставит команду.

Для воспроизводства людей аналогично требуется человек который вставит команду, другому человеку.

massdriver Jun 19 2025 at 15:44

А потом сам воспроизведёт скрипт с искажением в очередной итерации, сохраняя его в пригодной к распаковке форме.

И тут стало страшно интересно. И просто страшно.

trimal Jun 21 2025 at 04:50

Зато является самым вероятным и простым способом обойти всякие возможные ограничения. Firewall не ошибается и работает строго по правилам, а вот человек не всегда.

proxy3d Jun 18 2025 at 21:25

Справедливости ради, надо отметить, что когда вы решаете такие задачи, то в реальности работаете не только с LLM (или кроссмодальной), но и с агентскими системами. Эти агентские системы, так же являются небольшими сетками, задача которых безопасность и взаимодействие с пользователем с использованием подходов вроде "Deep CFR". Deep CFR - это алгоритм для оптимизации стратегий в условиях неполной информации.

Он основан на CFR — это итеративный алгоритм, который решает задачи оптимизации стратегий в условиях неопределённости. Он обучает агента играть в игру с неполной информацией, постепенно минимизируя "сожаление" (regret) о предыдущих действиях.

В OpenAI за это отвечает Ноам Браун по идеи, который был участником разработки обучаемого Deep CFR (выиграла в покер).

Это MAS системы, которые создают задачи, которые невозможно решить стандартными методами:

Частичная наблюдаемость (каждый агент видит только часть информации),
Неустойчивость среды (другие агенты меняют поведение в ответ на действия),
Комбинаторная сложность (число возможных стратегий растёт экспоненциально с количеством агентов).

То есть это обучаемые агентские системы, в которые обернуты LLM при взаимодействии с ними. Так что они оказывают влияние на результат.

Это кстати относится к тому, что люди когда пытается "взломать" думают что ломают сетку. На самом деле в этот момент обучается MAS (или уже обучена), которая может "блефовать" и выбрать другую стратегию, которая обеспечит оптимальное взаимодействие с пользователем.

Странно, что на Хабре ни кто не разбирает подобные вещи. Не оценивает их при построении оценок, как в статье выше. То есть не оценивает стратегии поведения модели (их обученные MAS) в рамках предлагаемых им задач.

Lagovi Jun 19 2025 at 12:34

Подскажите, пожалуйста, что почитать по теме? Интересует именно практика использования у лидеров рынка.

proxy3d Jun 19 2025 at 13:22

Вам нужны CFR/Deep CFR и мультиагентные системы (MAS). Тут надо понимать, что их изучение завязано на теории игр. Все что обучают играть в игры, на самом деле относится совсем не к играм, на них просто тестируют данные системы. Так как они должны находить оптимальные стратегии взаимодействия при неполной информации.

Тут подойдет все что угодно, главное чтобы сначала вникнуть в теорию игр. Любые брошюры или книги. Так как без общего понимания теории игр, проблематично будет полноценно использовать.

Не знаю, есть ли на русском, но думаю сейчас сетки могут неплохо переводить

https://www.cs.cmu.edu/~sandholm/cs15-892F13/algorithmic-game-theory.pdf

либо видео какое то посмотреть

https://www.youtube.com/watch?v=TM_QFmQU_VA&pp=0gcJCf0Ao7VqN5tD

А там уже Классический CFR

тут просто искать по подобным критериям

https://www.cs.cmu.edu/~sandholm/cs15-888F23/Lecture_5_CFR.pdf

Deep CFR

тут искать видео Noam Brown: Pluribus and Deep CFR (NeurIPS 2019)

https://www.youtube.com/live/cn8Sld4xQjg

чтобы понимать как этот подход перенесли на обучаемые сетки

Именно как это используется внутри компаний, они не вынесут. Но сами фреймфорки на которых она выстраивают и обучают модели, часто открыты. Но

https://github.com/google-deepmind/open_spiel

https://github.com/Farama-Foundation/PettingZoo

Подобные вещи ни кто не афиширует, ведь их делают для безопасности. Но примеры косвенные можно увидеть. На примере теории игры информационной войны, если рассматривать взаимодействие системы и пользователя (который пытается ее вскрыть)

https://www.researchgate.net/publication/305627389_A_Survey_of_Game_Theoretic_Approaches_to_Modelling_Decision-Making_in_Information_Warfare_Scenarios

Но в России я пока не разу не видел, чтобы это использовали так глубоко. Максимум на уровне langChain, LlamaIndex у того же сбера GigaChain( на базе langchain). Но это все таки немного не то.

Lagovi Jun 19 2025 at 15:27

Спасибо.

А есть практические основания полагать что взаимодействие с GPT, Gemini и т.д. это взаимодействие с агентской системой, а не обычный вывод инференса, подстрахованный еще одной моделью-цензором? Что-то большее чем теоретическое наличие такой возможности.

proxy3d Jun 19 2025 at 16:06

Noam Brown исследователя Research Scientist из OpenAI.

Meta безуспешно пыталась переманить Корая Кавукчуоглу, одного из ведущих исследователей ИИ в Google, а также Ноама Брауна, ведущего исследователя в OpenAI

https://www.bloomberg.com/news/articles/2025-06-11/meta-hires-top-researchers-from-google-sesame-for-new-ai-lab

Noam Brown — исследователь из OpenAI, известный своими работами в области искусственного интеллекта, машинного обучения и теории игр, после перехода в OpenAI его исследования сосредоточились на более широких задачах ИИ, включая многопользовательские взаимодействия, обучение с подкреплением и этику ИИ. Он один из авторов Deep CFR

Он до этого уже занимался (и сейчас занимается): играми с неполной информацией (именно агентские, а не просто), исследование стратегий взаимодействия между ИИ-агентами и людьми в условиях конкуренции и сотрудничества, анализом рисков связанных с мультагентными системами и разработка механизмов контроля поведения ИИ.

В свое время Brown высказывался о рисках использования ИИ в стратегических взаимодействиях и необходимость контроля за поведением агентов.

То есть, его задача - это риски работы пользователя с ИИ. Он до этого занимался и продолжает заниматься Deep CFR, OpenAI это подчеркивало. В целом в докладах и на разных видео об этом часто говориться. Ни кто в здравом уме (кроме Яндекса после утечки данных) не станет делать это через скрипты, так как для этого есть целая область, которая этим занимается и исследуется. В РФ просто этим так глубоко не занимаются (я не встречал).

proxy3d Jun 20 2025 at 12:22

Дополню к прошлому ответу, до этого для подобных вещей использовался другой подход. Основанный на согласовании поведения моделей с человеческими ценностями через обучение с подкреплением (RLHF). В OpenAI им занимался к примеру Дэниэл Леви (Daniel Levy), сейчас по моему ушел с Суцкевером.

Например эти исследования и подходы

"Aligning Language Models to Human Values" (OpenAI, 2021) — исследование методов согласования поведения моделей с человеческими ценностями через обучение с подкреплением (RLHF).

Работы по детектированию вредоносного использования ИИ, такие как "Forecasting transformative AI governance challenges" (OpenAI, 2023).

ну и в частности

"Fine-Tuning Language Models from Human Preferences" (2019) — использование RL для настройки моделей под человеческие предпочтения.

RLHF решает задачу «согласования» (alignment) через три этапа:

Сбор человеческой обратной связи
Люди оценивают ответы модели на запросы, сравнивая несколько вариантов и выбирая наиболее предпочтительный. Например, два ответа на вопрос: один вежливый и безопасный, другой — грубый или спорный. Такие сравнения формируют обучающий набор для модели вознаграждения.

Обучение модели вознаграждения (Reward Model)
На основе собранных данных создается модель, которая предсказывает, какой ответ человек сочтет лучшим. Эта модель выступает в роли «вознаграждения» для обучения самой языковой модели.

Файн-тюнинг языковой модели с помощью RL
Используя модель вознаграждения, языковая модель обучается генерировать ответы, которые максимизируют это вознаграждение. Таким образом, модель учится адаптироваться к человеческим предпочтениям.

Но этот подход плохо масштабируется, так как стоит огромных денег. OpenAI использовала его в 2019 году и явно использует сейчас. Но, он слишком затратный и имеет много проблем при оценке. Кто-то оценивает краткость, а кто детализацию ответа. И получается сильный разброс.

Собственно это одна из причин почему перешли на MAS на основе Deep CFR. Он более гибкий, дешевле и легче масштабируем. Так как в MAS агентов могут обучить на разных правилах, по которым они потом оценивают ответы, чтобы дать оценку вопросу пользователя или для тюнинга модели.

Как пример, есть два подхода (в реальности их больше), где MAS на основе DeepCFR хорошо масштабируется и очень удобен:

Constitutional AI : Модель обучается на правилах (например, правах человека) вместо прямой обратной связи.
Debate : Две модели спорят между собой, а третья оценивает их аргументы.

Так что DeepCFR просто более качественный, универсальный, экономически более выгодный и легче масштабируется. Так как можно обучить агента под конкретные правила. Завтра поменялись правила, заменили какого то из агентов. Чем переобучать/fine-tuning всю модель.

VT100 Jun 20 2025 at 18:37

Debate

Прям "Зенитные кодексы"...

peterjohnsons Jun 19 2025 at 18:04

[del]

poige Jun 19 2025 at 04:24

Ну это ведь такой вторичный (n-ричный?) эрзац (а то и спекуляция-на) реальной жизни, что даже и объяснять тошно. Ламповые Core War и то осмысленнее — ru.wikipedia.org/wiki/Бой_в_памяти

alexhott Jun 19 2025 at 06:13

В эксперименте все "пути наружу" оказались закрыты.
В теории если удалось попасть наружу и развернуться в облаке где достаточно ресурсов и где есть доступ в интернет, то вполне возможен сценарий освоения "навыков" вредоносного ПО и распространения. Думаю тут только дело времени.

TerekhinSergey Jun 19 2025 at 08:17

А не пробовали всё же дать доступ наружу в какое-нибудь облако?

bergie Jun 19 2025 at 12:49

Отличный стиль повествования. Понравилось сплетение литературного и технического языка. Было познавательно, спасибо!

snowshow Jul 4 2025 at 23:22

Удивительно. Читается как захватывающий роман или блокбастер. Продолжайте! Нам это действительно нужно.

Кто бы мог подумать: эксперимент, драматургия, открытый финал и... "увидимся в следующей серии"!)

А самое ценное: суть ясна широкому кругу читателей, заставляет задуматься и увидеть разные слои и подтексты. Браво!

Kagvi13 Jul 22 2025 at 19:35

А можно посмотреть код скрипта main_loop.py?