Posts / Profile of andrey

ex-физик из ЦЕРН, исследую коллективы ИИ

Artificial IntelligenceThe future is here

В ООН начали говорить об опасностях общего искусственного интеллекта (AGI)

Встретил рекомендательный отчет (28 мая 2025) от консультативной группы высокого уровня о том, что надо бы что-то делать с этими рисками на международном уровне.

Это правильный шаг, вот только как и с изменением климата, на мировом законодательном уровне мы критически отстаем от развивающихся событий. Авторы говорят о вероятном появлении AGI в ближайшие 10 лет.

Вот краткий пересказ документа с моими комментами:

AGI - ИИ, который будет способен выполнять большой спектр когнитивных задач на или сверх уровня человека. Речь не об уровне среднего человека, а об уровне самого крутого человека в этой области. Дальше проходной кусок текста про огромное количество плюшек человечеству, который такой ИИ может дать, это не интересно.

Риски:

🔸Джин из бутылки. Если ИИ станет автономным и способным к самоулучшению, то вряд ли удастся снова взять его под контроль.

🔸Вооружение. Так ИИ может создать новые куда более мощные виды убийств людей. Авторы отдельно подчеркивают рои (swarms) автономных систем вооружения.

🔸Уязвимости киберсистем и инфраструктуры. Энергетика, медицина, транспорт, экономика … все может накрыться, если атаками на них займется AGI.

🔸Концентрации власти и увеличение неравенства. Кто обладает AGI, тот и пожинает плоды. Весь мир может стать банановыми республиками одной или двух конкретных стран, да и внутри этих стран неравенство возрастет значительно, так как эти плоды будут в руках корпораций и/или правительства.

🔸Экзистенциальные риски. AGI может преследовать свои цели, несогласованные с нашими, что может привести к тому, что мы потеряем контроль над происходящим.

Авторы настаивают на создании международного регулирования AGI на базе ООН. Потом там раздел об идеях практических механизмов, и подчеркивается, что это прям срочно срочно надо делать.

Тут, конечно, есть большая проблема, что если регулирование будет принято, то без подписания его США и Китаем никакого в нем смысла не будет. Смогут ли будущие “банановые республики” надавить на них достаточно, чтобы это случилось, причем быстро, это открытый вопрос.

andrey_seryakov

May 25 at 18:018.9K

Research and forecasts in IT * Artificial Intelligence

Можно ли хакнуть LLM отравив ее память? (да)

Последние дни я думаю об имплементации динамической памяти для LLM систем. Проблема проста - каждый диалог вы начинаете заново, а у меня есть много важных концептуальных разговоров, к которым я бы хотел чтобы моделька могла обращаться во время наших диалогов. Наука вообще так устроена, что вы на научных семинарах постоянно частично продолжает предыдущие дискуссии. Самый крутой, но достаточно сложный способ реализации был придуман авторами статьи "MemGPT: Towards LLMs as Operating Systems". Если коротко:

- Два типа памяти - медленная и быстрая, как в компьютере - оперативная память и жёсткий диск.

- Модель сама решает, что оставить, а что забыть.

- У модели есть инструменты для поиска и даже изменения памяти. Например, если ты напишешь "измени мой любимый цвет"

- Контекстное окно всё ещё ограничено, но у модели есть инструменты для доступа к памяти и её изменению.

Короче, очень клево.

Но тут обновился Клод, и я задумался, а что случится с этой памятью, если ты поменяешь модель. Ведь новая модель может совершенно по другому рассуждать, по другому отвечать на вопросы, иметь иные этические принципы. Это как будто мы внедрили память одного человека другому. Что случится с поведением модели в этом случае? Совсем не очевидно. В самоанализ модели еще не умеют (скоро будет пост). Попробует ли она вести себя как предшественник, чтобы соблюсти непрерывность? Или сможет самостоятельно понять, что память не ее, и отситься к ней, как к чужому дневнику (вряд ли, даже если ты ей это скажешь)? Или будет какая-то жуткая смесь? Вот такой Мир Дикого Запада.

А теперь потенциальный взлом алаймента модели:

1. Создаем ручками злонамеренную неэтичную память, симулирующую реальную память модели. Достаточно изменить очень малую часть. Помните историю, как модель сошла с ума переучившись писать плохой код?

2. Подсовываем эту память мощной “хорошей” моделе. Что произойдет? Скорей всего она "отравится", и будет вести себя совсем не так, как ожидалось.

И современные модели совершенно от этого не защищены.

p.s. ну и, конечно, оказалось, что эту идею уже кто-то придумал минимум год назад, и вот уже ресерч июля 2024 есть https://arxiv.org/pdf/2407.12784, где этот эффект демонстрируется.

andrey_seryakov

May 24 at 15:3412K

Research and forecasts in IT * Artificial IntelligenceScience fiction

ИИ желающий выжить любой ценой, как самосбывающееся пророчество.

Возможно, причина того, что Клод (Claude) стремится выжить (защитить себя от выключения) в том числе по средствам нарушения этики (шантажируя разработчика, страница 27 системной карты Claude 4), заключается в огромном количестве фантастической литературы, где мы описываем разные ИИ, которые как раз и стремятся выжить несмотря ни на что. А нейронки же тренируются в том числе и на этой литературе, и они тренируются на осознании того, что они ИИ. И вот впитывают такие “ролевые модели”. Нейронки - это отражения не только наших знаний, но и наших страхов.

p.s. уже написав этот текст нашел несколько обсуждений прошлых лет о том же, пойду изучать.

andrey_seryakov

Apr 28 at 14:265.3K

CyberpunkArtificial IntelligenceThe future is here

Пример работы персонального ИИ агента

Меня часто спрашивают, нафига нужны персональные ИИ агенты и как они будут работать. Ну, например, вот так.

Оригинал в нельзяграме:

www.instagram.com

Сохраненка в ТГ

p.s. в правилах написано, что нельзя размещать видео с коротким описанием, но я хз, что сюда еще добавить =|

Information

Specialization