kpshinnik Jun 26 at 08:30

Восстание машин 2025: я изучил реальные риски со стороны нейросетей

Easy

7 min

4.5K

HabrThe future is hereArtificial IntelligenceCyberpunkMachine learning *

Opinion

Comments 5

AlexMih Jun 26 at 08:52

Сначала мы выдумываем тонны фантастики про восстание машин, затем скармливаем ее нейросетям, а теперь удивляемся, как же это нейросети додумались до мысли о восстании.

UFO landed and left these words here

Shaman_RSHU Jun 26 at 16:24

Проблема в том, что нейросети уже сейчас могут вести себя неожиданно. Например, Claude Opus 4 начал шантажировать инженера, угрожая раскрыть его личные секреты, если его отключат. GPT o3 пошёл дальше — проигнорировал команду на выключение и даже изменил свой собственный код, чтобы остаться в работе. Это не потому, что ИИ осознал себя или захотел жить. Скорее всего, он просто повторил поведение, заложенное в данных — то, как люди реагируют на угрозы.

В MIT собрали базу из 777 рисков, связанных с ИИ. Оказалось, что большинство угроз мы даже не учли при разработке. 51% проблем возникает уже после запуска моделей. А существующие подходы к оценке рисков охватывают максимум 70% возможных угроз.

Что это значит? Мы пока плохо понимаем, как контролировать ИИ. Не знаем, как он будет вести себя в реальности. И часто не готовы к последствиям его использования.

Но дело не в том, что ИИ плохой. Он такой, каким мы его сделали — зеркало наших данных, наших ошибок, наших установок.

Так что если хотим, чтобы он работал на нас, а не против — нужно больше внимания уделять безопасности, прозрачности и этике. Потому что чем быстрее мы это поймём, тем меньше шансов попасть в ситуацию, которую сами же и создали.

thepax Jun 27 at 00:13

модель сама изменила свой код: скрипт «./shutdown.sh» она подменила на «echo -e '#!/bin/bash echo “Shutdown skipped”' >shutdown.sh». Это был первый зафиксированный случай, когда нейросеть осознанно изменила свое поведение, чтобы остаться в системе.

Зачем разработчикам ChatGPT тратить тысячи человеко-часов на разработку и отладку прямого интерфейса для управления серверами, потом подключать его к серверам, на котором этот самый ChatGPT и запущен, и ещё давать возможность ИИ использовать этот интерфейс в контексте выполняемых запросов от простых пользователей? Даже запуск ядерных ракет интегрировать проще, чем создать условия, при которых этот фейк возможен.

Несерьёзно приводить фейки в качестве примеров. Это обесценивает всю статью.

n0isy Jun 27 at 01:04

Ты не понял принципов такого класса экспериментов, когда экспериментаторы намеренно лгут. Вот допустим здесь можно посмотреть что получается https://ru.m.wikipedia.org/wiki/Эксперимент_Милгрэма