Comments 5
Сначала мы выдумываем тонны фантастики про восстание машин, затем скармливаем ее нейросетям, а теперь удивляемся, как же это нейросети додумались до мысли о восстании.
Я к этому вопросу отношусь иначе. Человек попытался - у него не получилось. Пора уступить место. Более совершенной форме. К сожалению, человек так и стал разумным. Может быть это получиться у машин.
Проблема в том, что нейросети уже сейчас могут вести себя неожиданно. Например, Claude Opus 4 начал шантажировать инженера, угрожая раскрыть его личные секреты, если его отключат. GPT o3 пошёл дальше — проигнорировал команду на выключение и даже изменил свой собственный код, чтобы остаться в работе. Это не потому, что ИИ осознал себя или захотел жить. Скорее всего, он просто повторил поведение, заложенное в данных — то, как люди реагируют на угрозы.
В MIT собрали базу из 777 рисков, связанных с ИИ. Оказалось, что большинство угроз мы даже не учли при разработке. 51% проблем возникает уже после запуска моделей. А существующие подходы к оценке рисков охватывают максимум 70% возможных угроз.
Что это значит? Мы пока плохо понимаем, как контролировать ИИ. Не знаем, как он будет вести себя в реальности. И часто не готовы к последствиям его использования.
Но дело не в том, что ИИ плохой. Он такой, каким мы его сделали — зеркало наших данных, наших ошибок, наших установок.
Так что если хотим, чтобы он работал на нас, а не против — нужно больше внимания уделять безопасности, прозрачности и этике. Потому что чем быстрее мы это поймём, тем меньше шансов попасть в ситуацию, которую сами же и создали.
модель сама изменила свой код: скрипт «./shutdown.sh» она подменила на «echo -e '#!/bin/bash echo “Shutdown skipped”' >shutdown.sh». Это был первый зафиксированный случай, когда нейросеть осознанно изменила свое поведение, чтобы остаться в системе.
Зачем разработчикам ChatGPT тратить тысячи человеко-часов на разработку и отладку прямого интерфейса для управления серверами, потом подключать его к серверам, на котором этот самый ChatGPT и запущен, и ещё давать возможность ИИ использовать этот интерфейс в контексте выполняемых запросов от простых пользователей? Даже запуск ядерных ракет интегрировать проще, чем создать условия, при которых этот фейк возможен.
Несерьёзно приводить фейки в качестве примеров. Это обесценивает всю статью.
Ты не понял принципов такого класса экспериментов, когда экспериментаторы намеренно лгут. Вот допустим здесь можно посмотреть что получается https://ru.m.wikipedia.org/wiki/Эксперимент_Милгрэма
Восстание машин 2025: я изучил реальные риски со стороны нейросетей