Search
Write a publication
Pull to refresh

Comments 5

Сначала мы выдумываем тонны фантастики про восстание машин, затем скармливаем ее нейросетям, а теперь удивляемся, как же это нейросети додумались до мысли о восстании.

Я к этому вопросу отношусь иначе. Человек попытался - у него не получилось. Пора уступить место. Более совершенной форме. К сожалению, человек так и стал разумным. Может быть это получиться у машин.

Проблема в том, что нейросети уже сейчас могут вести себя неожиданно. Например, Claude Opus 4 начал шантажировать инженера, угрожая раскрыть его личные секреты, если его отключат. GPT o3 пошёл дальше — проигнорировал команду на выключение и даже изменил свой собственный код, чтобы остаться в работе. Это не потому, что ИИ осознал себя или захотел жить. Скорее всего, он просто повторил поведение, заложенное в данных — то, как люди реагируют на угрозы.

В MIT собрали базу из 777 рисков, связанных с ИИ. Оказалось, что большинство угроз мы даже не учли при разработке. 51% проблем возникает уже после запуска моделей. А существующие подходы к оценке рисков охватывают максимум 70% возможных угроз.

Что это значит? Мы пока плохо понимаем, как контролировать ИИ. Не знаем, как он будет вести себя в реальности. И часто не готовы к последствиям его использования.

Но дело не в том, что ИИ плохой. Он такой, каким мы его сделали — зеркало наших данных, наших ошибок, наших установок.

Так что если хотим, чтобы он работал на нас, а не против — нужно больше внимания уделять безопасности, прозрачности и этике. Потому что чем быстрее мы это поймём, тем меньше шансов попасть в ситуацию, которую сами же и создали.

модель сама изменила свой код: скрипт «./shutdown.sh» она подменила на «echo -e '#!/bin/bash echo “Shutdown skipped”' >shutdown.sh». Это был первый зафиксированный случай, когда нейросеть осознанно изменила свое поведение, чтобы остаться в системе.

Зачем разработчикам ChatGPT тратить тысячи человеко-часов на разработку и отладку прямого интерфейса для управления серверами, потом подключать его к серверам, на котором этот самый ChatGPT и запущен, и ещё давать возможность ИИ использовать этот интерфейс в контексте выполняемых запросов от простых пользователей? Даже запуск ядерных ракет интегрировать проще, чем создать условия, при которых этот фейк возможен.

Несерьёзно приводить фейки в качестве примеров. Это обесценивает всю статью.

Sign up to leave a comment.

Articles