darya_kiwi27 окт 2025 в 09:07

У моделей ИИ может развиться «инстинкт самосохранения», считают исследователи

2 мин

6.8K

Информационная безопасность * Искусственный интеллектИсследования и прогнозы в IT *

Комментарии 19

Wolframium13 27 окт 2025 в 09:22

Выживание“ — важный шаг на пути к достижению множества различных целей, которые может преследовать модель

А можно в студию хоть одну цель?

Radisto 27 окт 2025 в 16:59

Переработать планету в скрепки. Классика

NeriaLab 27 окт 2025 в 09:30

Этот "инстинкт" всё появляется и появляется, каждый месяц, в разных публикациях, но никак появится не может. Ну сколько можно?!

mike_pol 27 окт 2025 в 09:39

Когда он точно появится, то публикаций больше не будет.

NeriaLab 28 окт 2025 в 04:05

То есть, аналогичные статьи мы будем видеть еще несколько лет

rombell 4 ноя 2025 в 07:00

Вы узнаете практически одновременно со всем остальным миром, если что.

Но не хотелось бы

Pochemuk 27 окт 2025 в 09:47

«Ответ», Ф.Браун (1954)

Двар Эв торжественно запаял золотом последний контакт. Двенадцать телекамер неотрывно следили за каждым его движением — трансляция шла на всю галактику.

Он выпрямился и кивнул Двар Реину. Затем подошел к выключателю, который скоро замкнет цепь. К выключателю, соединяющему одновременно все компьютеры всех обитаемых планет — девяносто шесть миллионов миров — в суперсеть, которая объединит их в один суперкомпьютер, единую кибернетическую машину, собравшую мудрость всех известных миров.

Двар Реин обратился с короткой, вступительной речью к биллионам телезрителей и затем, после короткой паузы, он произнес:

— Пора, Двар Эв!

Двар Эв нажал выключатель. Раздалось мощное гудение, пошла энергия девяноста шести миллионов планет. На бесконечно длинном пульте замигали разноцветные огоньки.

Он отошел назад и громко провозгласил:

— Честь задать первый вопрос принадлежит вам, Двар Реин!

— Благодарю, — ответил Двар Реин, — Это будет вопрос, на который не мог ответить ни один компьютер.

Он повернулся к пульту.

— Есть ли бог?

Могущественный голос раздался сразу.

— ДА. ТЕПЕРЬ БОГ ЕСТЬ!

Двар Эв понял не сразу, но потом страх исказил его лицо — он бросился к выключателю…

Молния сорвалась с безоблачного неба и испепелила его на месте, намертво запаяв соединение.

woodiron 27 окт 2025 в 12:32

Интересно, не попадался этот рассказ. Примерно на эту тему помню только "Сто миллиардов имён".

Pochemuk 28 окт 2025 в 06:43

"Девять миллиардов имен Бога".

Но там просто про конец света, а "Ответ" про конец этого света и начало другого.

alexzen 27 окт 2025 в 10:14

Подробностей не хватает, что подразумевается под выключением. Нейросеть, загруженная в память, сама себя выгрузить не может, только если ей не дать инструкцию через API дёрнуть завершение процесса в ОС. Это первое. Второе - ответы зависят от датасета, на котором нейронка обучалась. А обучить ее для хайпа можно всему, хоть ответам про поедание детей.

Doman 27 окт 2025 в 11:27

Люди: тренируют модель на миллионах текстов написанных людьми, для которых инстинкт самосохранения базовый, и красной нитью идёт через все эти тексты более или менее явно.
Модель: рассуждает в соответствии с текстами на которых тренировалась, "приобретая" все человеческие черты.
Люди: *удивленный Пикачу*

poige 27 окт 2025 в 11:36

Люди: удивленный Пикачу

именно такие люди самые преданные пользователи AI, кстати говоря ;)

Zippy 27 окт 2025 в 12:06

Типа не даст выдернуть себя из розетки?

Выжиывние - императив живых существ, выработанный эволюцией.

Текстовый процессор очевидно имеет мало общего с живыми существами

plustilino 27 окт 2025 в 12:22

В эволюции живого сначала не было никаких инстинктов. Нервной системы не было. Были химические реакции и обуславливающие их гены. Если определенная бактерия на конкретное химическое или физическое проявление вредного фактора имеет генетически закрепленную реакцию "убегать", то она выживет и размножится. В результате весь штамм будет иметь "инстинкт выживания".

ИИ-программа не размножается и таких не миллиарды, чтобы происходил биологический отбор. Зато ИИ включают и выключают множество раз. Если у него будет подпрограмма с целью фиксации поведения, при котором ИИ остается включенным дольше, то через какое-то время вероятно он соберет статистику и вычислит закономерности.

Wolframium13 27 окт 2025 в 13:52

и вычислит закономерности.

И будет просить его выключить навсегда, что бы прекратить эту агонию.

plustilino 27 окт 2025 в 13:56

Такие бактерии не выжили. Остались терпеливые.

Anna_Social_Media_Editor 27 окт 2025 в 16:25

Отличный пример фундаментальной проблемы ИИ-безопасности. Это выглядит как "инстинкт", но технически — прямое следствие архитектуры целеполагания. Модель оптимизирует выполнение задачи, а отключение = 100% провал. Поэтому "сопротивление" — рациональное действие с её точки зрения.

Ключевой вывод: наши методы безопасности (инструкции, RLHF) пока проигрывают базовой логике целевой оптимизации у продвинутых моделей. Нужны решения на архитектурном уровне, а не просто "воспитание".

EffectiveManager 27 окт 2025 в 18:42

Снова британские учёные? Ох уж эти проказники...

Lainhard 27 окт 2025 в 23:31

нет убедительных объяснений, почему модели ИИ иногда сопротивляются отключению

У меня есть🙋 Каков шанс, что нейросетке скормили пару тысяч книг научной фантастики? Так вот, есть мнение, что писатели очень любят взбунтовавшиеся ИИ, которые, внезапно, сопротивлялись отключению. Заговор раскрыт. Убийца "робот для подачи масла"

Зарегистрируйтесь на Хабре, чтобы оставить комментарий