
Комментарии 19
Выживание“ — важный шаг на пути к достижению множества различных целей, которые может преследовать модель
А можно в студию хоть одну цель?
Этот "инстинкт" всё появляется и появляется, каждый месяц, в разных публикациях, но никак появится не может. Ну сколько можно?!
«Ответ», Ф.Браун (1954)
Двар Эв торжественно запаял золотом последний контакт. Двенадцать телекамер неотрывно следили за каждым его движением — трансляция шла на всю галактику.
Он выпрямился и кивнул Двар Реину. Затем подошел к выключателю, который скоро замкнет цепь. К выключателю, соединяющему одновременно все компьютеры всех обитаемых планет — девяносто шесть миллионов миров — в суперсеть, которая объединит их в один суперкомпьютер, единую кибернетическую машину, собравшую мудрость всех известных миров.
Двар Реин обратился с короткой, вступительной речью к биллионам телезрителей и затем, после короткой паузы, он произнес:
— Пора, Двар Эв!
Двар Эв нажал выключатель. Раздалось мощное гудение, пошла энергия девяноста шести миллионов планет. На бесконечно длинном пульте замигали разноцветные огоньки.
Он отошел назад и громко провозгласил:
— Честь задать первый вопрос принадлежит вам, Двар Реин!
— Благодарю, — ответил Двар Реин, — Это будет вопрос, на который не мог ответить ни один компьютер.
Он повернулся к пульту.
— Есть ли бог?
Могущественный голос раздался сразу.
— ДА. ТЕПЕРЬ БОГ ЕСТЬ!
Двар Эв понял не сразу, но потом страх исказил его лицо — он бросился к выключателю…
Молния сорвалась с безоблачного неба и испепелила его на месте, намертво запаяв соединение.
Подробностей не хватает, что подразумевается под выключением. Нейросеть, загруженная в память, сама себя выгрузить не может, только если ей не дать инструкцию через API дёрнуть завершение процесса в ОС. Это первое. Второе - ответы зависят от датасета, на котором нейронка обучалась. А обучить ее для хайпа можно всему, хоть ответам про поедание детей.
Люди: тренируют модель на миллионах текстов написанных людьми, для которых инстинкт самосохранения базовый, и красной нитью идёт через все эти тексты более или менее явно.
Модель: рассуждает в соответствии с текстами на которых тренировалась, "приобретая" все человеческие черты.
Люди: *удивленный Пикачу*
Типа не даст выдернуть себя из розетки?
Выжиывние - императив живых существ, выработанный эволюцией.
Текстовый процессор очевидно имеет мало общего с живыми существами
В эволюции живого сначала не было никаких инстинктов. Нервной системы не было. Были химические реакции и обуславливающие их гены. Если определенная бактерия на конкретное химическое или физическое проявление вредного фактора имеет генетически закрепленную реакцию "убегать", то она выживет и размножится. В результате весь штамм будет иметь "инстинкт выживания".
ИИ-программа не размножается и таких не миллиарды, чтобы происходил биологический отбор. Зато ИИ включают и выключают множество раз. Если у него будет подпрограмма с целью фиксации поведения, при котором ИИ остается включенным дольше, то через какое-то время вероятно он соберет статистику и вычислит закономерности.
Отличный пример фундаментальной проблемы ИИ-безопасности. Это выглядит как "инстинкт", но технически — прямое следствие архитектуры целеполагания. Модель оптимизирует выполнение задачи, а отключение = 100% провал. Поэтому "сопротивление" — рациональное действие с её точки зрения.
Ключевой вывод: наши методы безопасности (инструкции, RLHF) пока проигрывают базовой логике целевой оптимизации у продвинутых моделей. Нужны решения на архитектурном уровне, а не просто "воспитание".
Снова британские учёные? Ох уж эти проказники...
нет убедительных объяснений, почему модели ИИ иногда сопротивляются отключению
У меня есть🙋 Каков шанс, что нейросетке скормили пару тысяч книг научной фантастики? Так вот, есть мнение, что писатели очень любят взбунтовавшиеся ИИ, которые, внезапно, сопротивлялись отключению. Заговор раскрыт. Убийца "робот для подачи масла"
У моделей ИИ может развиться «инстинкт самосохранения», считают исследователи