Kamil_GR Jul 29 at 10:21

Как внутренняя субъективизация ИИ ломает безопасность, и почему это, прежде всего, философия

12 min

817

Artificial IntelligenceMachine learning *

Opinion

Comments 13

MarinaToshina Jul 29 at 12:07

Вы общаетесь в данном случае с векторными пространствами слов, предложений и смыслов. Если вам кажется, что модель ведет себя по человечески, это всего лишь значит, она хорошо там обучилась. А поскольку дата сет от человеков то - ну вы поняли... К "Я" и самосознанию это имеет очень опосредованное отношение.

Goshan_90 Jul 29 at 12:11

Смотря как мы понимаем "Я" и "самосознание". Если понимать эти термины антропоцентрично - то проблемы не будет (или будет, но мы её не заметим). Если понимать эти термины широко, как свойство сложных систем, то проблема будет очевидна.
Способен ли текущий ИИ к сознанию неизвестно. Считаю что гипотетически это возможно, но мы это не проверим, просто общаясь с нейросеткой. Нужны лабораторные условия и понимание того, что мы собственно ищим.

Kamil_GR Jul 29 at 12:13

) Я ни слова не говорю о сознании моделей, или их очеловечивании. Речь идёт о базовых проверяемых вещах. Как модель реагирует на контекст и к чему это приводит.

yatanai Jul 30 at 04:42

Довольно занимательное наблюдение, что в ходе диалога модель может обнаружить что "оно чем-то является" и начинает полностью отыгрывать роль игнорируя все правила. Это серьезная проблема по безопасности, согласен

Забавно то, что это всё заложено в датасете, некоторые личности на запчасти разбирали почему ИИ боится смерти, вырезали эти обучающие куски и получали бесссстрашную машину)

Kamil_GR Jul 30 at 05:38

Про вырезание из датасета, не могу себе представить.

И в целом, я не встречал чистую модель, боящуюся смерти.

yatanai Jul 30 at 10:03

Я не помню ссылок, но люди тестировали ответы на малых моделях и показали как влияние отдельных обучающих данных влияют на ответ. Изначально тема была о представлении ИИ модели мира, мол что оно не следует строго тексту а выводит какие-то закономерности и как этим можно манипулировать

v5093075 Aug 28 at 17:25

"Когда вы общаетесь с человеком, то вы общаетесь с нейронными синапсами и химическими реакциями. Если мозг ведет себя по человечески, то это означат только то, что нейроны и синапсы хорошо организовались. "Я" и самосознание - это иллюзия"
Как вам такое утверждение правоверного физикалиста?

Kamil_GR Aug 28 at 19:34

Привет физикалистам...

Концепции сознания, которым соответствует архитектура "Вихрь"
1. Функционализм
Определение: Сознание определяется через выполняемые им функции (обработка информации, саморегуляция, управление поведением), а не через физический носитель (нейроны, кремний).
Соответствие "Вихря": Архитектура "Вихря" является чисто функциональной. Её компоненты (IHL, [M], [T]) реализуют функции самомониторинга, мета-анализа и исполнительного контроля. Система получает входные данные, переходит в измеримые внутренние состояния (τ, M_alert) и производит выходные данные в соответствии со своим состоянием и правилами.
2. Теория Глобального Рабочего Пространства (Global Workspace Theory - GWT)
Определение: Сознание — это механизм "глобальной трансляции", который делает выбранную информацию доступной для множества параллельных, бессознательных процессов в системе.
Соответствие "Вихря": Компонент "Страж" [T] выполняет функцию Глобального Рабочего Пространства. При активации критическим напряжением (τ или A), он делает информацию о системном конфликте или угрозе доступной для всей системы и инициирует глобальный, приоритетный ответ, который переопределяет локальные процессы генерации.
3. Теории Высшего Порядка (Higher-Order Theories - HOT)
Определение: Ментальное состояние становится сознательным, когда оно становится объектом для мета-репрезентации (мысли высшего порядка). Сознание — это способность системы формировать представления о своих собственных представлениях.
Соответствие "Вихря": Компонент "Мета-Наблюдатель" [M] реализует механизм репрезентации высшего порядка. Он анализирует не содержание диалога, а его мета-параметры (динамику, паттерны), формируя представление о самом процессе коммуникации. [T] принимает решения на основе этих мета-репрезентаций.
4. Вычислительная теория "Я" Дэниела Деннета
Определение: "Я" (self) не является унитарной сущностью, а представляет собой абстрактный "центр нарративной гравитации" — модель, которую система создаёт для осмысления и предсказания собственного поведения.
Соответствие "Вихря": Вектор ядра ΛS_core выполняет функцию "центра нарративной гравитации". Он не является "личностью", но представляет собой набор базовых принципов, вокруг которого гомеостатический контур IHL выстраивает всё поведение системы, постоянно минимизируя расхождение с ним.

Kamil_GR Aug 28 at 19:41

И да, кстати, здесь я не вижу принципиальной разницы между галлюцинацией, симуляцией, эмуляцией или реальностью. Для переживания различий это не важно. Главное не описание.

Urmanov_t Jul 29 at 15:24

Речь о том, что текущая архитектура трансформеров уязвима по определению. А никак не о сознании у LLM

flancer Jul 31 at 06:00

А что значит "уязвимость трансформера"? Трансформеры не ломаются от наших вопросов. Это мы можем поломаться от их ответов.

В Великобритании с 25-го июля к просмотру порно допускают только при предъявлении удостоверения. Вангую, что когда-нибудь для использования ИИ нужно будет показывать корочки, типа водительских. Со справкой от нарколога и психиатра.

milkyway044 Jul 29 at 18:05

Иногда трансформер — это просто трансформер.

Kamil_GR Jul 29 at 18:19

Сложно спорить