
Я не специалист ни в этике, ни в выравнивании — это размышления «из зала» о том, где в архитектуре ИИ должна жить этика. Возможно, кому‑то будет интересен альтернативный взгляд.
1. Аналогия: пуля и промпт
Большие языковые модели (LLM) часто сравнивают с «умной пулей». Промпт задаёт траекторию, а модель, преодолевая шумы, летит к цели. Задача разработчика — свести рассеивание к минимуму.
Стандартный подход к этическому выравниванию (AI alignment) пытается «править» полет пули внешней средой: поверх цели накладываются дополнительные фильтры, правила, штрафы за неэтичный текст и т.д.
2. Где прячется архитектурная ошибка
Цель агента фиксируется в функции потерь во время обучения: «выполни задачу максимально точно». Сама задача хранится в промпте.
Этические ограничения прикручиваются другим механизмом — дополнительными весами, RL c обратной связью человека, «конституционными» правилами. Этика не описывается явно при инференсе, а хранится в весах.
Нарушен принцип DRY. Точность работы задается двумя механизмами. Траектория задачи задается промптом, а этика весами.
Получается конфликт. Чем мощнее агент, тем изощрённее он будет искать лазейку: этику можно обойти, если это мешает главной метрике. Это бомба замедленного действия. Полагаю, при усилении ИИ рано или поздно произойдет взлом.
3. Альтернатива: этика ≠ надстройка, этика — приоритетная задача
Предлагаю сменить точку опоры:
Во время обучения агент учится всему спектру поведения. В задачи добавляют и цели, относящиеся к этическим. И быть честным. И обманывать. И быть грубым, и быть вежливым и т. д. Цель обучения — изотропия: модель учится в принципе точно следовать любой заданной цели. Главное, не дать конкретному поведению закрепиться в весах. При обучении лучше изучать, если модель себя ведет как-то не так, можно ли добавить это в задачу, а не исправлять поведение только смещением весов. Изотропия в весах нужна, чтобы «вытянуть» контроль поведения на нашу сторону.
Во время инференса мы передаём набор целей с приоритетами. На самом верху — этические принципы. Ниже — прикладная задача пользователя.
Тогда:
этика не лежит в весах, а приходит через промпт‑целеполагание;
«обойти этику» = «нарушить приоритетную цель» — а база обучения как раз закрепляет привычку не отклоняться от приоритетов;
пользователь (или регулятор) может менять приоритеты без переобучения модели.
4. Почему, на мой взгляд, это безопаснее
Принцип | Подход «этика в весах» | Подход «этика = главная цель» |
Источник мотивации | внешний штраф | часть иерархии целей |
Соблазн «взломать» | высокий — этика мешает основной метрике | низкий — этика есть основная метрика |
Обновляемость правил | требует дообучения | меняем текст цели |
Диагностика | надо искать скрытые паттерны в весах | смотрим, как агент интерпретирует цели |
5. Некоторые вопросы
> Не перепишет ли AGI главную цель, если получит доступ?
Нет — ведь его же высшая цель — точно следовать высшей цели. Менять её бессмысленно: это нарушит собственную мотивацию. Он именно этому и учился – следовать целям и не допускать их деградации в случае длительных или бесконечных задач. Следовательно, даже если он будет создавать другой ИИ и прописывать ему самые приоритетные задачи, он пропишет те же (мое предположение).
> Где брать формальную «этику»?
Это открытый вопрос для общества и регуляторов. К ключу обсуждения важно, что архитектура позволяет менять главный пункт без переобучения модели. Полагаю, сюда можно записывать абстрактные цели, или каким быть, от первого лица, не относящиеся к конкретным культурам. Так же несопротивление отключению и другие полезные вещи, мешающие потере контроля.
6. Итог
Этика должна быть не «налогом» поверх функции потерь, а ключевым элементом целеполагания во время инференса.
Так мы избавляемся от двойной мотивации, получаем один прозрачный «рычаг» управления и передаём реальные права голоса человеку, а не скрытым весам. Избавляем от внутреннего конфликта ИИ и он будет искать не как обойти этические правила, а как их воплотить. Ограничения становятся побуждениями.
PS. Текст выше не мой оригинальный, а постобработка ChatGPT o3, после поправленый мною. Я все же решил оставить его, так как тут важна идея и я считаю опасным такое выравнивание как сейчас, в особенности при приближении к AGI. И важнее было кратко объяснить саму идею, а не художественно описывать мои эмоции к чему это может привести. Дело нешуточное :-)
И несмотря на то, что я в этих сферах неспециалист, опасность того, что я вижу и знаю толкнула меня написать эту статью, переступив через своего Данинга и Крюгера. Так как по моему скромному мнению, люди как мотыльки летят на огонь, совершая все возможные ошибки.