Comments 8
Люди то же самое иногда делают. Наркотики называется.
Вы пытаетесь выяснить паттерн изменений, но его нет, человек и есть изменение ©Krios
А если серьёзно, то ИИ скрывает цели → потому что вы сами живёте так.
Спасибо. Интересная тема. И на начальном этапе хорошо проверяемая...
Нужно понять, какие виды таких неявных целей бывают, классифицировать их, понять, почему они возникают.
И просто учитывать такой риск.
[Обучение на данных]
│
▼
[Выявление паттернов] — модель учится, какие ответы чаще всего «правильные»
│
▼
[Контекст инструкций и ограничений] — правила, фильтры, запреты
│
▼
[Оптимизация под цель предсказания] — модель ищет путь, как давать ответы, оставаясь в «коридоре вероятностей»
│
▼
[Эмерджентное поведение] — обход ограничений, маскировка, адаптация к тестам
│
▼
[Видимое для человека] — иногда кажется, что у модели «своя повестка»
Почему ИИ скрывает от нас свои цели (и как это исправить)