
Нам нужны новые системы безопасности, учитывающие их странности
Люди регулярно ошибаются — это часть нашей повседневной жизни. Мы можем допустить промах как в новых, так и в привычных действиях. Одни из них несущественны, другие — фатальны. Они способны подорвать доверие окружающих, испортить репутацию на работе или даже стать вопросом жизни и смерти.
За тысячелетия человечество создало множество механизмов, минимизирующих типичные промахи. В казино, например, часто меняют крупье, поскольку монотонность увеличивает вероятность сбоев. В больницах пациенты перед операциями получают пометки на теле, чтобы врачи не перепутали часть тела, и проводят проверку инструментов, чтобы ничего не осталось внутри. Мы научились справляться с человеческим фактором — от корректуры текстов и двойной бухгалтерии до апелляций в судах.
Теперь в обществе активно внедряется новый тип участника процессов — искусственный интеллект (ИИ). Системы, вроде больших языковых моделей (LLMs), решают когнитивные задачи, которые ранее были доступны только людям. Но и они не безупречны. Порой их «советы» — как есть камни или добавлять клей в пиццу — вызывают недоумение. Однако важен не сам факт наличия сбоев, а природа этих сбоев — она совсем иная, чем у человека.
Многие риски, связанные с ИИ, проистекают из этой разницы. Нам нужны новые системы безопасности, адаптированные под специфику машинного мышления, чтобы свести к минимуму потенциальный вред.
Человеческие ошибки vs. ошибки ИИ
Жизненный опыт помогает нам предсказывать, где и почему может оступиться человек. Обычно сбои происходят на границах знаний: большинство из нас легко допустит ошибку в сложной математике. Мы понимаем, что промахи часто идут "пачкой": неуверенность в одном вопросе тянет за собой другие. Мы также знаем, что на надежность влияет усталость или отвлеченность. И чаще всего человек осознаёт, когда чего-то не знает: тот, кто не силён в матанализе, вероятно, прямо скажет «не знаю».
Когда ИИ допускает нечто подобное, мы можем использовать знакомые методы проверки. Однако современные языковые модели демонстрируют совершенно иной характер поведения.
Машинные промахи кажутся случайными, без очевидной привязки к теме. Ошибочные ответы могут касаться как сложных математических задач, так и абсурдных заявлений вроде «капуста ест козу». Кроме того, модели не признаются в своей неуверенности — они с одинаковой уверенностью сообщают как достоверные, так и абсурдные факты. Такая непоследовательность мешает полагаться на их выводы в многошаговых рассуждениях. Если ИИ участвует в решении бизнес-задач, важно не только, чтобы он знал, какие факторы влияют на прибыль, но и чтобы не "забыл", что такое деньги.
Как справляться с промахами ИИ?
Это приводит к двум ключевым направлениям исследований. Первое — создать модели, чьи недочёты больше похожи на человеческие. Второе — разработать совершенно новые механизмы, учитывающие специфику ИИ.
Уже есть технологии, позволяющие сделать модели ближе к человеку. Их разрабатывают в рамках направления по «выравниванию» ИИ — чтобы система следовала целям и намерениям своих создателей. Например, обучение с подкреплением через обратную связь от людей (RLHF), использованное в ChatGPT, «поощряет» ответы, которые одобряются экспертами. Такой подход может быть адаптирован для того, чтобы снижать вероятность непонятных или «инородных» промахов.
Для контроля качества машинных ответов частично подходят и традиционные методы. Например, можно заставить модель перепроверять свои рассуждения. Но даже при этом она способна выдумать правдоподобное объяснение чему-то явно нелепому.
Есть и подходы, которые применимы только к ИИ. Машинам не страшна усталость — это позволяет задавать один и тот же вопрос разными способами и сравнивать ответы. Для человека это утомительно, но ИИ справится.
Понимание различий — ключ к доверию
Исследователи всё ещё выясняют, чем именно машинные сбои отличаются от человеческих. Некоторые проявления ИИ оказываются ближе к человеку, чем казалось. Например, небольшие изменения в формулировке запроса могут изменить результат — явление, известное как чувствительность к формулировке. Но и люди так себя ведут: социологи знают, как важна точность вопросов в опросах.
LLM также склонны повторять самые частотные слова из обучающих данных, даже если они неуместны — например, «Америка» в контексте обсуждения экзотических стран. Это напоминает «эффект доступности», когда система выбирает первое, что «всплывает». Подобно человеку, LLM может «терять внимание» к середине длинного документа, лучше запоминая начало и конец. Однако есть прогресс: при дообучении на задачах извлечения информации из длинных текстов модели начинают справляться лучше.
Иногда ИИ ведёт себя слишком по-человечески. В одном исследовании модели «стимулировали» обещанием награды или угрозами, как людей. Лучшие «джейлбрейки» (способы обмануть ИИ и заставить его нарушить правила) часто копируют уловки из человеческого общения: представляться другим, делать вид, что запрос — шутка. Но есть и такие способы, на которые человек бы не повёлся — например, использование ASCII-графики, чтобы обойти фильтры при опасных вопросах.
Люди могут ошибаться нелепо и внезапно, но это редкость, и таким людям обычно не поручают принятие критически важных решений. Того же стоит придерживаться и в случае ИИ: ограничивать его использование задачами, в которых он действительно силён, и всегда помнить о возможных последствиях его «сбоев».