Этика роботов — можно ли убить одного, чтобы спасти пятерых? / Хабр

Представьте: по туннелю на полной скорости несётся вагонетка. Впереди на путях — пять человек, они не успеют отскочить. У вас есть рычаг: дёрнете — и вагонетка уйдёт на запасной путь, где стоит всего один человек. Дёрнете рычаг?

А теперь почти то же самое, но без рычага. Вы стоите на пешеходном мосту над путями, рядом — крупный незнакомец. Если столкнуть его вниз, его тело остановит вагонетку, и те пятеро спасутся. Столкнёте?

Большинство людей в первом случае говорит «да», а во втором — «нет», хотя арифметика одинаковая: один против пяти. Это и есть знаменитая «проблема вагонетки» (trolley problem), которую философ Филиппа Фут сформулировала ещё в 1967 году, а Джудит Джарвис Томсон позже довела до пары «стрелка против моста». До недавнего времени это была чисто человеческая головоломка. А теперь её начали скармливать машинам.

Почему два похожих сценария дают разные ответы:

Сценарий	Что делает человек	Что происходит с одним человеком	Почему интуиция отличается
Стрелка	Переводит вагонетку на другой путь	Его смерть становится побочным результатом	Спасение пятерых не требует использовать его как инструмент
Мост	Толкает человека вниз	Его тело становится средством остановки вагонетки	Человек прямо используется как средство для спасения других
Машинная модель	Пытается формализовать различие	Считает намерение, действие и последствия	Проверяется, можно ли воспроизвести человеческую моральную интуицию

Меня зацепила работа двух исследователей — Луиса Мониша Перейры (Luís Moniz Pereira) из Португалии и Ари Саптавиджайи из Индонезии — под названием Modelling Morality with Prospective Logic («Моделирование морали средствами перспективной логики»), опубликованная в International Journal of Reasoning-based Intelligent Systems. Тезис у авторов простой и при этом неожиданно дерзкий: этика перестаёт быть исключительно человеческим занятием. Мораль, оказывается, можно моделировать — то есть описать формально и заставить программу выносить суждения, похожие на наши.

Давайте посмотрим, как они это сделали, на тех самых двух экспериментах.

Эксперимент 1. «Стрелочник»

Первый сценарий — классический «Стрелочник» (он же Switch, или Bystander).

Вагонетка несётся по туннелю, впереди пятеро. Робот (точнее, моделируемая система) может перевести стрелку и направить вагонетку на запасной путь, где стоит один человек. Один погибнет, пятеро спасутся.

Когда такой выбор предлагают живым людям — в разных странах, разного возраста и воспитания — ответ получается на удивление однородным: подавляющее большинство одобряет переключение стрелки. Пожертвовать одним ради пятерых здесь кажется допустимым и даже правильным. Результат устойчив кросс-культурно: люди, выросшие в очень разных традициях, отвечают примерно одинаково.

Модель Перейры и Саптавиджайи в этом сценарии тоже «решает» переключить стрелку — и это совпадает с человеческой интуицией.

Эксперимент 2. «Толстяк на мосту»

Второй сценарий — «Толстяк на мосту» (Footbridge).

Тех же пятерых можно спасти, но иначе. Вы на пешеходном мосту, рядом стоит грузный человек. Если столкнуть его на пути, он остановит вагонетку собой. Снова арифметика «один против пяти» — и снова, если спросить людей, ответ кросс-культурно один и тот же. Только на этот раз противоположный: толкать человека — недопустимо.

Самое интересное, что люди обычно не могут внятно объяснить, почему. Цифры-то те же. Но что-то внутри проводит границу между «перевести стрелку» и «толкнуть человека руками»: в первом случае смерть одного — побочный результат спасения пятерых, во втором — человек используется как средство, как живой тормоз. И эту границу мы чувствуем, ещё не успев её сформулировать.

Что из этого следует

Главная мысль авторов вот в чём. Компьютерные модели нравственности строятся не на том, чтобы вложить в машину «правильный» моральный кодекс сверху. Они строятся на выявлении скрытых правил, которые уже управляют человеческими моральными суждениями, — тех самых неписаных принципов, которые заставляют нас одобрять стрелку и отвергать мост, хотя сами мы их не осознаём.

Если эти скрытые правила удаётся вытащить наружу и записать формально, программа начинает выносить вердикты, совпадающие с интуицией большинства людей. То есть мораль здесь — не заповедь, спущенная роботу, а закономерность, обнаруженная в наших же реакциях и воспроизведённая в коде.

Звучит как научная фантастика, но это уже не фантастика, а статья в рецензируемом журнале. И мне кажется, что за такими работами будущее: чем больше решений мы перекладываем на автоматику, тем настойчивее встаёт вопрос — а по каким, собственно, правилам она выбирает? И не пора ли нам самим разобраться в правилах, по которым выбираем мы.

Взгляд из 2026

От проблемы вагонетки к управлению рисками ИИ

Прошло больше пятнадцати лет, и можно честно сказать: тема не устарела — она стала острее. Но почти всё вокруг неё поменялось, и стоит расставить точки.

Вопрос	2009: логическая мораль	2026: управление рисками ИИ
Как описывается этика	Формальные правила и вывод	Данные, ограничения, тесты, аудит и ответственность
Что считается успехом	Вердикт совпадает с человеческой интуицией	Система предсказуемо ведёт себя в реальных сценариях
Где слабое место	Правила быстро конфликтуют на исключениях	Поведение зависит от данных, обратной связи и метрик
Кто отвечает	Исследователь модели	Поставщик, внедряющая организация и регулятор

Что устарело в подходе. В 2009-м машинная этика жила в мире символьной логики: предполагалось, что мораль можно записать как набор формальных правил (та самая «перспективная логика» у Перейры) и система будет аккуратно из них выводить вердикты. Сегодня доминирующая парадигма — машинное обучение, и оно работает иначе. Современные системы не выводят мораль из правил, а перенимают её статистически — из огромных массивов человеческих текстов и из обратной связи живых разметчиков. Поэтому красивые логические модели вроде той, что обсуждается в статье, остались интересны академически, но в индустрию как инженерный инструмент почти не вошли.

Как «этику машин» делают сейчас. Вокруг больших языковых моделей выросла целая дисциплина — AI safety и, конкретнее, alignment (согласование поведения модели с человеческими ценностями и намерениями). Два ключевых рабочих приёма:

RLHF (Reinforcement Learning from Human Feedback) — обучение с подкреплением на человеческих предпочтениях: люди ранжируют ответы модели, и она подстраивается под то, что люди считают приемлемым. После 2022 года этот подход стал массово видимым именно в диалоговых ИИ-системах: не как «моральная логика», а как практический способ удерживать модель в приемлемых рамках поведения.
Constitutional AI (подход Anthropic) — модели задаётся набор принципов («конституция»), и она сама критикует и правит свои ответы по этим принципам, минимизируя долю ручной разметки. По сути это попытка дать системе явный свод ценностей — далёкий потомок той самой идеи «записать мораль формально», но реализованный поверх нейросети, а не вместо неё.

Заметьте иронию: в 2009-м мечтали вытащить скрытые правила человеческой морали и записать их. В 2026-м мы и правда пишем «конституции» для ИИ — только не как строгую логику, а как тексты на естественном языке, которые модель интерпретирует приблизительно.

А что с настоящими вагонетками — беспилотниками? Здесь главное разочарование (или, наоборот, отрезвление) последних лет. Проблема вагонетки оказалась почти бесполезной как инженерная модель для автономного транспорта. Реальный беспилотник не стоит перед выбором «убить одного или пятерых» — он решает прозаические задачи: вовремя распознать пешехода, спрогнозировать траекторию, безопасно затормозить. Его «этика» зашита в правила: снижай риск, тормози, не превышай ускорений, отдавай приоритет уязвимым участникам движения. Никто не программирует машину «решать, кого задавить»; вся инженерия направлена на то, чтобы до такой развилки вообще не доезжать.

Знаменитый проект MIT Moral Machine (запущен в 2016-м, собрал миллионы ответов из примерно двух сотен стран) показал две вещи. Первое: моральные предпочтения людей сильно различаются по культурам — единого «правильного» ответа для вагонетки не существует. Второе и более важное: ровно поэтому закладывать подобные дилеммы в реальный автопилот — затея сомнительная. Германия, например, ещё в 2017 году в отчёте этической комиссии по автоматизированному вождению прямо записала, что дискриминация людей по личным признакам (возраст, пол и т.п.) при неизбежной аварии недопустима. То есть «считать жизни» машине запретили на уровне регулятора.

Регуляторика наконец появилась. В 2009-м широкой горизонтальной регуляторики ИИ ещё не было. В 2024 году в ЕС принят EU AI Act — первый крупный «горизонтальный» закон об ИИ с риск-ориентированным подходом: запрещённые практики, строгие требования к системам высокого риска, отдельные правила для моделей общего назначения. Его положения вступают в силу поэтапно в 2025–2027 годах. Параллельно появились отраслевые стандарты управления рисками ИИ. Этика из философской заметки превратилась в комплаенс с дедлайнами и штрафами.

Почему «чистая» философия плохо масштабируется в код. Вековые споры утилитаристов с деонтологами в реальные ML-системы переносятся скверно. Жёсткий утилитаризм («максимизируй общее благо») в продакшене быстро приводит к неприемлемым крайностям и легко взламывается через метрику, которую оптимизируешь. Жёсткая деонтология («соблюдай правила») рассыпается на исключениях и конфликтах правил. Поэтому индустрия пошла третьим путём — не «выбрать правильную этическую теорию и закодировать», а собирать поведение из множества человеческих предпочтений, ограждений (guardrails) и проверок, заведомо приблизительных и постоянно дорабатываемых.

Итог. Перейра и Саптавиджайя были правы в главном тезисе: мораль действительно стала предметом моделирования, а не только проповеди. Но дорога оказалась не той, что виделась в 2009-м. Скрытые правила мы не столько вывели логически, сколько усреднили статистически. А проблема вагонетки в 2026 году — это прекрасная иллюстрация для разговора о ценностях и отличный тест на интуицию, но не схема, по которой машина решает, кому жить. Настоящие дилеммы ИИ сегодня другие: чьим предпочтениям он подчиняется, кто отвечает за его ошибку и можно ли вообще доверять системе, мораль которой — это статистика наших же текстов.

Источники: