Зловещая долина: terra incognita, в которой расставлены нейронные сети / Habr

Не припомню, чтобы в детстве я боялся клоунов. За все детство я побывал в цирке-шапито, может быть, два раза. Зато я определенно испытывал отвращение и настороженную злость к деду Морозу, поскольку примерно в семь лет прочел сказку Евгения Шварца «Два брата», а также был впечатлен завязкой фильма «Сказка странствий» (примерно 4.30 – 8.00). Много позже я стал понимать, что ощущение жуткой фальшивости деда Мороза было настоящим проявлением эффекта «зловещей долины». Этот эффект, получивший широкую известность в трактовке Масахиро Мори (род. 1927) в 1970 году, в дальнейшем стал предметом серьезных исследований и моделирования. В сегодняшней статье будет рассмотрено, как был обнаружен и как изучался этот феномен. Постараемся поговорить о нем с точки зрения психологии, распознавания образов и соотношения гармонии и уродства.

Статья написана в соавторстве с Екатериной Черских @MarkOcean аспиранткой Санкт-Петербургского ФИЦ РАН.

Актуальность и история понятия

Феномен «зловещей долины» до сих пор обладает скорее эмпирическим, чем научным обоснованием. По-английски он называется «Uncanny valley» и под «valley»понимается «яма» на графике, характеризующем степень воспринимаемой «жуткости» наблюдаемых антропоморфных объектов, в особенности масок, кукол и роботов.

В самой общей форме такой феномен «жуткости» отмечал еще в начале XX века немецкий психиатр Эрнст Йенч (1867-1919). В 1906 году он писал, что «жуткость» как психологическое явление может возникать из-за наблюдения чего-то очень знакомого в тревожно-непривычном контексте. Он связывал такие переживания с неуверенностью, «является ли некоторая фигура человеком или, допустим, автоматом», либо «является ли безжизненный объект одушевленным».

Именно в контексте робототехники и искусственного интеллекта ведутся наиболее интересные исследования «зловещей долины» в наше время. Человеко-машинные взаимодействия развиваются уже не один век, машины освобождают человека от тяжелой, опасной или рутинной работы. В начале-середине XX века считалось, что для улучшения взаимодействий между человеком и роботом логично приближать внешний вид роботов к человеческому, получая андроидов. Предполагалось, что постепенно роботы станут практически неотличимы от людей, настолько, что даже будут вызывать у человека симпатию. В научной кинофантастике именно в таком духе выдержаны образы андроидов из фильмов о «Чужих» - таковы, в частности, Эш (1979), Бишоп (1986) и Дэвид (2012). В том же ряду можно поставить Калдера из фильма «Дознание пилота Пиркса» (1978). Все эти образы соскальзывают в «зловещую долину» как по сути самих персонажей, так и по оказываемому ими художественному эффекту. Использование зловещей долины в качестве художественного метода будет рассмотрено ниже в этой публикации.

Итак, Масахиро Мори обратил внимание, что в робототехнике робот-машина воспринимается пользователем настороженно и враждебно, но для снижения такой тревожности и отторжения достаточно повысить сходство робота с человеком. Подобная «гуманизация» робота плавно улучшает восприятие робота человеком, пока не приводит к резкому спаду на этапе чрезмерно реалистичной имитации человечности. Мори также впервые отметил, что данный эффект интенсифицируется, если «страшный» объект движется. Сам Мори следующим образом описывал, как пришел к этой идее:

Я заметил, что, стремясь добиться максимальной человекоподобности роботов, мы постепенно начинаем ощущать все большее «сродство» с ними, пока их возрастающая реалистичность не приводит нас к своеобразной «долине» [на графике], которую я назову «зловещей».

Далее он упоминает, что в его детские годы как раз разрабатывались первые реалистичные протезы, которые во многом и навели его на такие мысли:

Кто-то может сказать, что рука-протез во многом сближается по внешнему виду с человеческой рукой, подобно тому, как вставные зубы похожи на настоящие. Но на самом деле, когда мы догадываемся, что перед нами протез, а только что нам казалось, что эта рука настоящая – нас охватывает жуткое чувство. Например, если при рукопожатии мы ощутим протез вместо руки, то сразу отметим, что он бескостный, холодный и по текстуре отличается от кожи. «Сходство» протеза с рукой улетучивается, и искусственная рука становится жуткой.

Впоследствии данный эффект был отмечен не только в робототехнике, но и в компьютерной графике, и в компьютерных играх, где разнообразно моделируется сходство персонажей с человеком. Вот этот знаменитый график:

График демонстрирует, что, в сущности, роботы и андроиды не попадают в «зловещую долину». То есть, большинство роботов все-таки находятся левее нее, а андроиды (из фантастических произведений), отдельно на этом графике не указанные – вероятно, правее, ближе к здоровому человеку. К 2009 году робототехника, вероятно, прочно обосновалась на правом склоне долины.

Туда ее вывел Хироси Исигуро (род. 1968), профессор Осакского университета, сконструировавший целую серию гуманоидных роботов; первых из них он назвал «геминоидами». Геминоид, выполненный в мужском облике, является приблизительным двойником самого Исигуро:

Этот робот обладает 50 степенями свободы (каждая степень свободы – это независимая координата перемещения или вращения; совокупность степеней свободы определяет возможные положения механизма в пространстве). Он настолько похож на человека, что даже читает в аудитории лекции самого Исигуро. Обратите внимание: даже состарившийся примерно на 10 лет профессор все равно очень похож на робота, а в 2009 году был от него практически неотличим.

Женская модификация геминоида движется как человек, сидя без движения она может вполне сойти за человека:

Вернемся, однако, к левому краю долины, чтобы конкретизировать, с чего она начинается. Вот, например, киновоплощение робота C-3PiO из «Звездных войн». Он подчеркнуто механистичен, и при этом вполне антропоморфный. C-3PiO в большей степени похож на игрушку, чем на человека. Очевидно, что с человеком его не перепутать, и страха он, как правило, не вызывает:

Зловещая долина как художественный метод

С распространением анимационных технологий кинофантастика преобразилась. Уже никого не удивишь воссозданием лиц и аватаров, неотличимых не то что от персонажей «Final Fantasy», но и от настоящих людей. Писатели-фантасты и киносценаристы сыграли немалую роль в развитии технологий, после чего некоторые из этих разработок, воплощенные и обкатанные в реальном мире, вернулись в кино. Гиперреализм, который стал гораздо более достижим благодаря компьютерной графике, быстро взяли на вооружение режиссеры-авангардисты, естественно, сразу оказавшиеся в «зловещей долине».

Так, в фильме «Еда» чешский режиссер Ян Шваркмайер использует собственный стиль монтажа и анимации для вывода зрителя на грань любопытства, страха и отвращения. Здесь показано обращение людей в машины. В одном из эпизодов этой картины человек заходит в помещение, посреди которого стоит обеденный стол, а за столом сидит мужчина. Но сидящий будто погружен в сон, а на его шее висит инструкция по применению. Человек читает ее и при этом не воспринимает «сонного» как человека – вскоре становится понятно, почему. Оказывается, это машина. У нее раскрывается грудная клетка, представляющая собой шахту лифта, через которую доставляют еду. Руки, глаза и голова – это кнопки, «пользовательский интерфейс». Пообедав, герой занимает место «сонного», а недавний «манекен» оживает и уходит. Эффект зловещей долины здесь особенно нарочит, так как человек и машина смешиваются в одном образе. Зритель уверен в том, что в кадре живой человек, но человек этот вынужден стать машиной и выполнить свою функцию доставки еды для следующего посетителя ресторана.

Насильственное превращение людей в роботов, чьи корпуса и лица повторяют анатомию человеческого тела используется и в сериале «Доктор Кто». Казалось бы, внешний вид механистических персонажей далек от человеческого; тем не менее эффект долины присутствует из-за подобия: черные дыры на месте глаз, механическое звучание голоса, механические внутренности, но живой мозг. Этот случай отличен от механизации Шваркмайера тем, что здесь человек искореняется и заменяется машиной, в то время как в «Еде» человеческое все еще составляет значительную часть робота. В обоих случаях граница восприятия размывается, наблюдатель не знает робот ли перед ним или же человек, что вызывает у него чувство ужаса, отвращения. В более жутких и гротескных формах подобные сочетания организма и механизма выведены в книгах Чайны Мьевиля о Нью-Кробюзоне. «Переделанные» в его романах являются целой кастой; «переделке» подвергают как по решению суда, так и для занятия экзотическими профессиями, малопригодными для человека, а также просто ради забавы.

Более экзотические киносюжеты, связанные со «зловещей долиной», уже играют не на страхе, а на замешательстве и невозможности сориентироваться, человек перед тобой или машина. О природе подобного замешательства будет рассказано ниже.

Главный герой фильм «Ex Machina» 2014 испытывает подобное чувство, обнаруживая себя в окружении человекоподобных роботов. В какой-то момент он, смотря на себя в зеркало, исследует черты своего лица в попытке доказать себе то, что он человек. Но прежде герой восхищен демонстрируемой ему машиной, он говорит с роботом, обучает его и в какой-то мере очеловечивает безупречную машину. В картине зрителю представлены люди, создающие образ роботов посредством актерской игры и использования технологий компьютерной графики. Постепенно можно заметить, как идеальные лица начинают кровоточить мелкими недочетами, которые пугают как главного героя, так как зрителя. Все в порядке, но что-то не так. Что же именно не так? Вы приблизились к зловещей долине.

В аниме «Trinity Blood» роботы представлены практически живыми людьми, с эмоциями, кровью, потребностью в еде – но это роботы, поскольку они являются искусственными. Люди, выращенные в лаборатории, вводят в свои организмы наномашины «крусники», чтобы выжить, в результате превращаясь в киборгов. Крусники-люди, совершенно не пугают нас до того момента пока не превращаются в киборгов-убийц. «Наномашины, Крусник 02!» – вызывает главный герой свою вторую ипостась и на наших глазах преображается в робота, чьи действия – уже в пределах зловещей долины. Несмотря на то, что визуальный ряд как таковой страха не вызывает, зритель сознает, что перед ним искусственно выращенный человек, в какой-то степени управляемый наномашинами. Авторы подчеркивают различия в поведении, внешнем виде и действиях людей и крусников-людей в результате чего образ машины закрепляется в сознании зрителя, вызывая отторжение.

В компьютерной игре «Detroit: become human» (2018) машины также очеловечиваются, но их образы постоянно возвращают наблюдателя к тому, что перед ним не человек. Главные герои-роботы проявляют эмоции: они смеются над шутками, беспокоятся, проявляют интерес. Все эмоции объясняются как результат чисто статистического анализа: ИИ изучает разнообразные ситуации и реагирует на них. Но суть игры неотделима от очеловечивания машины. Здесь игрок получил возможность управлять роботом, влиять на ход событий и «вырастить» своего героя в машину или человека. Но каким бы ни стал робот, роботом он остается: застывшее лицо, рваные движения, моменты неуправляемого холодного расчета при принятии решений, появление копии машины при «смерти» напоминают игроку об этом. В этом мире люди свободно общаются с человекоподобными роботами, но существует и оппозиция, выступающая против появления новых машин (эта позиция в игре также обосновывается). Но важно заметить, что таких людей-диссидентов значительно меньше тех, кто пользуется роботами так же буднично, как мы пользуемся смартфонами.

Машины такого типа, как роботы из «Detroit become human» и «Ex Machina», до сих пор не сошли в реальный мир с киноэкранов и книжных страниц; тем не менее их физическое воплощение прокрадывается в мир реальный. Человек уже в состоянии проектировать лица и тела роботов с такой степенью антропоморфизма, что неосведомленный наблюдатель не сразу обнаружит «подмену». Все это – уже правый склон «зловещей долины», заметными ранними представителями которого в кинофантастике были, вероятно, вышеупомянутые андроиды из «Чужих», пилот Калдер, а также терминатор Т-800 и Санни из фильма «Я, робот». 2004, C-3PO из «Звездных войн», но искусство продолжает совершенствовать образ робота и способы воздействия на зрителя, пользуясь зловещей долиной для провоцирования чувства страха у наблюдателя.

Оно больное или притворяется

В статье Кристины Лузер и Талии Уитли делается интересное обобщение тех «неправильных» черт, которые могут вызывать эффект «зловещей долины». В первую очередь, человек реагирует на несоответствие мимики ожиданиям.

Людям свойственно выискивать потенциальные угрозы в окружающей среде. Если куст выглядит как обычный куст, это значит, что он неопасен – поэтому можно расслабиться. Если перед нами – лев, внешне и всеми повадками безошибочно распознаваемый как лев, то понятно, что от него нужно спасаться. Если же у куста просматриваются львиные черты, то мы оказываемся в замешательстве, поскольку не знаем, как реагировать. Тот же принцип может срабатывать и в случае с гиперреалистичными андроидами, поскольку мы не уверены, человек перед нами или робот. Данное явление сближается с парейдолией — склонностью всюду подмечать контуры лиц, даже там, где их нет.

Человек отлично приспособился не только различать лица, но и считывать их выражение: это ключевой навык, необходимый уже ребенку для распознавания родных, а взрослому человеку – для отличия «своих» от «чужих» и «друзей» от «врагов». Именно поэтому эффект зловещей долины может быть более выраженным при рассматривании лиц, чем, например, рук-протезов.

Минимальные и трудноуловимые отличия андроида от человека также могут восприниматься как нездоровье, что вызывает инстинктивное отторжение. Исторически человек не всегда отличал инфекционные заболевания от психических. Поэтому «неадекватность» реакций робота также может восприниматься как заразная.

Эволюционное объяснение данного сценария позволяет предположить, что отбор поддерживал развитие отвращения к нездорово выглядящему человеку. Чем более по-человечески выглядит робот, тем сильнее выделяются его «нечеловеческие» детали: например, белизна покровов может восприниматься как бледность кожи. Кроме того, учитывая вышеуказанную склонность человека к распознаванию лиц, синтетическое лицо может вызывать отвращение из-за любого, даже минимального, нарушения пропорций, а также из-за плохого «качества кожи». Вполне возможно, что здесь также задействованы байесовские механизмы оценки правдоподобия. Лицо или тело, отдающее зловещей долиной, не оправдывает наших ожиданий.

Учитывая, что в самой нижней точке зловещей долины находится «зомби» (и находится он там, поскольку является подвижным; прямо над ним на схеме располагается «труп»), отторжение может быть связано не столько со страхом заражения, сколько со страхом смерти. Подобно зомби, андроид может казаться «ожившим» мертвецом, который, однако, неуклюже движется, не контролирует или не имеет эмоций, а его лицо проявляет симптомы, напоминающие инсульт.

Все эти допущения приводят нас к следующим промежуточным выводам, которые отражаются на практике:

Если эффект зловещей долины имеет эволюционные корни, то он может наблюдаться у обезьян
Если эффект зловещей долины связан с тем, что робот или андроид воспринимается как психически (неврологически) нездоровая особь, то этот эффект должен быть сильнее выражен у взрослых, чем у детей
Если мимика играет не меньшую (а то и большую) роль в формировании эффекта зловещей долины, то он должен проявляться и на синтетических лицах, создаваемых генеративно-состязательными нейронными сетями.

Опыты по изучению эффекта зловещей долины как у обезьян, так и у детей, уже проводились. В Тюбингенском университете группа под руководством Питера Тира проверяла наличие этого эффекта у макак-резусов. О данном исследовании есть хорошая статья на сайте N+1. При помощи компьютерного моделирования были получены каркасные модели обезьяньих лиц, а также анимированные движущиеся лица разной степени реалистичности. Мимика моделировалась с применением МРТ, смоделированное лицо выражало разные эмоции, в частности, удивление, агрессию или оставалось нейтральным.

Оказалось, что резусы более дружелюбно реагируют на наиболее реалистичные лица, видимо, относя их к «сородичам». Авторы исследования полагают, что повышенная реалистичность не вызывает эффект «зловещей долины» как таковой, а снижает толерантность к аномалиям в мимике. Компьютерная модель не может передать всех тонких движений лицевых мышц, поэтому реалистичные лица скорее приводили резусов в замешательство, тогда как безжизненные каркасные модели, вероятно, воспринимались как более неприятные, обезьяна рассматривала динамическое лицо дольше, чем статическое. Имея дело с синтетической мимикой, обезьянам сложно распознать «намерения» этого лица, но по-настоящему неприятными им кажутся иные составляющие: (безжизненная) текстура кожи и вообще отсутствие шерсти на лице, непривычная компоновка черт лица, размеры тех или иных черт лица.

Замешательство, проявленное обезьянами при разглядывании динамичных реалистичных лиц, согласуется с предположением об «обманутых ожиданиях». Человек может бессознательно (статистически) оценивать мимику и язык тела, опираясь на имеющийся опыт, делая это практически по байесовскому принципу оценки правдоподобия, о чем я упоминал выше. Наблюдая хаотичную или противоречивую мимику, как обезьяна, так и человек затрудняется интерпретировать намерения «существа», а также категоризировать его по принципу «свой-чужой», «живой-неживой» и пр.

В 2017 году опыт по оценке эффекта «зловещей долины» также был проведен на детях; его поставили Генри Уэллман и Кимберли Бринк из Мичиганского университета.

В рамках исследования был проведен опрос 240 детей и подростков (в возрасте от 3 до 18 лет), участникам которого предлагалось оценить «настроение» трех разных роботов и прокомментировать, как им эти роботы. Детям показывали видео с роботом, очень похожим на человека, машинно-подобным роботом и еще одним человекоподобным роботом, сочетавшим черты Baymax из «Города героев» и EVE из «ВАЛЛ-И». Детей спрашивали, могут ли на их взгляд такие роботы подумать о себе, совершать целенаправленные действия, а также понимают ли, что такое хорошо и что такое плохо. Кроме того, детей спрашивали, может ли робот проголодаться, если пропустит завтрак, испугаться, если увидит змею, либо будет ли ему больно, если его ущипнуть.

Также был и заданы вопросы о том, страшные ли эти роботы, и вызывают ли они неловкость.

Это исследование продемонстрировало ярко выраженные отличия между детьми до девяти и старше девяти лет. Дети до девяти лет сообщили, что роботы очень похожи на людей и совсем не страшные. Эти данные – не в пользу о том, что зловещая долина может быть связана с «болезненностью» внешнего вида, поскольку подобный страх должен был эволюционно закрепляться уже у маленьких детей. С другой стороны, дети старше девяти лет говорили, что роботы, похожие на людей, гораздо неприятнее роботов, похожих на машины. Вероятно, это косвенно подкрепляет именно «мимическую» составляющую феномена. Маленькие дети более доверчивы и не так хорошо считывают социальные сигналы, возможно, плохо категоризируют их. Взрослея, дети осваивают принцип «свой-чужой», начинают более настороженно относиться к обману и лицемерию, развивают эмоциональный интеллект – и этот опыт входит в противоречие с действиями или бездействием человекоподобных роботов.

Авторы исследования предполагают, что «зловещий» компонент коррелирует с тем, насколько «разумным» кажется робот. Отношение к такой разумности у маленьких и у взрослеющих детей (а тем более у взрослых) прямо противоположное. Маленькие дети предпочитают играть с тем роботом, которого считают более разумным. Но взрослеющих детей «разумность» робота начинает напрягать и пугать, поскольку, с одной стороны, человекоподобному роботу проще приписать человеческие мысли и чувства, а с другой стороны – их сложнее «распознать» и «классифицировать». Очеловечиваясь, робот начинает восприниматься как неискреннее, но при этом достаточно умное и коварное существо, поступки которого сложно прогнозировать, а намерения – угадывать. Итак, избыточная разумность игрушки – как правило, хороша, а избыточная разумность машины – неприятна и опасна. Эти идеи пересекаются с тестом Тьюринга и проблемой его прохождения (о чем я собираюсь написать отдельную статью) и являются спекулятивными, но вполне убедительно свидетельствуют, что эффект зловещей долины сильно обусловлен социальными факторами и жизненным опытом, а значит – развивается с возрастом

Зловещая долина и GAN

Генеративно-состязательные нейронные сети и лежащие в их основе алгоритмы глубокого обучения в последние 3-4 года пользуются огромной популярностью благодаря тому, как здорово с их помощью получаются реалистичные изображения, тексты и музыка. Обзор GAN выходит за рамки этой статьи, но желающим рекомендую посмотреть курс Александра Дьяконова, выложенный здесь, а также уже ставшую знаменитой книгу Сергея Николенко, Артура Кадурина и Екатерины Архангельской.

Я впервые познакомился с GAN, залипая на сайте «ThisPersonDoesNotExist». Обновляя страницу, мы видим лица, конструируемые нейронкой по результатам изучения реальных фотографий, изученных ею в результате анализа соцсетей. На мой взгляд, эта GAN – настоящее произведение искусства, но я сразу пытался подловить ее на фальшивости и ошибках, присматриваясь, в частности, не фонит ли зловещей долиной от каких-то сделанных ею фотографий. Отчасти эти поиски также были связаны с интересом к технологии deepfake, связанной с наложением синтетических лиц на движущегося агента с далеко идущими последствиями – в частности, для искусственного создания компромата.

Просматривая выборку, я находил минимум изъянов в предлагаемых фотографиях, но обращал внимание на:

Слишком старую кожу у детей
Неправильную форму улыбки, напоминающую легкие последствия инсульта
Чрезмерно массивную нижнюю челюсть, а также слишком крупные зубы

Совсем недавно, в октябре 2021 года, вышла интересная статья американских ученых, демонстрирующая, что GAN по-прежнему регулярно ошибается в воспроизведении зрачков. На приведенных в этой статье фотографиях слева изображена реальная девочка, а справа – несуществующая:

Метод выявления синтетических изображений по форме зрачков тем более перспективен, поскольку хорошо изучен в рамках биометрических разработок. Тем не менее, в качестве одного из ограничений этого метода авторы указывают возможность ложноположительных результатов, так как некоторые инфекционные заболевания или катаракта вызывают деформацию зрачков:

Я попробовал поэкспериментировать с сайтом «ThisPersonDoesNotExist» и уже после восьмого кряду обновления страницы получил вот такое женское лицо:

Левый зрачок у нее нормальный, а правый одновременно слишком вытянут в ширину, а также имеет даже не овальную, а отчетливо неправильную форму. Таким образом, на настоящий момент этот баг в работе GAN либо не исправлен, либо не поддается исправлению.

Наконец, упомяну об эксперименте из области работы с GAN, проведенном лондонскими учеными в 2020 году. Как известно, в работе GAN и в машинном обучении в целом используется функция правдоподобия, помогающая достигать максимально реалистичного результата. Авторы описываемого эксперимента действовали от противного и при генерации синтетических лиц постепенно минимизировали правдоподобие, обратив для этого целевую функцию.

Состязательность GAN заключается в одновременном стремлении к обманчивости результата и обнаружению этой обманчивости, поэтому сеть максимизирует функцию правдоподобия, подгоняя генерируемые образцы под то множество данных, на котором училась. Можно обратить этот процесс: начать обучение с реалистичных образцов, но затем на каждой итерации корректировать работу сети, заставляя ее заострять те наиболее характерные черты, которые она классифицирует как фальшь. В таком случае эти черты постепенно выпячиваются, что приводит к выраженному соскальзыванию в зловещую долину:

Здесь показаны результаты работы сети после 0, 250, 500, 750, 1000 и 1500 итераций. Вот как выглядит один из откорректированных «портретов», полученных после 500 итераций:

Авторы расценивают это лицо как пик неправдоподобия, при котором лицо еще воспринимается как человеческое – и, соответственно, приближается к самой низкой точке зловещей долины. Мне представляется, что этот портрет ярко демонстрирует как неискренность, так и болезненность, которые кажутся ключевыми составляющими эффекта зловещей долины.

Заключение

С эмпирической точки зрения эффект «зловещей долины» несомненно существует, но является скорее субъективным результатом высшей нервной деятельности, чем объективным набором характеристик. Поскольку фальшь накапливается незаметно, соскользнуть в долину с левого края можно совершенно случайно. По-видимому, мы настолько тонко обучились распознавать такую фальшь в ходе биологической эволюции, что «зловещая долина» фактически превращается в набор антипаттернов проектирования роботов. Чтобы получить робота или аватара, находящегося на вершине ее правого склона, в нее все равно придется зайти слева, полностью преодолеть, а затем благополучно выйти – что отнюдь не гарантировано. Поэтому робота желательно оставлять дружелюбной машиной, которая выглядит как машина и не дает повода усомниться, что она является машиной. Но, кто знает, может быть, подросший AGI решит иначе.