Новый подход к пониманию мышления машин / Хабр

Нейросети известны своей непостижимостью – компьютер может выдать хороший ответ, но не сможет объяснить, что привело его к такому заключению. Бин Ким разрабатывает «переводчик на человеческий», чтобы, если искусственный интеллект сломается, мы смогли это понять.

Бин Ким, исследователь из Google Brain, разрабатывает способ, который позволит расспросить систему, использующую машинное обучение, по поводу принятых ею решений

Если доктор скажет вам, что вам нужна операция, вы захотите узнать, почему – и вы будете ожидать, что его объяснение покажется вам осмысленным, даже если вы не обучались на врача. Бин Ким [Been Kim], исследователь из Google Brain, считает, что мы должны иметь возможность ожидать того же от искусственного интеллекта (ИИ). Она — специалист по «интерпретируемому» машинному обучению (МО), и хочет создать ИИ, который сможет объяснять свои действия кому угодно.

С тех пор, как лет десять назад технология нейросетей, стоящая за ИИ, начала распространяться всё шире, она смогла преобразовать все процессы, от сортировки e-mail до поиска новых лекарств, благодаря своей возможности обучаться на основе данных и отыскивать в них закономерности. Но у этой способности есть необъяснимый подвох: та самая сложность, что позволяет современным нейросетям с глубинным обучением успешно обучаться вождению автомобиля и распознаванию мошенничества со страховкой, делает даже для экспертов почти невозможным разобраться в принципах их работы. Если нейросеть натренирована на поиск пациентов с риском рака печени или шизофрении – а такую систему под названием «Глубинный пациент» [Deep Patient] запустили в госпитале Маунт-Синай в Нью-Йорке в 2015-м – то не существует способа понять, на какие именно особенности данных нейросеть «обращает внимание». Это «знание» размазано по множеству слоёв из искусственных нейронов, у каждого из которых есть связи с сотнями или тысячами других нейронов.

Поскольку всё больше индустрий пытаются автоматизировать или улучшить свои процессы принятия решений с использованием ИИ, эта проблема «чёрного ящика» кажется в меньшей степени технологическим недочётом, и в большей – фундаментальным недостатком. Проект от DARPA под названием XAI (аббревиатура от «объяснимого ИИ», eXplainable AI) занимается активным исследованием этой проблемы, и интерпретируемость перемещается с передних рубежей исследований в области МО ближе к её центру. «ИИ находится в том критически важном моменте, когда мы, человечество, пытаемся понять, подходит ли нам эта технология, — говорит Ким. – Если мы не решим задачу интерпретируемости, думаю, мы не сможем двигаться дальше с этой технологией, и, возможно просто от неё откажемся».

Ким с коллегами из Google Brain недавно разработали систему «Испытание векторов активации концепций» [Testing with Concept Activation Vectors] (TCAV), которую она описывает, как «переводчик на человеческий», и которая позволяет пользователю задать «чёрному ящику» с ИИ вопрос о том, какой была доля участия определённой концепции высокого уровня в принятии решения. К примеру, если МО-система натренирована находить на изображениях зебр, человек мог бы попросить TCAV описать, сколько вклада вносит в процесс принятия решения концепция «полосок».

Изначально TCAV испытывали на моделях, обученных распознавать изображения, но она работает и с моделями, предназначенными для обработки текстов или определённых задач визуализации данных, например, графиков ЭЭГ. «Она обобщённая и простая – её можно подключить ко многим различным моделям», — говорит Ким.

Журнал Quanta побеседовал с Ким о том, что означает интерпретируемость, кому она нужна и почему она имеет значение.

Вы в своей карьере сконцентрировались на «интерпретируемости» для МО. Но что конкретно означает этот термин?

У интерпретируемости есть две ветви. Одна – интерпретируемость для науки: если считать нейросеть объектом изучения, то над ней можно проводить научные эксперименты, чтобы реально понять всю подноготную модели, причины её реакции, и прочее.

Вторая ветвь, на которой я в основном концентрирую усилия – это интерпретируемость для создания ИИ, способного отвечать на вопросы. Не надо понимать каждую мелочь модели. Но наша цель – понять достаточно для того, чтобы этот инструмент можно было использовать безопасно.

Но как можно верить в систему, если не понимать полностью, как она работает?

Я дам вам аналогию. Допустим, у меня во дворе растёт дерево, которое я хочу спилить. У меня есть для этого бензопила. Я не понимаю в точности, как работает бензопила. Но в инструкции говорится, «Кое с чем надо обращаться осторожнее, чтобы не порезаться». Имея инструкцию, я лучше использую бензопилу вместо ручной пилы – последнюю легче понять, но мне бы пришлось пилить ей дерево часов пять.

Вы понимаете, что значит «пилить», даже если не знаете всего о механизме, который делает это возможным.

Да. Цель второй ветви интерпретируемости следующая: можем ли мы разобраться в инструменте достаточно для того, чтобы его было безопасно использовать? И мы можем создать это понимание, подтвердив, что в инструменте отражено полезное человеческое знание.

А как «отражение человеческого знания» делает чёрный ящик ИИ более понятным?

Вот ещё пример. Если доктор использует МО-модель для постановки диагноза «рак», доктору надо будет знать, что модель не выбирает просто какую-то случайную корреляцию в данных, которая нам не нужна. Один из способов убедиться в этом – подтвердить, что МО-модель делает примерно то же, что сделал бы доктор. То есть, показать, что в модели отражаются диагностические знания доктора.

Например, если доктор ищет для диагностики рака подходящий экземпляр клетки, то он будет искать нечто под названием «слившейся железы». Также он примет во внимание такие показатели, как возраст пациента, и проходил ли он в прошлом химиотерапию. Эти факторы, или концепции, примет во внимание доктор, пытающийся диагностировать рак. Если мы можем показать, что МО-модель тоже обращает на них внимание, то модель будет более понятной, поскольку будет отражать человеческое знание докторов.

Этим TCAV и занимается – показывает, какие концепции высокого уровня использует МО-модель для принятия решений?

Да. До этого методы интерпретируемости объясняли только то, что делает нейросеть в терминах «входных особенностей». Что это значит? Если у вас есть изображение, то каждый его пиксель будет входной особенностью. Ян Лекун (пионер глубинного обучения, директор исследований ИИ в Facebook), сказал, что считает эти модели сверхинтерпретируемыми, поскольку можно посмотреть на каждый узел нейросети и увидеть численные значения для каждой из входных особенностей. Для компьютеров это, может, и подходит, но люди мыслят не так. Я же не говорю вам «Посмотрите на пиксели с 100 по 200, у них значения RGB равны 0,2 и 0,3». Я говорю «Это изображение очень лохматой собаки». Люди общаются так – при помощи концепций.

Как TCAV производит перевод между входными особенностями и концепциями?

Давайте вернёмся к примеру доктора, использующего МО-модель, которую уже натренировали на классификацию изображений образцов клеток по принадлежности к раковым. Вам, как доктору, нужно узнать, какое значение имела концепция «слившихся желез» для совершения моделью положительных предсказаний наличия рака. Сначала вы собираете, допустим, 20 изображений, на которых представлены примеры слившихся желез. Потом вы подключаете эти размеченные примеры к модели.

Затем, TCAV внутри себя проводит т.н. «проверку чувствительности». Когда мы добавляем эти размеченные изображения слившихся желез, насколько увеличивается вероятность положительного предсказания рака? Ответ можно оценить числом от 0 до 1. И это и будут ваши очки в TCAV. Если вероятность увеличилась, эта концепция была важной для модели. Если нет, эта концепция не важна.

«Концепция» – термин туманный. Есть ли концепции, которые не будут работать с TCAV?

Если вы не можете описать концепцию при помощи некоего подмножества вашего набора данных, то она не сработает. Если ваша МО-модель обучена на изображениях, то концепция должна быть выражаемой визуально. Если, допустим, я захочу визуально выразить концепцию любви, это будет довольно трудно сделать.

Мы также тщательно проверяем концепцию. У нас есть процедура статистических проверок, отвергающая вектор концепции, если он оказывает на модель воздействие, равносильное случайному. Если ваша концепция не проходит это испытание, то TCAV скажет, «Не знаю, эта концепция не выглядит, как нечто важное для модели».

Направлен ли больше проект TCAV на установление доверия ИИ, чем на обобщённое его понимание?

Нет, — и объясню, почему, поскольку эта разница весьма тонка.

Из множества исследований в области когнитивистики и психологии нам известно, что люди очень доверчивы. Это значит, что человека очень легко обмануть, заставив во что-то верить. Цель интерпретируемости МО противоположна этому. Она заключается в том, чтобы сообщить человеку, что конкретную систему использовать небезопасно. Цель в том, чтобы раскрыть правду. Поэтому «доверие» – это не то слово.

Так целью интерпретируемости является раскрытие потенциальных недостатков в рассуждениях ИИ?

Да, именно.

Как она может раскрыть недостатки?

TCAV можно использовать, чтобы задать модели вопрос о концепциях, не связанных с областью исследований. Возвращаясь к примеру с докторами, использующими ИИ для предсказания вероятности рака. Доктора могут внезапно подумать: «Судя по всему, машина выдаёт положительные прогнозы на наличие рака для многих изображений, у которых цвет немного смещён в голубизну. Мы считаем, что этот фактор не нужно принимать к рассмотрению». И если они получат высокую оценку TCAV для «голубого», это значит, что они обнаружили проблему в их МО-модели.

TCAV предназначена для навешивания на существующие ИИ-системы, которые нельзя интерпретировать. Почему бы сразу не делать интерпретируемые системы вместо чёрных ящиков?

Есть ветвь исследования интерпретируемости, концентрирующаяся на создании изначально интерпретируемых моделей, отражающих способ рассуждения человека. Но я считаю так: сейчас у нас уже полно готовых моделей ИИ, которые уже используются для решения важных задач, и при их создании об интерпретируемости изначально не задумывались. Так просто есть. Многие из них работают в Google! Вы можете сказать, " Интерпретируемость настолько полезна, что давайте мы создадим для вас другую модель на замену той, что у вас есть". Ну, удачи вам.

И что тогда делать? Нам всё равно надо пройти через этот важнейший момент принятия решения о том, полезна нам эта технология или нет. Поэтому я работаю над методами интерпретируемости «после обучения». Если вам кто-то дал модель, и вы не можете её изменить, как вы подойдёте к задаче генерации объяснений её поведения, чтобы вы могли безопасно её использовать? Именно этим и занимается TCAV.

TCAV позволяет людям спрашивать ИИ о важности определённых концепций. Но что, если мы не знаем, о чём нужно спрашивать – что, если мы хотим, чтобы ИИ просто объяснился?

Прямо сейчас мы работаем над проектом, который сможет автоматически отыскивать для вас концепции. Мы называем его DTCAV – открывающее TCAV. Но я думаю, что основная проблема интерпретируемости состоит в том, что в этом процессе участвуют люди, и что мы позволяем общаться людям и машинам.

Во многих случаях при работе приложений, от которых многое зависит, у экспертов в конкретной области уже есть список концепций, важных для них. Мы в Google Brain постоянно сталкиваемся с этим в медицинских областях применения ИИ. Им не нужен набор концепций – они хотят предоставить модели концепции, интересные им. Мы работаем с доктором, лечащим диабетическую ретинопатию, заболевание глаз, и когда мы рассказали ей про TCAV, она очень обрадовалась, поскольку у неё уже была целая куча гипотез по поводу того, что может делать модель, и теперь она может проверить все возникшие вопросы. Это огромный плюс, и очень пользователе-центричный способ реализации совместного машинного обучения.

Вы считаете, что без интерпретируемости человечество может просто отказат��ся от технологии ИИ. Учитывая, какими возможностями она обладает, на самом ли деле вы оцениваете такой вариант, как реальный?

Да. Именно это произошло с экспертными системами. В 1980-х мы определили, что они дешевле людей в решении некоторых задач. А кто сегодня использует экспертные системы? Никто. А после этого наступила зима ИИ.

Пока что это не кажется вероятным, в ИИ вкладывается столько шумихи и денег. Но в долгосрочной перспективе думаю, что человечество может решить – возможно, из страха, возможно, из-за недостатка свидетельств – что эта технология нам не подходит. Это возможно.