Новый подход к пониманию мышления машин

Автор оригинала: John Pavlus
  • Перевод

Нейросети известны своей непостижимостью – компьютер может выдать хороший ответ, но не сможет объяснить, что привело его к такому заключению. Бин Ким разрабатывает «переводчик на человеческий», чтобы, если искусственный интеллект сломается, мы смогли это понять.



Бин Ким, исследователь из Google Brain, разрабатывает способ, который позволит расспросить систему, использующую машинное обучение, по поводу принятых ею решений

Если доктор скажет вам, что вам нужна операция, вы захотите узнать, почему – и вы будете ожидать, что его объяснение покажется вам осмысленным, даже если вы не обучались на врача. Бин Ким [Been Kim], исследователь из Google Brain, считает, что мы должны иметь возможность ожидать того же от искусственного интеллекта (ИИ). Она — специалист по «интерпретируемому» машинному обучению (МО), и хочет создать ИИ, который сможет объяснять свои действия кому угодно.

С тех пор, как лет десять назад технология нейросетей, стоящая за ИИ, начала распространяться всё шире, она смогла преобразовать все процессы, от сортировки e-mail до поиска новых лекарств, благодаря своей возможности обучаться на основе данных и отыскивать в них закономерности. Но у этой способности есть необъяснимый подвох: та самая сложность, что позволяет современным нейросетям с глубинным обучением успешно обучаться вождению автомобиля и распознаванию мошенничества со страховкой, делает даже для экспертов почти невозможным разобраться в принципах их работы. Если нейросеть натренирована на поиск пациентов с риском рака печени или шизофрении – а такую систему под названием «Глубинный пациент» [Deep Patient] запустили в госпитале Маунт-Синай в Нью-Йорке в 2015-м – то не существует способа понять, на какие именно особенности данных нейросеть «обращает внимание». Это «знание» размазано по множеству слоёв из искусственных нейронов, у каждого из которых есть связи с сотнями или тысячами других нейронов.

Поскольку всё больше индустрий пытаются автоматизировать или улучшить свои процессы принятия решений с использованием ИИ, эта проблема «чёрного ящика» кажется в меньшей степени технологическим недочётом, и в большей – фундаментальным недостатком. Проект от DARPA под названием XAI (аббревиатура от «объяснимого ИИ», eXplainable AI) занимается активным исследованием этой проблемы, и интерпретируемость перемещается с передних рубежей исследований в области МО ближе к её центру. «ИИ находится в том критически важном моменте, когда мы, человечество, пытаемся понять, подходит ли нам эта технология, — говорит Ким. – Если мы не решим задачу интерпретируемости, думаю, мы не сможем двигаться дальше с этой технологией, и, возможно просто от неё откажемся».

Ким с коллегами из Google Brain недавно разработали систему «Испытание векторов активации концепций» [Testing with Concept Activation Vectors] (TCAV), которую она описывает, как «переводчик на человеческий», и которая позволяет пользователю задать «чёрному ящику» с ИИ вопрос о том, какой была доля участия определённой концепции высокого уровня в принятии решения. К примеру, если МО-система натренирована находить на изображениях зебр, человек мог бы попросить TCAV описать, сколько вклада вносит в процесс принятия решения концепция «полосок».

Изначально TCAV испытывали на моделях, обученных распознавать изображения, но она работает и с моделями, предназначенными для обработки текстов или определённых задач визуализации данных, например, графиков ЭЭГ. «Она обобщённая и простая – её можно подключить ко многим различным моделям», — говорит Ким.

Журнал Quanta побеседовал с Ким о том, что означает интерпретируемость, кому она нужна и почему она имеет значение.



Вы в своей карьере сконцентрировались на «интерпретируемости» для МО. Но что конкретно означает этот термин?

У интерпретируемости есть две ветви. Одна – интерпретируемость для науки: если считать нейросеть объектом изучения, то над ней можно проводить научные эксперименты, чтобы реально понять всю подноготную модели, причины её реакции, и прочее.

Вторая ветвь, на которой я в основном концентрирую усилия – это интерпретируемость для создания ИИ, способного отвечать на вопросы. Не надо понимать каждую мелочь модели. Но наша цель – понять достаточно для того, чтобы этот инструмент можно было использовать безопасно.

Но как можно верить в систему, если не понимать полностью, как она работает?

Я дам вам аналогию. Допустим, у меня во дворе растёт дерево, которое я хочу спилить. У меня есть для этого бензопила. Я не понимаю в точности, как работает бензопила. Но в инструкции говорится, «Кое с чем надо обращаться осторожнее, чтобы не порезаться». Имея инструкцию, я лучше использую бензопилу вместо ручной пилы – последнюю легче понять, но мне бы пришлось пилить ей дерево часов пять.

Вы понимаете, что значит «пилить», даже если не знаете всего о механизме, который делает это возможным.

Да. Цель второй ветви интерпретируемости следующая: можем ли мы разобраться в инструменте достаточно для того, чтобы его было безопасно использовать? И мы можем создать это понимание, подтвердив, что в инструменте отражено полезное человеческое знание.

А как «отражение человеческого знания» делает чёрный ящик ИИ более понятным?

Вот ещё пример. Если доктор использует МО-модель для постановки диагноза «рак», доктору надо будет знать, что модель не выбирает просто какую-то случайную корреляцию в данных, которая нам не нужна. Один из способов убедиться в этом – подтвердить, что МО-модель делает примерно то же, что сделал бы доктор. То есть, показать, что в модели отражаются диагностические знания доктора.

Например, если доктор ищет для диагностики рака подходящий экземпляр клетки, то он будет искать нечто под названием «слившейся железы». Также он примет во внимание такие показатели, как возраст пациента, и проходил ли он в прошлом химиотерапию. Эти факторы, или концепции, примет во внимание доктор, пытающийся диагностировать рак. Если мы можем показать, что МО-модель тоже обращает на них внимание, то модель будет более понятной, поскольку будет отражать человеческое знание докторов.



Этим TCAV и занимается – показывает, какие концепции высокого уровня использует МО-модель для принятия решений?

Да. До этого методы интерпретируемости объясняли только то, что делает нейросеть в терминах «входных особенностей». Что это значит? Если у вас есть изображение, то каждый его пиксель будет входной особенностью. Ян Лекун (пионер глубинного обучения, директор исследований ИИ в Facebook), сказал, что считает эти модели сверхинтерпретируемыми, поскольку можно посмотреть на каждый узел нейросети и увидеть численные значения для каждой из входных особенностей. Для компьютеров это, может, и подходит, но люди мыслят не так. Я же не говорю вам «Посмотрите на пиксели с 100 по 200, у них значения RGB равны 0,2 и 0,3». Я говорю «Это изображение очень лохматой собаки». Люди общаются так – при помощи концепций.

Как TCAV производит перевод между входными особенностями и концепциями?

Давайте вернёмся к примеру доктора, использующего МО-модель, которую уже натренировали на классификацию изображений образцов клеток по принадлежности к раковым. Вам, как доктору, нужно узнать, какое значение имела концепция «слившихся желез» для совершения моделью положительных предсказаний наличия рака. Сначала вы собираете, допустим, 20 изображений, на которых представлены примеры слившихся желез. Потом вы подключаете эти размеченные примеры к модели.

Затем, TCAV внутри себя проводит т.н. «проверку чувствительности». Когда мы добавляем эти размеченные изображения слившихся желез, насколько увеличивается вероятность положительного предсказания рака? Ответ можно оценить числом от 0 до 1. И это и будут ваши очки в TCAV. Если вероятность увеличилась, эта концепция была важной для модели. Если нет, эта концепция не важна.

«Концепция» – термин туманный. Есть ли концепции, которые не будут работать с TCAV?

Если вы не можете описать концепцию при помощи некоего подмножества вашего набора данных, то она не сработает. Если ваша МО-модель обучена на изображениях, то концепция должна быть выражаемой визуально. Если, допустим, я захочу визуально выразить концепцию любви, это будет довольно трудно сделать.

Мы также тщательно проверяем концепцию. У нас есть процедура статистических проверок, отвергающая вектор концепции, если он оказывает на модель воздействие, равносильное случайному. Если ваша концепция не проходит это испытание, то TCAV скажет, «Не знаю, эта концепция не выглядит, как нечто важное для модели».



Направлен ли больше проект TCAV на установление доверия ИИ, чем на обобщённое его понимание?

Нет, — и объясню, почему, поскольку эта разница весьма тонка.

Из множества исследований в области когнитивистики и психологии нам известно, что люди очень доверчивы. Это значит, что человека очень легко обмануть, заставив во что-то верить. Цель интерпретируемости МО противоположна этому. Она заключается в том, чтобы сообщить человеку, что конкретную систему использовать небезопасно. Цель в том, чтобы раскрыть правду. Поэтому «доверие» – это не то слово.

Так целью интерпретируемости является раскрытие потенциальных недостатков в рассуждениях ИИ?

Да, именно.

Как она может раскрыть недостатки?

TCAV можно использовать, чтобы задать модели вопрос о концепциях, не связанных с областью исследований. Возвращаясь к примеру с докторами, использующими ИИ для предсказания вероятности рака. Доктора могут внезапно подумать: «Судя по всему, машина выдаёт положительные прогнозы на наличие рака для многих изображений, у которых цвет немного смещён в голубизну. Мы считаем, что этот фактор не нужно принимать к рассмотрению». И если они получат высокую оценку TCAV для «голубого», это значит, что они обнаружили проблему в их МО-модели.

TCAV предназначена для навешивания на существующие ИИ-системы, которые нельзя интерпретировать. Почему бы сразу не делать интерпретируемые системы вместо чёрных ящиков?

Есть ветвь исследования интерпретируемости, концентрирующаяся на создании изначально интерпретируемых моделей, отражающих способ рассуждения человека. Но я считаю так: сейчас у нас уже полно готовых моделей ИИ, которые уже используются для решения важных задач, и при их создании об интерпретируемости изначально не задумывались. Так просто есть. Многие из них работают в Google! Вы можете сказать, " Интерпретируемость настолько полезна, что давайте мы создадим для вас другую модель на замену той, что у вас есть". Ну, удачи вам.

И что тогда делать? Нам всё равно надо пройти через этот важнейший момент принятия решения о том, полезна нам эта технология или нет. Поэтому я работаю над методами интерпретируемости «после обучения». Если вам кто-то дал модель, и вы не можете её изменить, как вы подойдёте к задаче генерации объяснений её поведения, чтобы вы могли безопасно её использовать? Именно этим и занимается TCAV.



TCAV позволяет людям спрашивать ИИ о важности определённых концепций. Но что, если мы не знаем, о чём нужно спрашивать – что, если мы хотим, чтобы ИИ просто объяснился?

Прямо сейчас мы работаем над проектом, который сможет автоматически отыскивать для вас концепции. Мы называем его DTCAV – открывающее TCAV. Но я думаю, что основная проблема интерпретируемости состоит в том, что в этом процессе участвуют люди, и что мы позволяем общаться людям и машинам.

Во многих случаях при работе приложений, от которых многое зависит, у экспертов в конкретной области уже есть список концепций, важных для них. Мы в Google Brain постоянно сталкиваемся с этим в медицинских областях применения ИИ. Им не нужен набор концепций – они хотят предоставить модели концепции, интересные им. Мы работаем с доктором, лечащим диабетическую ретинопатию, заболевание глаз, и когда мы рассказали ей про TCAV, она очень обрадовалась, поскольку у неё уже была целая куча гипотез по поводу того, что может делать модель, и теперь она может проверить все возникшие вопросы. Это огромный плюс, и очень пользователе-центричный способ реализации совместного машинного обучения.

Вы считаете, что без интерпретируемости человечество может просто отказаться от технологии ИИ. Учитывая, какими возможностями она обладает, на самом ли деле вы оцениваете такой вариант, как реальный?

Да. Именно это произошло с экспертными системами. В 1980-х мы определили, что они дешевле людей в решении некоторых задач. А кто сегодня использует экспертные системы? Никто. А после этого наступила зима ИИ.

Пока что это не кажется вероятным, в ИИ вкладывается столько шумихи и денег. Но в долгосрочной перспективе думаю, что человечество может решить – возможно, из страха, возможно, из-за недостатка свидетельств – что эта технология нам не подходит. Это возможно.
Поддержать автора
Поделиться публикацией

Комментарии 19

    0
    Если машинное обучение реагирует не на знания доктора, а на знания опухоли, то «перевод на человеческий» будет несколько затруднен.
      +1
      Немного напоминает детскую игру, где для выяснения правды можно задавать любые вопросы, на которые возможен бинарный ответ. В итоге, скорость выяснения сильно зависит от искусства задавать правильные вопросы в правильной последовательности.
      Но лучше так, чем никак. Я вполне согласен с тем, что полный чёрный ящик — это плохо-плохо во тех областях, где нейростети используются для чего-то более важного, чем правильное угадывание котиков на фотках.
        0
        Дело в том, что когда ИИ научится выдавать результат в разговорной форме, то есть сможет поддерживать диалог, отвечая на уточняющие вопросы по выданному им результату, то он сможет объяснить, как и почему он пришел к этому результату. По тем же естественным причинам, как это делают люди.

        Вот пример: новейшая разработка от OpenAI Better Language Models and Their Implications обучена просто предсказывать следующее слово в предложении. Отличие этой нейросети от предыдущих в том, что это самая гигантская модель (1.5 млрд связей, сравните с предыдущей самой крутой BERT-Large c ее 340 млн, а так обычно в подобных языковых моделях используется ~100 млн параметров). И обученная на огромном корпусе 40 Gb отфильтрованного текста (например, брались страницы, у которых были звездочки на реддите, т.е. которые пользователи отметили как содержащие какую-то полезную информацию).

        И удивительным образом, такая простая нейросеть смогла добиться state-of-the-art результатов сразу на нескольких задачах, вообще не дообучаясь под конкретные задачи! Просто путем правильного формулирования вопроса для нейросети.

        И действительно, как получить ответ на вопрос: «Что такое Солнце?». Можно подать на вход такой нейросети начало фразы «Солнце — это...», а дальше она слово за словом допишет ответ. И аналогичном образом у такой будущей нейросети можно будет спросить «Я получила такой ответ, потому что...», и она допишет почему.
          0

          Хотелось бы увидеть статья на хабре на эту тему. Нет желание написать?

            0
            Про OpenAI GPT-2? Уверен, что статья на хабре о ней появится в ближайшее время, если еще не появилась. Эта сетка сейчас на всех зарубежных новостных сайтах, а значит и перевод скоро будет. OpenAI подкинули хайпа, впервые отказавшись выкладывать в общий доступ предобученную полную модель (ту, что способна генерировать целые страницы связного текста с сохранением контекста, см. сайт OpenAI). Якобы, с ней будет слишком большой соблазн генерировать фейковые новости и отзывы в магазинах, неотличимые от настоящих.

            А технически это обычный чуть тюнинговый Transformer, только имеющий в 10 раз больше параметров, чем предыдущие. И еще они выяснили, что тексты с той же Wikipedia или литературных книг оказываются стилистически предвзятыми, что ухудшает итоговую генерацию текста. Обычные интернет-страницы оказались лучше по разнообразию стилей. При условии что удастся отсеять всякий шлак вроде рекламных сайтов (они это сделали, собирая страницы по ссылкам с хорошим рейтингом на реддите).

            С точки зрения ИИ, самое интересное в этой работе то, что простое предсказание следующего слова в предложении способно давать сложные ответы, если правильно сформировать вопрос — т.е. начало фразы. Которую нейросеть продолжает, потому что это наиболее естественно для такого начала фразы.

            Это, теоретически, может решить проблему интерпретируемости. Причем под каждую конкретную целевую аудиторию. Представьте, как нейросеть могла бы продолжать фразы, начинающиеся с: «Я, как ученый, могу объяснить что Земля это...» или «Я, как сторонник плоской земли, утверждаю что Земля это...». Или: «Я, как воспитатель в детском саду, сейчас расскажу вам, детишки, что Земля это...».

            Это может быть очень интересная профессия в будущем — получать ответы у ИИ, правильно формулируя вопросы для него. Супер-google, так сказать ).
              0
              Добавлено: написал все таки отдельный пост по GPT-2 от OpenAI. Там же туториал как запустить ее в браузере через Google Colab: habr.com/ru/post/440564
                0

                Это просто отлично!

        +2
        Ну как это нейросеть не знает, почему она выдала результат.

        Проблема в том, что факторов слишком много, чтобы один человек мог охватить все факторы.
        Когда нейросеть для выдачи результата вычисляет не 1-2 важных фактора и 10 минорных, а пару тысяч примерно равноправных факторов — для человеческого мозга это уже почти белый шум.

        То есть разрабатывают некий «визуализатор логов» для нейросетей, а озвучивают «новый подход к пониманию.»
          +2
          Если доктор скажет вам, что вам нужна операция, вы захотите узнать, почему – и вы будете ожидать, что его объяснение покажется вам осмысленным, даже если вы не обучались на врача.
          В результате врач врёт, излагая пациенту «нечто на доступном уровне». Осталось подождать, когда аналогично врать научится ИИ, делов-то!
          Но в долгосрочной перспективе думаю, что человечество может решить – возможно, из страха, возможно, из-за недостатка свидетельств – что эта технология нам не подходит. Это возможно.
          Если ИИ на это согласится :-D

          В целом, безусловно, люди занимаются чем-то очень важным. Но изложено это на таком уровне — что только на таком уровне и можно реагировать.
            0
            В результате врач врёт, излагая пациенту «нечто на доступном уровне».

            Не обязательно. Предположим, врач говорит «Если не провести операцию сейчас, то с вероятностью 95% через два-три года вы полностью потеряете способность ходить». При этом врач умолчал огромное количество подробностей, которые для человека без медицинского образования звучат как тарабарщина.
            Будет ли такое умолчание искажением истины?
              0
              Вы не обратили внимания? Я не собирался делать анализ в таком стиле, а только отметил, что пост написан настолько поверхностно, что и реагировать на него можно только примерно так.

              И да, врач при этом скрывает великое множество подробностей, которые могут сильно приблизить или отдалить указанный эффект. Просто потому, что «пациент не поймёт». Так что — искажает истину, и сильно.
            +2
            Машины пока не умеют мыслить, нечего там понимать.
              0

              Вопрос самоинтерпретации волнует и психологов, в современности считается, что человек очень часто не способен осознано интерпретировать свои мотивации. То есть отвечая на вопрос почему было сделано то или иное действие, человек будет искать в голове наиболее вероятные мотивы, согласующиеся с собственными убеждениями, и на которые, к тому же, будет наложен культурный опыт общества. Хотя зачастую бывает, что человек производит некоторые действия механическим образом.


              Свидетельство тому можно найти в экспериментальных работах по социальной психологии. Хорошо известно, что люди иногда думают, что у них есть убеждения, которых у них на самом деле нет. Например, если предлагается выбор между несколькими одинаковыми элементами, люди, как правило, выбирают тот, что справа. Но когда человека спрашивают, почему он выбрал это, он начинает выдумывать причины, утверждая, что, как ему показалось, у этого предмета был приятнее цвет или он был лучшего качества.

              https://monocler.ru/problema-samointerpretatsii/

                +1
                Выглядит как у сознания есть внутренняя модель себя, и оно по ней пытается дать объяснение своего поступка. Но модель кривая/неполная (правильнее, сознание считает, что это оно совершило действие, а не подсознание), и даётся соответствующее неверное объяснение.
                0
                Да, давайте все перестанем использовать нейросети, ведь мы так и не поняли сути их работы, мало ли что может случиться. С завтрашнего дня перестаём ими пользоваться.
                Как-то так это будет, да?

                И про экспертные системы пример какой-то за уши притянутый, если они оказались способны решать какие-то задачи на уровне человека, при этом дешевле человека, то… м? Такое чувство, что о чем-то недоговаривают.
                  0
                  В этом гипер-конкурентном мире никто не откажется от чего-то, что потенциально опасно и сложно объяснить (даже если это действительно так), если это что-то дает достаточно серьезное конкурентное преимущество.
                  Впрочем, это не умаляет заслуг представленного исследования.
                    0
                    Можно подумать, люди что-то другое понимают… ))
                      0
                      Ну наконец-то.
                      Уже сколько лет люди создают разные вещи, слабо понимая как же они работают на самом деле, и вот теперь для этого будет ИИ, который откроет истину.
                      П.С. 42?
                        0
                        Давайте вернёмся к примеру доктора, использующего МО-модель, которую уже натренировали на классификацию изображений образцов клеток по принадлежности к раковым. Вам, как доктору, нужно узнать, какое значение имела концепция «слившихся желез» для совершения моделью положительных предсказаний наличия рака. Сначала вы собираете, допустим, 20 изображений, на которых представлены примеры слившихся желез. Потом вы подключаете эти размеченные примеры к модели.
                        Затем, TCAV внутри себя проводит т.н. «проверку чувствительности». Когда мы добавляем эти размеченные изображения слившихся желез, насколько увеличивается вероятность положительного предсказания рака? Ответ можно оценить числом от 0 до 1. И это и будут ваши очки в TCAV. Если вероятность увеличилась, эта концепция была важной для модели. Если нет, эта концепция не важна.

                        и
                        TCAV можно использовать, чтобы задать модели вопрос о концепциях, не связанных с областью исследований. Возвращаясь к примеру с докторами, использующими ИИ для предсказания вероятности рака. Доктора могут внезапно подумать: «Судя по всему, машина выдаёт положительные прогнозы на наличие рака для многих изображений, у которых цвет немного смещён в голубизну. Мы считаем, что этот фактор не нужно принимать к рассмотрению». И если они получат высокую оценку TCAV для «голубого», это значит, что они обнаружили проблему в их МО-модели.


                        В первом они говорят про проверку чувствительности к параметрам. Но как же тогда выбрать эти параметры, если во втором они говорят что «Доктора могут внезапно подумать», а что если они внезапно про это не подумают, а также про сотни других параметров изображений которые к раку вообще не имеют отношения, а только к аппаратуре которой их делали? Суть в том чтобы сначала найти эти параметры которые сформировались в нейросети и перевести их в понятные человеку термины, а потом уже оценивать их вклад в постановку диагноза.

                        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                        Самое читаемое