Interpretability versus explainability: Интерпретируемость или объяснимость? / Хабр

При чтении статей в области explainable AI, нередко можно встретить интерпретируемость (Interpretability) и объяснимость (explainability) как взаимозаменяемые сущности. Между этими понятиями существует путаница, которая вызывает трудности, особенно масштабные при отслеживании и анализе литературы [1].

В этом посте разобрана разница между explainable AI и interpreted AI, приведены примеры и небольшой монолог на тему: "что всё-таки важнее".

Прошу к чтению =)

Почему важно разделять понятия?

Выше я уже затронула, что путаница мешает отслеживанию и анализу литературы. Однако не наукой единой. Понимать отличие двух понятий важно в том числе для:

Поиска практической информации, для закрытия цели сделать модель более “открытой” конечному заказчику;
использования алгоримов ИИ в критических отраслях — здесь необходимо достигать максимума как в Interpretability, так и в explainability;
собственных теоретических выкладок — согласованность определений упростит поиск и структуризацию литературы для ваших читателей;
расширения кругозора — корректное разделение Interpretability и explainability — это как знать, что Чебышёв, а не ЧЕбышев.

В чем состоит разница?

Интерпретируемость — преследует цель создания или использования изначально понятной модели.

Объяснимость — преследует цель рассмотрения взаимосвязи между input’ом и выходами модели.

Пример:

Простая линейная регрессия обучается на основе метода наименьших квадратов — мы хотим найти оптимальную функцию, выходы которой от наших эталонным объектов (обучающей выборки) отличались бы наименьшим образом. Эта задача решаема формально, например через поиск псевдообратной матрицы или сингулярное разложение [2]. Так что линейная регрессия пример интерпретируемой модели.

Аналогично базовым примером интерпретируемой модели является дерево решений — на каждом шаге мы выбираем наиболее информативный для разбиения признак [3].

Примерами же объяснимых моделей являются большинство state-of-the-art архитектур нейронных сетей. И хотя здесь мы тоже пониманием, каким методом модель обучается и что минимизирует, в случае глубоких моделей нет полного понимания цикла преобразований между input-ом и выходным значением — это, ещё раз, главное отличие.

Как ещё можно разграничить интерпретируемость и объяснимость?

Здесь приведу две наглядные цитаты:

"The first relates to transparency, i.e., how does the model work? The second consists of post-hoc explanations, i.e., what else can the model tell me? [4]"
"Первый связан с прозрачностью, то есть с тем, как работает модель? Второй состоит из пост-специальных объяснений, т.е. что еще может сказать мне модель?[4]"

"…trying to explain black box models, rather than creating models that are interpretable in the first place…[5]"
"..пытаются объяснить модели черного ящика, вместо того чтобы создавать модели, которые в первую очередь поддаются интерпретации…[5]"

Мне нужна интерпретируемая или объяснимая?

Наверное к этому моменту вам стало интересно — где и что использовать. И это открытый вопрос.

С одной стороны может показаться, что на интерпретируемых моделях далеко не уедешь, но это не так.

Поскольку задача создания интерпретируемых глубоких моделей существует и решается, интерпретируемость не всегда равно линейной регрессии или дереву решений. Кроме того, существуют случаи, когда модели, спроектированные интерпретируемыми не отличаются в производительности от моделей, являющихся объяснимыми [6].

С другой же стороны, создание более производительных архитектур ранее никогда не было сконцентрировано на задаче интерпретируемости, и остановка этого процесса вряд ли будет логичным действием. Поскольку нейронные сети так и хочется сравнить с мозгом, здесь также уместным мне кажется подход одного из психологов Б.Ф.Скиннера — основателя бихевиоризма (подхода к изучению поведения людей и животных, основанного на предположении, что всё поведение состоит из рефлексов, реакций, подкрепления и наказаний и контролирующих стимулов [7]) .

"The use of the black box model in psychology can be traced to B.F. Skinner, father of the school of behaviorism. Skinner argued that psychologists should study the brain's responses, not its processes. [8]"

Хотя исследователи в [5] считают, что бОльшее внимание объяснимым, а не интерпретируемым моделям — путь, который “..потенциально может нанести катастрофический вред обществу..”.

На этом у меня всё. Буду рада видеть вас на моем телеграмм канале (там я просто прохожу свой дата-путь), и не прощаюсь.

И как всегда я уже по привычке подписываюсь:

Ваш дата-автор =)