Визуализация границ решения классификатора на основе изображений
Введение
Понимание того, как классификатор разбивает исходное многомерное пространство признаков на множество целевых классов, является важным шагом для анализа любой задачи классификации и оценки решения, полученного с помощью машинного обучения.
Современные подходы к визуализации решений классификаторов в основном либо используют диаграммы рассеивания, которые могут отображать лишь проекции исходных обучающих выборок, но явно не показывают фактические границы принятия решений, либо используют внутреннее устройство классификатора (например kNN, SVM, Logistic Regression) для которых легко построить геометрическую интерпретацию. Такой способ не подойдет для визуализации, например, нейросетевого классификатора.
В статье "Image-based Visualization of Classifier Decision Boundaries" (Rodrigues et al., 2018) предлагается эффективный, красивый и достаточно простой альтернативный метод для визуализации решений классификатора, который лишен вышеописанных недостатков. А именно метод подходит для классификаторов любого вида и строит границы принятия решений с помощью изображений с произвольной частотой дискретизации.
Этот пост — краткий обзор основных идей и результатов из оригинальной статьи.
Описание метода
Основу метода составляет обратное семплирование (англ. upsampling) из плоскости изображения
Для работы метода необходимы два отображения
Построение
Чтобы построить изображение необходимо присвоить цвет каждому пикселю. Для этого для каждого пикселя
[Рис.1] Схематическое изображение разных подходов
Определение цвета
Цвет
где
Каждому классу поставим в соответствие некоторый тон (англ. hue)
Смешение
Определим смешение пикселя (от англ. confusion)
Высокое значение
Плотность
Несмотря на то, что были сгенерированы минимум
Тогда, если
[Рис.2] Цветовое кодирование
Эксперименты и результаты
Для экспериментов решались задачи бинарной классификации на наборе изображений цифр MNIST и многоклассовой классификации на наборе The Image Segmentation Dataset, который содержит 2310 изображений, поделенных на 7 классов. Для каждого изображения имеется 19 признаков.
Результаты визуализации при различных параметрах разрешения
[Рис. 3] Результат визуализации для различных параметров разрешения и минимального числа семплов N для класссификатора LogisticRegression
Визуализация при
[Рис. 4] Результат визуализации трех различных классификаторов для k=7, R=500x500, N=5
Заключение
Визуализация границ классов может быть использована при построении и отладке решающего алгоритма, при подборе гиперпараметров, при борьбе с переобучением, для представления и анализа результатов.
Описанный авторами оригинальной статьи метод может применяться для любых задач классификации, где данные представимы в виде набора признаков фиксированный размерности. В отличие от других алгоритмов визуализации, данный подход может применяться для любых, сколь угодно сложных классификаторов и для наборов данных с произвольным числом примеров, даже с очень небольшим, т.к. даже при малом