Восстановление (импутация) данных с помощью Python / Хабр

Автор статьи — Виктория Ляликова.

На данный момент Python является самым популярным языком программирования, который применяется для анализа данных или в машинном обучении. Сильными сторонами Python являются его модульность и возможность интегрироваться с другими языками программирования.

В науке о данных разведочный анализ данных (exploratory data analysis, EDA) является самым важным этапом в проекте и занимает около 70-80% времени всего проекта. Такой анализ позволяет изучить какие-то свойства данных, найти в них закономерности, аномалии, очистить их, подготовить и построить начальные модели для дальнейшей работы. На этом этапе можно определить вид распределения, оценить основные его параметры, обнаружить выбросы, построить матрицу корреляции признаков и т.д.

И в предварительном анализе достаточно серьезной проблемой является обнаружение недостающих (пропущенных) значений и самым сложным является то, что здесь нет какого-то универсального алгоритма. Для каждой конкретной задачи приходится искать наиболее подходящие методы или их комбинации.

Так как большинство моделей машинного обучения не могут обрабатывать пропущенные значения, значит их нельзя игнорировать в данных и эту проблему необходимо решать во время предобработки. Самым простым решением является удаление каждого наблюдения, содержащего одно или несколько пропущенных значений. Эта задача быстро и легко выполняется с помощью библиотек Numpy или pandas.

Вместе с этим необходимо стараться воздерживаться от удаления наблюдений с отсутствующими значениями. Их удаление является крайним средством, поскольку тогда алгоритм теряет доступ к полезной информации, содержащейся в непропущенных значениях наблюдений.

Можно выделить следующие основные стратегии замены пропущенных данных подстановочными значениями.

Заменить пропущенные значения средним/медианой. В данном случае необходимо вычислить среднее/медиану имеющихся значений для каждого столбца и вставить то, что получилось в пропущенные ячейки. Данный метод является простым и быстрым, но не работает с качественными переменными. Также невозможно оценить погрешность импутации.
Замена самым часто встречающимся значением или константой. Также является еще одним простым методом импутации. Можно использовать для качественных переменных
Замена данных, используя метод k ближайших соседей или kNN. Является самым популярным методом машинного обучения для решения задач классификации. Основан на оценивании сходства объектов. Используется функция расстояния Евклида

где x_{ik} и x_{jk} — к-е элементы векторов x_{i} и x_{j} соответственно

У какого класса выше значение близости, тот класс и присваивается новому объекту.

Тогда с помощью данного метода можно вычислить значения пропущенных атрибутов на основании дистанций от попавших в область объектов и соответствующих значений этого же атрибута у объектов

где a_{i} — i-ый объект, попавший в область, k_{i} — значение атрибута k у заданного объекта a_{i}, x — новый объект, x_{k} — ый атрибут нового объекта.

Иным словами, выбирается k-точек, которые больше всего похожи на рассматриваемую, и уже на их основании выбирается значение для пустой ячейки.

Данный метод на некоторых наборах данных может быть точнее среднего/медианы или константы, учитывает корреляцию между параметрами. Главным недостатком данного метода является то, что он является вычислительно дорогим, так как требует держать весь набор данных в памяти, чтобы вычислить расстояние между пропущенным значением и каждым отдельным значением.

Множественная импутация данных (MICE). Суть данного метода заключается в том, что импутация каждого значения проводится не один раз, а много. Такой тип замены пропущенных значений позволяет понять насколько надежно или ненадежно предложенное значений. Также, MICE, позволяет работать с переменным разных типов.
Импутация данных с помощью глубоко обучения. Библиотека datawig позволяет восстанавливать недостающие значения за счет тренировки нейронной сети на тех точках, для которых есть все параметры.

Теперь попробуем разобрать некоторые возможности библиотек Phyton, которые помогут нам решить проблему недостающих значений. Для исследования необходимо выбрать набор данных (DataSet). Разнообразные наборы данных можно скачать с сайта (kaggle.com). Для демонстрации возможностей исследуем набор данных с информацией о диабете, где пациентами являются женщины не моложе 21 года индейского происхождения Пима.

Загружаем необходимые библиотеки и датасет

import pandas as pd

import numpy as np

data_diabetes = pd.read_csv('......../datasets/diabetes.csv')

data_diabetes

Данный набор содержит следующие поля: Pregnancies (количество беременностей), Glucose (уровень глюкозы), BloodPressure (давление), SkinThickness (толщина кожной складки трицепса в мм), Insulin (уровень инсулина), BMI (индекс массы тела), DiabetesPedigree (функция наличия диабета у родственников), Age (возраст), Outcome (наличие диабета).

Посмотрим на основные характеристики, каждого признака.

data_diabetes.describe()

Можно увидеть, почти в каждом столбце есть нулевые значения. Посчитаем их количество

(data diabetes ==0).sum()

Можно предположить, что это пропущенные значения, где неизвестное значение было заменено нулем. Преобразуем все нули в значениях 'Glucose','BloodPressure','SkinThickness','Insulin','BMI' на значения NaN и еще раз посчитаем их количество, предварительно сделав копию нашего датасета.

new_data = data_diabetes.copy(deep = True)

colsFix = ['Glucose','BloodPressure','SkinThickness','Insulin','BMI']

new_data [colsFix] = new_data[colsFix].replace(0, np.NaN)

new_data.isnull().sum()

И еще раз посмотрим на характеристики датасета

new_data.describe()

Почти в каждом столбце, кроме max произошли какие-то изменения.

Каким же образом можно проводить импутацию данных? Будем работать только со столбцами SkinThickness и Insulin, так как они имеют больше всего пропущенных значений.

1. В библиотеке Pandas (которая была уже загружена ранее) есть метод fillna(), который как раз позволяет заполнить пропущенные значения.

Синтаксис метода следующий

DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)

Наверное, нет смысла описывать все параметры этого метода. Описание можно посмотреть здесь.

Важно, что данный метод возвращает объект, в котором заполняются все пропущенные значения. Можно заменить пропущенные значения, например, средним, медианой, самым часто встречающимся значением, константой.

Вычисли эти значения, а затем заменим пропущенные значения медианой используя метод fillna.

Параметр SkinThickness

Медиана

Среднее

Самое часто встречающееся значение

median_Skin = new_data.Skin.median()

median_Skin

mean_Skin= new_data.Skin.mean()

mean_Skin

29.153419593345657

mode_Skin = new_data.Skin.mode()

mode_Skin

Параметр Isulin

median_Insulin = new_data.Insulin.

median()

median_Insulin

125

mean_Insulin = new_data.Insulin.

mean()

mean_Insulin

155.5482233502538

mode_Insulin = new_data.Insulin.

mode()

mode_Insulin

105

Воспользуемся методом fillna() для восстановления значений

new_data = new_data.fillna({'SkinThickness':median_SkinThickness})

new_data = new_data.fillna({'Insulin':median_Insulin})

В данном случае при использовании метода fillna указывается столбец и значение, которые необходимо заполнить.

Если необходимо заполнить значения в нескольких столбцах сразу, тогда можно сделать, например, так

new_data = new_data.fillna({'Insulin':median_Insulin, 'SkinThickness':median_SkinThickness})

2. Библиотека Sklearn имеет класс SimpleImputer, который используется для восстановления пропущенных значений.

Используется следующий синтаксис

SimpleImputer(missingValues, strategy, fill_value)

missingValues – здесь мы можем установить разные кодировки пропущенных значений, например, такие как np.nan или pd.NA.

strategy: это данные, которые заменят отсутствующие значения из набора данных, по умолчанию метод значения для этого параметра – среднее. Также можно использовать следующие стратегии: среднее, медиана, наиболее часто встречающееся, константа.

fill_value – константное значение, которое заменит пропущенные значения

Для замены пропущенных значений используется метод fit_transform.

Подробнее про класс SimpleImputer можно посмотреть здесь.

Продемонстрируем работу с данным классом

from sklearn.impute import SimpleImputer  #импортируем библиотеку

myImputer = SimpleImputer (strategy= 'mean') #определяем импортер для обработки отсутствующих значений, используется стратегия замены средним значением

myImputer = SimpleImputer (strategy= 'median') # используется стратегия замены медианным значением

myImputer = SimpleImputer (strategy= 'most_frequent') используется стратегия замены наиболее часто встречающимся значением

#используем метод fit_transform для замены пропущенных значений

new_data.Insulin = myImputer.fit_transform(new_data['Insulin'].values.reshape(-1,1))

Если необходимо заменить категориальные пропущенные значения, тогда можно использовать стратегию «самое частое значение» или «константа». Только одно замечание: все категориальные признаки должны быть переведены в числовые.

myImputer = SimpleImputer (strategy= 'constant', fill_value='1')

new_data.Outcome = myImputer.fit_transform (new_data['Outcome'].values.reshape(-1,1))

Для замены значений в нескольких столбцах в датасете средним/медианой/конcтантой можно использовать следующую команду

new_data[['Insulin','SkinThickness']]=myImputer.fit_transform(new_data[['Insulin','SkinThickness']])

3. Класс IterativeImputer библиотеки sklearn реализует многомерные алгоритмы восстановления пропущенных значений, оценивая другие значения в наборе. Данный класс моделирует каждый признак пропущенного значения как функцию от других признаков и использует оценку для замены значений. IterativeImputer фактически итеративно строит модель регрессии, используя подмножества столбцов для прогнозирования отсутствующих значений.

Подробнее про класс IterativeImputer можно посмотреть здесь.

Посмотрим на работу с этим классом

X = new_data.copy(deep = True) #создаем копию датасета

# импортируем библиотеку

from sklearn.experimental import enable_iterative_imputer

from sklearn.impute import IterativeImputer

# определяем импортер

myImputer=IterativeImputer()

# устанавливаем imputer на X

myImputer.fit(X) 

#получаем восстановленные данные

myImputer_data = myImputer.transform(X)

# полученные данные преобразовываем в DataFrame

myImputer_data = pd.DataFrame(myImputer_data,columns = new_data.columns)

4. Класс KNNImputer библиотеки sklearn обеспечивает восстановление пропущенных значений с использованием метода k – ближайщих соседей.

Подробнее про класс здесь.

# импортируем библиотеку

from sklearn.impute import KNNImputer

#определяем импортер

imputer=KNNImputer(n_neighbors=5, weigths=’uniform’)

#устанавливаем импортер на Х

imputer.fit(X)

# восстанавливаем данные

X1 = imputer.transform(X)

# полученные данные преобразовываем в DataFrame

myImputer_data = pd.DataFrame(X1,columns = new_data.columns)

Каждый отсутствующий объект рассчитывается с использованием значений от n_neighbors ближайших соседей у которых есть значение для данного объекта. Характеристики соседей усредняются равномерно или взвешиваются по расстоянию до каждого соседа

Для определения параметра n_neighbors нет какого-то определенного способа, можно определить только экспериментальным путем. Низкое значение параметра может привести к эффекту недообучения модели, а слишком высокое влияет на производительность. Чаще всего наиболее предпочтительным является значение, равное 5.

Посмотрим на сравнительную таблицу методов SimpleImputer, IterativeImputer, KNNImputer

Теперь наши данные готовы к работе.

Приглашаем всех желающих на открытое занятие «Основы ООП в Python». На занятии научимся работать с классами, познакомимся с наследованием, узнаем про мутабельность экземпляров класса, передачу аргументов в инициализатор, наследование, переопределение методов, обращение к методам суперкласса. Регистрация доступна по ссылке.

Восстановление (импутация) данных с помощью Python

Публикации

Информация