Прогноз выгорания с помощью интерпретируемого метода машинного обучения / Хабр

Выгорание возникает вследствие несоответствия между целями человека и реальностью, что приводит к истощению ресурсов и снижению производительности труда.

Имея данные об отклонении ожиданий сотрудников компаний от реальности, поставим задачу спрогнозировать наличие выгорания у сотрудника. Будет предложен интерпретируемый метод машинного обучения, похожий на двухслойный персептрон, в котором все весовые коэффициенты имеют ясный смысл.

Исходные данные

Исходными данными для анализа являются обработанные результаты анкетирования сотрудников разных организаций. Выборка составляет 219 элементов, число входных признаков равно 29 – это оценки важности мероприятий сотрудниками (числа от 0 до 1), взятые со знаком плюс в случае реализации данного мероприятия в организации и со знаком минус в случае отсутствия мероприятия. Таким образом, чем выше признак, тем предположительно важнее он окажется для снижения общего уровня выгорания.

Было замечено, что при показателе выше 75 выгорание слабо сказывается на производительности труда. Поэтому приведем выходные данные к бинарным: скажем, что при показателе больше 75 выгорания нет (y = 1), а при показателе меньше 75 выгорание есть (y = 0).

Базовый метод

Проанализируем наши данные с помощью логистической регрессии. Кросс-валидация показывает среднее значение ROC-AUC-метрики 0.83, эта же метрика на итоговом тестировании составила 0.69.

Предлагаемый метод

На первом этапе находим главные компоненты исходных данных. На втором этапе производим дихотомизацию каждой главной компоненты по степени влияния на конечную точку (если компонента выше порога, то полагаем соответствующий признак равным 1, иначе 0). На третьем этапе бинаризованные данные подаются на вход логистической регрессии, прогнозирующей вероятность отнесения точки к классу «1».

Главные компоненты

Выделено 9 главных компонент со следующими долями объясненной дисперсии: 30%, 13%, 7%, 5%, 4%, 4%, 3%, 3%, 3%.

Дихотомизация

Для каждой главной компоненты находим два порога: один задает значение признака, равное 1, при значении главной компоненты выше порога, другой задает значение признака, равное 1, при значении главной компоненты ниже порога.

Все пороги находим из условия минимума энтропии. Для этого перебираем возможные значения порога, вычисляем матрицу неточности и расстояние Кульбака-Лейблера.

Итоговое прогнозирование

Обучаем модель логистической регрессии на бинарных входах. Кросс-валидация показывает среднее значение ROC-AUC-метрики 0.81, эта же метрика на итоговом тестировании составила 0.7.

Выводы

Несмотря на снижение количества признаков (18 вместо 29) и их дихотомизацию, не произошло заметного ухудшения качества модели по сравнению с базовой.

На рисунке показаны значения непрерывного показателя выгорания в зависимости от интегрального показателя (весовые коэффициенты найдены из модели множественной линейной регрессии).