Как стать автором
Обновить

Прогноз выгорания с помощью интерпретируемого метода машинного обучения

Время на прочтение2 мин
Количество просмотров3K

Выгорание возникает вследствие несоответствия между целями человека и реальностью, что приводит к истощению ресурсов и снижению производительности труда.

Имея данные об отклонении ожиданий сотрудников компаний от реальности, поставим задачу спрогнозировать наличие выгорания у сотрудника. Будет предложен интерпретируемый метод машинного обучения, похожий на двухслойный персептрон, в котором все весовые коэффициенты имеют ясный смысл.


Исходные данные

Исходными данными для анализа являются обработанные результаты анкетирования сотрудников разных организаций. Выборка составляет 219 элементов, число входных признаков равно 29 – это оценки важности мероприятий сотрудниками (числа от 0 до 1), взятые со знаком плюс в случае реализации данного мероприятия в организации и со знаком минус в случае отсутствия мероприятия. Таким образом, чем выше признак, тем предположительно важнее он окажется для снижения общего уровня выгорания.

Было замечено, что при показателе выше 75 выгорание слабо сказывается на производительности труда. Поэтому приведем выходные данные к бинарным: скажем, что при показателе больше 75 выгорания нет (y = 1), а при показателе меньше 75 выгорание есть (y = 0).

Базовый метод

Проанализируем наши данные с помощью логистической регрессии. Кросс-валидация показывает среднее значение ROC-AUC-метрики 0.83, эта же метрика на итоговом тестировании составила 0.69.

Предлагаемый метод

На первом этапе находим главные компоненты исходных данных. На втором этапе производим дихотомизацию каждой главной компоненты по степени влияния на конечную точку (если компонента выше порога, то полагаем соответствующий признак равным 1, иначе 0). На третьем этапе бинаризованные данные подаются на вход логистической регрессии, прогнозирующей вероятность отнесения точки к классу «1».

Главные компоненты

Выделено 9 главных компонент со следующими долями объясненной дисперсии: 30%, 13%, 7%, 5%, 4%, 4%, 3%, 3%, 3%.

Дихотомизация

Для каждой главной компоненты находим два порога: один задает значение признака, равное 1, при значении главной компоненты выше порога, другой задает значение признака, равное 1, при значении главной компоненты ниже порога.

Все пороги находим из условия минимума энтропии. Для этого перебираем возможные значения порога, вычисляем матрицу неточности и расстояние Кульбака-Лейблера.

Итоговое прогнозирование

Обучаем модель логистической регрессии на бинарных входах. Кросс-валидация показывает среднее значение ROC-AUC-метрики 0.81, эта же метрика на итоговом тестировании составила 0.7.

Выводы

Несмотря на снижение количества признаков (18 вместо 29) и их дихотомизацию, не произошло заметного ухудшения качества модели по сравнению с базовой.

На рисунке показаны значения непрерывного показателя выгорания в зависимости от интегрального показателя (весовые коэффициенты найдены из модели множественной линейной регрессии).

Теги:
Хабы:
Всего голосов 3: ↑2 и ↓1+1
Комментарии9

Публикации

Истории

Работа

Data Scientist
79 вакансий

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
14 сентября
Конференция Practical ML Conf
МоскваОнлайн
19 сентября
CDI Conf 2024
Москва
20 – 22 сентября
BCI Hack Moscow
Москва
24 сентября
Конференция Fin.Bot 2024
МоскваОнлайн
25 сентября
Конференция Yandex Scale 2024
МоскваОнлайн
28 – 29 сентября
Конференция E-CODE
МоскваОнлайн
28 сентября – 5 октября
О! Хакатон
Онлайн
30 сентября – 1 октября
Конференция фронтенд-разработчиков FrontendConf 2024
МоскваОнлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн