Pull to refresh

«HR-аналитика» средствами R

Reading time4 min
Views8.5K

Является продолжением предыдущих публикаций.


Неожиданно оказалось, что для одной из задач, которую пришлось решать примерно год назад, а именно оценка «надежности» большого коллектива, нынче есть весьма популярное название «HR аналитика». Актуализируя в рамках новой задачи материалы, вышел на просторах российского интернета на информативный блог по теме HR-аналитики. Собственно говоря, этот блог + обсуждение вопросов с его автором Эдуардом Бабушкиным и послужили отправной точкой для пересмотра проблематики.


Настоящая публикация носит, скорее, дискуссионно-аналитический характер, нежели утверждающий. Какие подходы и методы оптимальны для задачи HR аналитики, что можно сделать средствами R. Эта неоднозначность вызвана тем, что объектом исследования являются не явления природы, а поведение людей, которое не всегда логично и предсказуемо, особенно при переходе от коллектива к отдельному человеку.



Постановка задачи


У разных людей встречаются разные мнения касательно того, что скрывается под термином «HR аналитика», а на западе нынче это вообще одна из тем для хайпа в узких кругах. Поэтому для ясности и возможности алгортмизации решения для начала ограничим его трактовку в рамках настоящей публикации.


Классические задачи HR аналитики делятся на два сильно различающихся класса:


  • оценка перспективности сотрудников при приеме на работу;
  • оценка существующих сотрудников на предмет потенциального увольнения.

Первый класс интересен и для рекрутинговых агентств и для HR подразделений компаний. Второй класс важен только для HR подразделений (ну и, естественно, для руководства компании).


По сути, первый класс задач сводится к оценке «хороший-плохой претендент» на фиксированный момент (встречи с ним рекрутёра) на основании исторических данных. Т.е. это классификатор, построенный на базе накопленных данных о событиях в прошлом. С технической точки зрения для решения такой задачи могут использоваться статистические методы, включая классические методы машинного обучения (случайный лес и нейронные сети). Вопрос в оптимально подобранных факторах.


Но сейчас компании более заинтересованы в решении задач второго класса, а именно, управление оттоком персонала. И вот тут возникает первая точка для пробуксовки и потенцального провала затеи.


HR и руководители подразделений, заинтересованных в сохранении текущего штата сотрудников, продолжают оперировать терминами «модель», «факторы», «точность», «обучение», «горизонт моделирования» и прочими словечками, услышанными от маркетологов. Крупные вендоры продолжают радовать красивыми картинками и публикациями, как все будет хорошо, если использовать их продукты. Но если взглянуть на иллюстрации из весьма известной публикации по HR аналитике "Watson Analytics Use Case for HR: Retaining valuable employees", то, например, на одной из картинок будет видно, что предлагается использовать простой decision tree, но в красивом фантике. Но задача то достаточно сильно изменилась!


Картинка с подтверждением про decision tree


Правомерны ли ожидания HR специалистов?


Уточним еще раз.


Упомянутые формулировки, а именно, создание модели, прогнозирующей уход сотрудников с заданной точностью (не менее 75-80%) с необходимостью её тренировки на исторических данных достаточно явно указывает на ожидание конечного результата («чёрного ящика», далее ЧЯ) в виде бинарного классификатора «уволится — не уволится». Классификатор может быть любым, начиная от простой логистической регрессии и кончая случайным лесом и нейронными сетями, суть проблемы от этого не меняется.


Проблема связана с тем, что изменения в окружении и в самом объекте анализа (сотрудник) происходят очень динамично. Построенная модель будет очень быстро терять точность. Причем, не только сама по себе с течением времени, но и с увеличением срока прогнозирования. По более богатому опыту западных HR аналитиков нынче горизонт более или менее достоверного прогнозирования для ИТ области даже для хорошо натренированной модели составляет 1-1.5 месяца, но никак не 1-2 года, как любят говорить в рекламных роликах.


Теперь вспомним, что основная цель прогнозирования заключается в возможности внесения адекватных управленческих воздействий для удержания сотрудника. Но, опять же, по данным различных психологических HR исследований на горизонте 1-2 мес. сотрудника остановить крайне сложно и дорого. Он уже смотрит по сторонам, начал ходить по собеседованиям, морально готов к выходу, свертывает внутренние активности и пакует вещи.


Даже если актуализировать бинарный классификатор ежедневно, корректируя его точность по новым историческим данным, все равно горизонт прогнозирования принципиально нельзя улучшить радикально. Внешнее окружение меняется очень быстро, но новые факторы еще не вступили в действие — не на чем учить. Более того, алгоритм должен предоставить информацию по оптимальному управленческому воздействию, а далеко не все machine learning алгоритмы могут непосредственно предоставить такую возможность.


Это тупик?


Вовсе нет, достаточно посмотреть на эту задачу с другой стороны и обратиться к инструментам медиков, социологов, актуариев.


Речь идет о применении алгоритмов дожития (Survival analysis), который, в т.ч. является одним из самых перспективных с точки зрения ведущих западных HR аналитиков. В совокупности с моделью пропорциональных рисков (Cox proportional hazard) позволяет оперировать вероятностью увольнения, строить кривую прогноза увольнения и анализировать влияние различных факторов для конкретного сотрудника. Принципиальным является то, что переход от бинарной классификации к вероятностному описанию позволяет смотреть на эволюцию всего жизненного цикла компании и отдельных сотрудников, оперировать трендами, проводить анализ изменения вероятности увольнения в зависимости от того или иного управленческого воздействия задолго до того, как может возникнуть риск увольнения.


С помощью кривой дожития можно сравнивать разных сотрудников, считать среднее время пребывания, как для популяции, так и для отдельного сотрудника. Да и оперировать вероятностью — более зрелый подход, нежели оценивать все в категориях «чёрное — белое».


Ниже иллюстративный пример того, как выглядят разные кривые дожития (данные взяты из СКУД, фиксирующие реальное пребывание сотрудников в офисе) в зависимости от наличия переработок. «КЭП, да ведь постоянные переработки перенапрягают, Вы видите?!» Все работает и весьма неплохо, есть время провести беседы с сотрудником и подправить ситуацию.


Переработка -- это плохо!


Ссылки


Для тех, у кого есть потребность в прогнозировании ухода сотрудников, привожу ряд ссылок на полезные материалы по «Survival analysis in R». Этого вполне достаточно, чтобы разобраться в теме и сделать для себя полезный инструмент:



На просторах интернета книги наблюдались в электронной форме.


Предыдущая публикация — «Оч.умелые ручки»: делаем Tableau/Qlik из R и «синей изоленты».

Tags:
Hubs:
+12
Comments15

Articles