В соавторстве с Анной Перовой
Введение
Каждый день человечество создает, использует и хранит огромные объемы данных. Каждая статья, пост в блоге или instagram, каждый лайк да и вообще каждый факт коммуникации — данные, которые, будучи обработанными становятся ценными, приносят прибыль и предостерегают от рисков того кто ими владеет и умеет извлекать соответствующую информацию.
С ростом возможностей анализа данных и осознания полезности имеющихся архивов повышается и потребность в экспертах по Data Science, машинного обучения и искусственного интеллекта (AI), способных работать с данными и создавать на их основе полезные модели, а также, системы самостоятельно обрабатывающие данные и заставляющие их работать.
Почему тем, кто набирает команды в этой сфере необходимо задуматься о новых методах рекрутинга?
Как еще в 2015 году писали на TechCrunch, по мнению Mckinsey, которые, надо признать оказались не далеко от истины, 490 000 специалистов потребуется в этой области к 2018 году.
Если опираться на данные LinkedIn — из 236 миллионов профилей около 11 400-19 400 — профили Data Scientists.
Уже сейчас средние ежегодные инвестиции Amazon’s в AI Hiring — $227.8 million, в то время как инвестиции ключевого конкурента - Google в хайринг AI — $130.1 million. Специалисты в области искусственного интеллекта ведущих компаний получают от $100 000 до $500 000 в год. Об этом свидетельствуют данные опроса, который провел The New York Times, и в принципе проверяется периодически попадается либо на dice.com, либо на monster.com, либо на LinkedIn.
Область новая и в тренде. Количество и качество молодых специалистов не удовлетворяет высочайшей потребности в них во как всем мире, так и у нас в России — здесь ситуация отличается только порядком зарплат и пока — количеством открытых вакансий в области Data Science & AI.
По результатам анализа hh.ru количество открытых вакансий в области Machine Learning, Deep Learning, Data Science: более 1000. Количество готовых специалистов с необходимым опытом — не более 300. Кандидатов с хотя бы минимальным опытом в этой области AI, Data Science не подходящих под эти позиции — около 3 тысяч. И это само по себе является проблемой для поиска и найма так как:
- c одной стороны действительно мало ценных специалистов;
- c другой – много кандидатов, только начинающих свой путь в рассматриваемой области, в обучение которых (в случае найма) придётся вложится.
Все это приводит к чрезвычайно перегретому рынку труда, и при найме в этой области необходимо учитывать целый ряд факторов:
- высочайшая конкуренция за таланты (зарплаты & условия) — вакансий больше, чем кандидатов, но требования к кандидатам высокие; примерная статистика: по 10-15 предложений вакансий на одного кандидата с опытом 3+ лет в Data Science & AI;
- компании вынуждены быть более гибкими по зарплате, графику, дополнительным возможностям, в целом, распространено предпочтение гибкого графика, part-time, потребность в свободе для проявления креативности для поиска лучших подходов и решений;
- кандидату важны проекты и задачи т.к. Data Scientist — зачастую имеет определенный личностный тип: аналитический склад ума, мотивация на интеллектуальное и профессиональное развитие, тяга к исследованиям, разнообразным задачам, любознательность и в месте с тем встречается некоторый индивидуализм и требовательность к признанию результатов;
- компании тем не менее требуется сильная команда, способная выдавать результат в срок, в которой есть у кого учиться, вместе с кем создавать исследовательские проекты;
- необходимы ресурсы и мощности, хорошее оборудование, GPU.
В связи с высокой конкуренцией за таланты в данной сфере возникает целый ряд вопросов по подбору, главные из которых:
- Где найти AI & Data Science специалистов?
- Как распознать? Как из небольшого круга кандидатов выбрать лучших или наиболее перспективных (которые быстро и с пользой пройдут обучение)? Какие должны быть критерии отбора для специалиста-Хедхантера?
- Как не потерять? Как удержать AI & Data Science специалистов?
1. Где найти?
Кроме стандартных и известных всем источников, хотелось бы обратить внимание на наиболее результативные с точки зрения моего личного опыта найма AI & Data Science специалистов.
Slack, канал Open Data Science. Это ресурс не для рекрутеров и в основном предназначен для общения инженеров, специалистов в области Data Science.
Что нужно сделать: разместите объявление в Slack в сообществе Open Data Science. Лучше попросить это сделать своих коллег — DS специалистов или Data инженеров, не скрывая уровень зарплат и возможностей для развития. Подчеркните особенности именно привлекательных задач и проектов, технологий, которые возможно использовать.
Соревнования Kaggle.
Что нужно сделать: Отберите топ — 50-100 в соревнованиях Kaggle. Первые 20 обычно решают задачи для удовольствия, с удовольствием работают в крупных компаниях и не занимаются поиском работы. После первых 20 можно отобрать потенциальных кандидатов с высоким потенциалом в DataScience и AI, связаться с ними, предложить встречу и проект. В случае отказа, возможно запросить рекомендации, используя реферальную программу Вашей компании (подробно о хантинге с применением Kaggle можно задавать вопросы в личку, либо, если будет интерес — подготовим отдельный материал).
- H-Index. Индекс Хирша, а скорее метод оценки/поиска кандидатов, который лучше использовать именно при поиске AI, ML/DL, Computer Vision, Data Science экспертов. Этот критерий позволяет оценить — кого из ученых и профессоров цитируют лучше, а кого — хуже и найти тех, кто специализируется в искомой профессиональной области и может стать гуру для молодых специалистов. Что нужно сделать: ищите Data Science и AI специалистов, используя открытые данные по индексу Хирша. Интересуйтесь темами, соответствующими Вашим задачам. Средний индекс для ученых разного уровня:
- молодой ученый, аспирант – 0-2;
- кандидат наук – 3-6;
- доктор наук – 7-10;
- член Диссертационного Совета – 10-15;
- ученый с мировым именем, председатель Диссертационного Совета – 16 и выше.
Полезный сайт для поиска кандидатов по индексу цитирования: eLIBRARY.ru.
На этом сайте размещены публикации российских ученых. Там размещено более 24 млн статей, база постоянно пополняется.
Один из главных лафхаков — зарегистрироваться на сайте, затем найти профессора с большим количеством публикаций с высоким уровнем цитирования, найти способ связаться с ним и попросить рекомендации соавторов и студентов. Как вариант — открыть публикации и связаться с соавторами через доступные социальные сети.
При найме ученых важно учитывать, что им может не хватать именно практических навыков, понимания бизнеса, но возможно, их научная карьера сможет быть полезной для развития наукоемких проектов, в том числе в облaсти AI.
Организуйте свое собственное соревнование по Data Science: хакатон, олимпиаду по программированию. Такие мероприятия делают AI Community, Open Data Science и др. Вы можете попробовать организовать и своими руками, но качество скорее всего пострадает.
Пример хорошего соревнования: Sberbank Contest.
- Запустите бесплатный обучающий курс по ML/Deep Learning- формат не важен. Главное, определитесь с тематикой и задачами, мониторя наиболее подходящих специалистов по результатам решения "домашних заданий". Для хорошей воронки, пригласите больше 50 наиболее перспективных. В итоге останется порядка 10-15, и не более 5 вы наймете, но сэкономите этим методом массу времени и сил.
- Система внутренних рекомендаций. Назначить достойный реферальный бонус для внутренних сотрудников. Стимулировать их к рекомендациям.
- Развивать свой AI нетворкинг. AI и Data Science сообщество и в России, и в мире пока очень невелико и активно общается на конференциях, легко получить рекомендации от гуру и спикеров, часто это даже возможно сделать бесплатно (OpenAITalks, Skolkovo Robotics, NIPS, ICLR etc.)
2. Как отобрать действительно хороших Data Science & AI специалистов
Для HR непросто разобраться сразу во всех понятиях, поэтому самое главное — хорошо понимать основные заголовки, чтобы хотя бы как-то ориентироваться. И действовать в соответствии с инструкцией (глава «ОКОНЧАТЕЛЬНЫЙ СПИСОК, или Принципы отбора кадров») — т.е. очень чётко сбалансировать сложность работы и испытаний финансовой и нефинансовой мотивацией.
Итак, для начала важно определиться с тем, что сейчас понимается под Data Scientist
Data Scientists используют статистические данные, машинное обучение и аналитические подходы к решению важнейших бизнес-задач. Их основная функция — помочь организациям превратить свои объемы больших данных в ценные и действенные модели.
Они должны хорошо знать математику, программировать, разрабатывать алгоритмы машинного обучения для автоматизации алгоритмов. Также от них ожидается высокая способность к интерпретации данных, важно умение их визуализировать, важны навыки решения проблем, даже если проблемы не сформулированы до конца.
Важно, чтобы они могли работать с различными видами данных и данными различного уровня готовности.
Хороший математический бэкграунд (знание линейной алгебры, аналитической геометрии, теории вероятности и математической статистики) — это обязательно. И это даже более важно для анализа данных, чем инженерные знания. Обучение ML моделей требует понимания, какие именно модели необходимо использовать, как интерпретировать и как улучшить полученные результаты.
Знание языков программирования: Python или R (но ориентироваться используемый у вас технологический стек); С/C++; Java
Навыки: Scala, Apache Spark, Hadoop, machine learning, deep learning, and statistics.
Дополнительно: Tensorflow, PyTorch, Keras, Caffe, Pandas etc., Jupyter, and RStudio., опыт работы с высоконагруженными системами, Cuda.
Отличие Data Scientists от Data Engineer — способность не только анализировать данные, но и интегрировать их в существующие системы. В связи с этим особенно важно глубокое знание языков программирования, а так же опыт создания или участия в создании высоконагруженных, многопоточных систем и т.п.
Ключевые понятия, с которыми желательно быть знакомым рекрутеру: Machine Learning, Deep Learning, Data Science, Data Mining, Big Data, Computer Vision, Image Processing, car recognition, face recognition, Recommendation systems, Natural Language processing, kaggle contests.
Фильтрация кандидатов на основе телефонного HR интервью:
- Важно понимать, насколько глубоки знания кандидата в области математики ( линейная алгебра, теория вероятности)
- Какие фреймворки использует? Приветствуется разнообразный опыт.
- Какие наиболее сложные проекты проекты приходилось создавать? Какова была личная роль и результат?
- В каких соревнованиях принимал участие?
- Есть ли статьи в научных журналах и здесь на habr.com?
Алгоритм рекрутинга и отбора кандидатов:
- Техническое интервью состоит из 3 частей:
- Онлайн тестирование на 20 минут. Пример сайта для размещения онлайн теста.;
- Тестирование — 1 час. Техническое интервью в офисе. Тестовое задание 20 мин-1 час. Можно создать тест из 10-15 задач ( задачи по теории вероятности, математической статистике, компьютерному зрению, машинному обучению). Тест выполняет кандидат один в переговорной комнате. Ему не обязательно решить все задачи, но важно решить хотя бы 50%. В тестировании полезно выставлять баллы для объективной оценки и возможности сравнить кандидатов;
- Устная часть технического интервью — 1 час (обсуждение результатов задач по теории вероятности, математической статистике и анализ того, как кандидат походит к решению задач по компьютерному зрению, машинному обучению).
При этом надо понимать, что условия работы и прочие «плюшки» кандидату известны и честно озвучены заранее иначе пройти испытания мотивация будет не только лишь у всех.
- HR & Personality interview c Тимлидером
Личностные черты, которые необходимо необходимые для DataScientist:
- Высокая обучаемость Он должен быть умным, быстро приобретать новые навыки, быть готовым и постоянно развиваться в своей сфере и желательно в предметной области компании.
- Любознательность, интерес к новым технологиям, практический опыт их использования, интерес к смежным областям.
- Усидчивость и настойчивость — способность долгое время работать над одной проблемой
- Креативность — интерес к новым возможностям, мотивация и способность придумывать новые решения.
Как удержать специалистов AI & Data Science в компании:
Здесь у стандартных инструментов удержания есть свои особенности.
- Возможность работать с гуру, экспертом в Рынке AI в России или других странах, возможность писать PHD, делать совместные научные исследования;
- Команда сильных профессионалов, у кого можно учиться и с кем интересно создавать AI проекты (ВУЗы Top-10, сотрудники из крупных-компаний лидеров рынка AI в России);
- Возможность написать статью. Сделать исследование, и публикации для международных конференций ( NIPS, ICLR etc.);
- Помощь в получении научной степени, включая международную;
- Доступ к первоисточникам.
И общечеловеческие ценности:
- Интересные задачи, возможность делать публикации;
- Высокая зарплата, регулярный ее рост в соответствии с уровнем рынка;
- Уважение. Включая доверие экспертизе, признание достижений в компании и научном сообществе (премии, премии за достижение результатов);
- Хорошее оборудование, доступ к данным;
- Информирование об изменениях — сотрудники должны быть в курсе дальнейших планов компании. Даже в крупной компании важно позаботиться о том, чтобы не держать их в неизвестности;
- Забота о сотрудниках — регулярные опросы с возможностью получения честных ответов. Как улучшить жизнь сотрудников, помочь им быть более эффективными (фрукты в офисе, музыкальные инструменты, комната для релаксации, поздравление не только с днем рождения, но и с другими праздниками и др.).
В заключении стоит отметить, важно знать, что отличие этих вакансий от остальных — прежние методы рекрутинга для этих кандидатов работают не так эффективно. Важно соблюдать баланс между чрезвычайной нехваткой специалистов, готовностью быть более гибкими в условиях и необходимостью фильтровать и отбирать сильных профессионалов, способных сделать положительный вклад в изменения в бизнесе.