Как стать автором
Обновить
0
New Professions Lab
Обучение в области работы с данными с 2015 г.

Обзор рынка труда в области big data и data science

Время на прочтение 5 мин
Количество просмотров 22K
Хабр, привет! По релевантным поисковым запросам нашлось около 1000 вакансий, затем они были вручную отфильтрованы по заголовкам и описаниям, и для подготовки обзора мы использовали 288 активных вакансий в области big data и data science с HeadHunter.

В действительности активных вакансий больше, так как во внимание не принимались другие ресурсы (например, SuperJob, Blastim, социальные сети, сайты компаний). Кроме того, нужно понимать, что это всего лишь снимок текущей ситуации, каждый день вакансии заполняются и появляются новые.

Данные были получены через API Headhunter, получение и обработка данных осуществлялись с помощью библиотек языка Python.

Географическое распределение размещенных на HeadHunter вакансий получилось таким:

image

Практически половина всех активных вакансий (128) приходится на Москву, в Санкт-Петербурге их более чем в 3 раза меньше (42), далее идут столицы сопредельных государств, Беларуси (16) и Украины (12), но не Казахстана, и другие крупные российские города. Небольшое число вакансий в развитых странах вместе с вакансиями в других городах России и СНГ попали в группу «Другие» (58).

Почти все вакансии в выборке предполагают полную занятость, но достаточно большое количество вакансий позволяет работать с гибким графиком (32). В базе есть 11 вакансий с возможностью удаленной работы. При этом абсолютное большинство вакансий (244, т.е. около 85%) требуют находиться в офисе полный рабочий день.

image

image

Таким получилось распределение вакансий по опыту работы:

image

Вакансии, требующие экспертного уровня опыта работы в данной области – более 6 лет – самая редкая категория, таких вакансий оказалось всего 9. Возможно, это связано с тем, что данная профессиональная область молодая и динамично развивающая. Наиболее популярны средние значения опыта работы: 1-3 года (152) и 3-6 лет (110). Есть и возможности для тех, у кого опыта работы еще нет, таких вакансий в базе 17.

Заработная плата в большинстве вакансий не указана, однако мы посчитали доступную выборку вакансий с указанием заработной платы (56) достаточной для того, чтобы по ней оценить примерный уровень оплаты по рынку.

image

Для части вакансий из числа тех, для которых заработная плата была указана, она была выражена в иностранной валюте.

image

Все суммы в иностранных валютах были переведены в рубли по актуальному курсу.

Заработная плата на HeadHunter указывается следующим образом: от определенной суммы и до определенной суммы. Если были указаны оба значения, в качестве оценки заработной платы бралось среднее между ними. Если только «от», к указанному значению добавлялось 10%, если только «до» — указанное значение сокращалось на 10%. Заработные платы были рассчитаны по категориям опыта работы отдельно для Москвы, развитых стран и всех остальных городов России и СНГ.

image

Как видно из таблицы (значения в ней даны в тыс. руб.), в Москве уровень заработных плат выше для всех значений опыта работы. Особенно значимо это различие для молодых специалистов: для специалистов с опытом работы менее 3 лет заработная плата в Москве выше на треть, также именно в Москве сосредоточены все вакансии без опыта работы (из числа тех, где указана заработная плата). Вакансия в развитых странах в списке была только одна, в Японии, уровень оплаты там ощутимо выше, почти в 2 раза превышает максимальную заработную плату в Москве. Средняя зарплата по выборке составила 138 тыс. руб., без опыта работы – почти в 2 раза меньше, всего 63 тыс. руб. Максимальная указанная зарплата в России – 220 тыс. руб.

HeadHunter предоставляет отдельное поле для указания ключевых навыков в описании вакансий, однако для большинства вакансий в выборке оно не было заполнено. Кроме того, ключевые навыки вводятся вручную, а не выбираются из фиксированного списка, поэтому написание одних и тех же навыков может отличаться. В связи с этим по базе вакансий был сформирован список из Top-50 ключевых навыков, который затем был дополнен экспертным методом. По многим навыкам было дано несколько ключевых слов-синонимов, в том числе на разных языках (например, Machine Learning и Машинное обучение, JavaScript и JS). Для некоторых навыков был дан список стоп-слов, чтобы отделить C от C++, Java от JavaScript, SQL и MySQL от NoSQL и т.п. Далее поиск этих ключевых слов осуществлялся с помощью регулярных выражений по объединенному тексту ключевых навыков и описаний вакансий, засчитывалось по одному вхождению на вакансию.

image

Самым необходимым навыком в рассматриваемой профессиональной области оказалось знание Python: он упоминается в 170 из 288 вакансий. Java упоминается в 92 вакансиях, С++ в 58, Scala – в 46, Matlab – в 44. Остальные языки оказались значительно менее востребованными, в том числе и популярные в среде анализа данных языки R (21) и Julia (3). Вторым по востребованности умением является знание SQL (140 вакансий). Знание методов машинного обучения требуется в 104 вакансиях, методов майнинга данных – в 81, глубокого обучения – в 52 (включает в качестве ключевых слов, помимо Deep Learning, названия основных используемых в глубоком обучении библиотек, например, TensorFlow и Theano), методов обработки естественных языков (включая Text Mining) – в 23. Знание технологий больших данных требуется в 122 вакансиях, впрочем, не совсем понятно, что именно здесь имеется в виду. Более конкретно, Hadoop упоминается в 99 вакансиях, Spark – в 84, Hive – в 39, MapReduce – в 29, Kafka – в 19. Опыт работы с NoSQL базами данных требуется в 37 вакансиях, в том числе в 21 упоминается MongoDB. В 41 вакансии требуется знание английского языка, в 22 требуется знание статистики. Площадка для проведения соревнований по анализу данных Kaggle упомянута в 25 вакансиях.

image

Диаграмма выше показывает распределение вакансий по классификатору специализаций HeadHunter (одна вакансия может относиться одновременно к нескольким специализациям). Как видно из нее, большинство вакансий выборке относятся к разработке (185) и анализу данных (162). Остальные специализации следуют со значительным отрывом, в их числе управление проектами (66) и математика (60).

image

Про профессиональным областям абсолютное большинство вакансий относится к области информационных технологий, некоторая часть (66) – к области науки и образования, по всей видимости, из-за математики и алгоритмов.

Сделать какой-то отвечающий реальности рейтинг работодателей по данным выборки не удалось в силу ее значительной случайности (представлены не все заполненные в компаниях позиции, а только активные вакансии). Поэтому был сделан выбор в пользу разбиения вакансий по отраслям.

API HeadHunter не позволяет получить распределение по отраслям для компаний-работодателей, поэтому его для 165 работодателей выборки пришлось проставить вручную на основе их названий и описаний. Получившиеся распределение вакансий по отраслям показано на диаграмме ниже.

image

Наиболее многочисленная индустрия – компании, специализирующиеся исключительно на информационных технологиях (93 вакансии). Из них отдельно были выделены компании, образованные вокруг Интернет-порталов (Internet, например, Яндекс и Авито, 19 вакансий), телекоммуникационные компании (16 вакансий), IT консалтинг (16 вакансий) и IT безопасность (например, Лаборатория Касперского, 4 вакансии). Во вторую по числу вакансий индустрию Marketing вошли медиа и рекламные агентства, а также в меньшем количестве компании, проводящие маркетинговые исследования. На их долю приходится 23 вакансии. Банковский сектор имел 20 активных вакансий, остальной финансовый – еще 18. Достаточно крупным работодателем оказалась индустрия разработки игр (18 вакансий). Впрочем, для отрасли разработки игр в выборку попали множественные дублирующиеся позиции для разных регионов. Ритейл, в том числе fashion retail, дал 9 вакансий выборки. FMCG и фармацевтические компании в выборке практически не представлены. Несмотря на популярность анализа данных в биологии и медицине и популярность профессии биоинформатика число активных вакансий в этих отраслях оказалось сравнительно небольшим (3 в здравоохранении и 2 в биотехнологиях).

Напоминаем, что у нас в марте стартует программа «Специалист по большим данным», приходите :)
Теги:
Хабы:
+8
Комментарии 6
Комментарии Комментарии 6

Публикации

Информация

Сайт
newprolab.com
Дата регистрации
Дата основания
Численность
Неизвестно
Местоположение
Россия
Представитель
Артем Пичугин

Истории