Big Data, Python, Data Analysis

Промышленность остаётся одной из ключевых отраслей экономики России и формирует устойчивый спрос на квалифицированных специалистов — от рабочих профессий до инженеров и управленцев. Однако структура этого спроса неоднородна: разные сегменты промышленности развиваются с разной скоростью, а требования к кандидатам и уровни оплаты труда могут существенно отличаться.

В данной статье представлен результат аналитического исследования рынка промышленных вакансий на основе данных HeadHunter. Работа охватывает полный цикл: от сбора и очистки данных до анализа, визуализации и построения прогноза.

Исследование выполнено в рамках курсовой работы по дисциплине «Наука о данных и аналитика больших объёмов информации».

Обзор предметной области

HeadHunter (hh.ru) — крупнейшая в России платформа для поиска работы и персонала, предоставляющая открытый API для доступа к данным о вакансиях. API HH позволяет получать структурированную информацию о вакансиях, включая профессиональные роли, отрасли, регионы, уровни позиций и предлагаемые заработные платы.

В рамках данного исследования рассматривались исключительно вакансии, относящиеся к промышленной сфере: машиностроение, энергетика, металлургия, нефтегазовый сектор, строительство, пищевая и деревообрабатывающая промышленность и другие смежные направления.

Актуальность исследования

Актуальность работы обусловлена несколькими факторами:

  1. промышленность является базовой отраслью экономики и напрямую влияет на занятость населения;

  2. спрос на специалистов различается по сегментам и регионам;

  3. рынок труда динамичен, и без количественного анализа сложно выявить устойчивые тренды;

  4. данные HeadHunter позволяют перейти от субъективных оценок к объективной статистике.

Цель исследования — определить, в каких сегментах промышленности наблюдается наибольший спрос на специалистов, какие уровни позиций наиболее востребованы и какие зарплатные предложения характерны для различных категорий работников.

Постановка задач анализа

В ходе исследования были сформулированы следующие аналитические задачи:

  1. Проанализировать общее количество промышленных вакансий за выбранный период и определить долю ключевых отраслевых сегментов.

  2. Исследовать распределение вакансий по уровням позиций (рабочие, инженерные, управленческие).

  3. Сравнить среднюю и медианную заработную плату для различных категорий специалистов.

  4. Проанализировать динамику изменения спроса на промышленные профессии.

  5. Построить краткосрочный прогноз спроса на специалистов в промышленной отрасли.

Источник данных и ограничения

Источник данных

В качестве источника данных использовался официальный API HeadHunter. Сбор данных осуществлялся посредством поисковых запросов к эндпоинту /vacancies с фильтрацией по:

  1. профессиональным ролям;

  2. отраслевой принадлежности;

  3. дате публикации вакансий.

Ограничения API

При работе с API были учтены следующие ограничения:

  1. не более 2000 вакансий в одном запросе;

  2. не более 120 запросов в минуту;

  3. доступ только к вакансиям, опубликованным за последние 30 дней.

Использование поиска по API оказалось принципиально более эффективным, чем перебор вакансий по ID, поскольку:

  1. ID вакансий разрежены и непредсказуемы;

  2. большинство запросов при переборе возвращают ошибку 404;

  3. поиск позволяет сразу отфильтровать нерелевантные данные.

Характеристика дата сета

В результате автоматизированного сбора данных был сформирован крупный массив вакансий со следующими характеристиками:

  1. период анализа: 2 месяца;

  2. общее количество собранных вакансий: ~3 000 000;

  3. после фильтрации по промышленности: 2 781 212;

  4. уникальных вакансий: 218 788;

  5. объём базы данных SQLite: ~500–800 МБ.

Структура данных включала:

  1. идентификаторы вакансий;

  2. регион размещения;

  3. отраслевой сегмент;

  4. уровень позиции;

  5. зарплатные вилки;

  6. временные метки публикации.

Программная реализация

Для сбора и анализа данных была разработана модульная система на Python, включающая:

  1. API-клиент HeadHunter;

  2. модуль хранения данных (SQLite);

  3. модули анализа и агрегации;

  4. подсистему визуализации.

Общий объём кода превысил 5000 строк. Архитектура решения ориентирована на горизонтальное масштабирование и параллельную обработку данных.

Ключевое преимущество системы — модульная архитектура аналитики, позволяющая добавлять новые виды анализа без изменения существующего кода.

Анализ структуры рынка

Доля сегментов промышленности

Анализ показал, что рынок промышленных вакансий распределён неравномерно:

Машиностроение — около 30% рынка;

Энергетика — 13.6%;

Строительная промышленность — 11.7%.

Остальные сегменты формируют более мелкие, но устойчивые доли.

Изображение выглядит как текст, снимок экрана, число, диаграмма  Содержимое, созданное искусственным интеллектом, может быть неверным.
Рис. 1. Доля отраслевых сегментов в промышленности.

Распределение по уровням позиций

Почти половина всех вакансий (43%) приходится на рабочие специальности. Инженерные позиции составляют около 22% рынка, что указывает на стабильный спрос на технических специалистов.

Изображение выглядит как текст, снимок экрана, диаграмма, График  Содержимое, созданное искусственным интеллектом, может быть неверным.
Рис. 2. Распределение вакансий по уровням позиций.

Сравнение средней и медианной зарплаты

Интересным результатом стало незначительное расхождение между средней и медианной заработной платой для специалистов разной квалификации. Разница между высоко- и среднеквалифицированными специалистами составила около 1.3%, что может свидетельствовать о дефиците квалифицированных рабочих кадров.

Изображение выглядит как текст, снимок экрана, Шрифт, диаграмма  Содержимое, созданное искусственным интеллектом, может быть неверным.
Рис. 3. Средняя и медианная зарплата по категориям специалистов.

Региональный анализ

Рынок промышленных вакансий концентрируется в нескольких ключевых центрах:

Москва и Московская область — 22% рынка;

Санкт-Петербург — 8% рынка.

При этом регионы с меньшим числом вакансий демонстрируют более однородные зарплатные предложения.

Изображение выглядит как текст, снимок экрана, число, диаграмма  Содержимое, созданное искусственным интеллектом, может быть неверным.
Рис. 4. Распределение вакансий по регионам.

Динамика спроса

Анализ временных рядов показал:

Общий рынок остаётся стабильным;

За анализируемый период наблюдается умеренное снижение спроса (~6.8%);

Резких скачков или провалов не зафиксировано.

Изображение выглядит как текст, линия, диаграмма, снимок экрана  Содержимое, созданное искусственным интеллектом, может быть неверным.
Рис. 5. Динамика количества вакансий по времени.

Прогноз спроса

На основе временных рядов был построен краткосрочный прогноз спроса на промышленных специалистов. Прогноз на ближайшие два месяца показывает сохранение текущих трендов, что указывает на устойчивость промышленного сектора.

Изображение выглядит как текст, снимок экрана, диаграмма, линия  Содержимое, созданное искусственным интеллектом, может быть неверным.
Рис. 6. Прогноз спроса на промышленные вакансии.

Качество и надёжность данных

Для повышения достоверности результатов были применены:

Контроль полноты данных;

Исключение вакансий без указания зарплаты;

Проверка дубликатов;

Оценка доверительных интервалов и погрешностей.

Следует отметить, что исключение вакансий без зарплаты может вносить систематическую погрешность, если такие вакансии распределены неравномерно между категориями.

Выводы

В результате проведённого исследования:

  1. Определена структура рынка промышленных вакансий по отраслям.

  2. Выявлены наиболее востребованные уровни позиций.

  3. Проанализированы зарплатные предложения и их распределение.

  4. Установлена стабильная динамика спроса без резких колебаний.

  5. Построен прогноз, подтверждающий устойчивость промышленного рынка труда.

Полученные резу��ьтаты могут быть использованы для:

  1. анализа рынка труда соискателями;

  2. стратегического планирования работодателями;

  3. дальнейших исследований в области аналитики больших данных.

Репозиторий проекта

С исходным кодом и материалами исследования можно ознакомиться в репозитории:

GitHub

Заключение

Проведённый анализ демонстрирует, что данные HeadHunter при корректной обработке и масштабируемой архитектуре сбора позволяют получать репрезентативную картину рынка труда. Ключевым фактором успеха исследования стало сочетание качественного источника данных, строгой методологии и продуманной визуализации результатов.

В перспективе работа может быть расширена за счёт увеличения временного горизонта, применения методов машинного обучения и интеграции данных из смежных источников.