Целью исследования было также отразить требования работодателей, т.е. рынка. Поэтому мы брали данные о вакансиях, а не резюме или опросы специалистов.
Я согласен, интересно было бы также посмотреть как навыки взаимосвязаны на практике у реальных людей, и сравнить два графа: построенного на ожиданиях специалистов и на ожиданиях работодателей. Однако такой анализ, на мой взгляд, проблематичен из-за отсутствия данных. Анализ резюме не дал бы представлений о реальных взаимосвязях навыков.
Изначально планировали решать задачу обучения без учителя. Хотелось отразить рынок и требования работодателей, а при такой ситуации классы были не известны Т.е. мы делали кластеризацию, а не классификацию. А kNN используется когда классы известны.
knn выглядит хорошо с практической точки зрения, пока верно что st<s<=pt
где pt- количество типов позиций,
st — количество типов навыков
s — количество навыков.
Получается что у нас есть несколько классов (позиций) со схожими, но не идентичными различиями в наборе навыков
В итоге мне бы хотелось установить для каждого навыка несколько характеристик. (востребованость, необходимость для того, что бы претендовать на определенную позицию, влияние на оплату труда)
Возвращаясь к методу — не используя учителя мы во-первых немотивировано игнорируем принятую классификацию, а во- вторых теряем в практической интерпретации. Граф — это красиво, но предсказательная сила выглядит низкой.
Анализ взаимосвязи навыков с помощью графов в R