Comments 6
зашел прочитать про новый вид "многофакторного кластерного" анализа, ушёл - неудовлетворенным.
может покрутить параметры DBSCAN? кол-во наблюдений в кластере L-1 (а это шум, с точки зрения алгоритма DBSCAN) как бы приглашает это сделать... может мин. кол-во объектов в кластере увеличить или eps?
ЗЫ. а еще, возможно, тут будет полезнее применить алгоритм HDBSCAN
Отличная статья, как раз намечается проект по hr , было бы интересно почитать про похожие кейсы в других сферах и их особенностях
Спасибо!
Я рекомендую вместо функции "preprocess" использовать Pipeline из sklearn, который создан как раз для сборки всех последовательных шагов препроцессинга, чтобы потом легко было делать fit и predict (потому что пайплайн можно использовать как обычный оценщик):
Например:
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
pipe = Pipeline([
('scaler', StandardScaler()),
('svc', SVC())
])
pipe.fit(X_train, y_train)
pipe.score(X_test, y_test)
Плюсы:
Значительно облегчает чтение и понимание шагов предобработки данных.
Конкретизирует порядок, в котором исполняется трансформация данных.
Делает код более воспроизводимым.
Решение бизнес-задачи с помощью многофакторного кластерного анализа и здравого смысла