Pull to refresh

Comments 6

зашел прочитать про новый вид "многофакторного кластерного" анализа, ушёл - неудовлетворенным.

может покрутить параметры DBSCAN? кол-во наблюдений в кластере L-1 (а это шум, с точки зрения алгоритма DBSCAN) как бы приглашает это сделать... может мин. кол-во объектов в кластере увеличить или eps?

ЗЫ. а еще, возможно, тут будет полезнее применить алгоритм HDBSCAN

Отличная статья, как раз намечается проект по hr , было бы интересно почитать про похожие кейсы в других сферах и их особенностях

Спасибо!

Я рекомендую вместо функции "preprocess" использовать Pipeline из sklearn, который создан как раз для сборки всех последовательных шагов препроцессинга, чтобы потом легко было делать fit и predict (потому что пайплайн можно использовать как обычный оценщик):

Например:

from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
pipe = Pipeline([
('scaler', StandardScaler()),
('svc', SVC())
])
pipe.fit(X_train, y_train)
pipe.score(X_test, y_test)

Плюсы:

  • Значительно облегчает чтение и понимание шагов предобработки данных.

  • Конкретизирует порядок, в котором исполняется трансформация данных.

  • Делает код более воспроизводимым.

Добрый день, большое спасибо за проявленный интерес! Пайплайны действительно лучше подходят для подобных задач.

Sign up to leave a comment.

Articles