❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_8
?Вопрос_8: Какие алгориммы поиска аномалий в данных существуют и чем они отличаются ?
✔️Ответ:
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) - алгоритм кластеризации данных, который основывается на плотностной информации о расположении объектов. Он определяет кластеры как плотные области в пространстве признаков, разделенные областями разреженности;
LOF (Local Outlier Factor): LOF также использует информацию о плотности для обнаружения аномалий. Он вычисляет локальный коэффициент выброса для каждого объекта, основываясь на плотности окрестности данного объекта по сравнению с плотностью окрестности его соседей. Значения LOF выше единицы указывают на аномальные объекты;
Isolation Forest использует случайные деревья для изоляции аномалий. Он строит ансамбль изолирующих деревьев, разделяя объекты по случайным разделениям до тех пор, пока каждый объект не будет изолирован в отдельном листе. Аномалии обычно требуют меньшего числа разделений для изоляции, и поэтому имеют более короткий путь в дереве;
One-Class SVM (Support Vector Machines): One-Class SVM - алгоритм, который строит модель только для "нормальных" данных. Он пытается найти гиперплоскость, которая наилучшим образом разделяет нормальные данные от выбросов в пространстве признаков. Объекты, находящиеся далеко от этой гиперплоскости, считаются аномалиями.