Машинное обучение для поиска аномалий / Комментарии / Хабр

@sunnybear 16 июн 2022 в 11:20

97 перцентиль откуда взялся? Это ведь самое тонкое место в аномалиях - определить границу, до которой все ещё нормально

@NewTechAudit 17 июн 2022 в 04:42

Статистический анализ данных на этапе формирования фичей, а также анализ полученных кластеров даст ответ на вопрос в каких интервалах находятся экстремальные значения признаков. Кроме того, общение со специалистом по fraud анализу может прояснить ситуацию

@Ananiev_Genrih 17 июн 2022 в 07:26

Статистический анализ данных на этапе формирования фичей, а также анализ полученных кластеров даст ответ на вопрос в каких интервалах находятся экстремальные значения признаков. Кроме того, общение со специалистом по fraud анализу может прояснить ситуацию

Как-то опасно все это прибито гвоздями. Дрейф данных (data drift) и привет...

Так же вызывает недоумение использование kmeans для поиска аномалий - видимо индусы в своих многочисленных статьях формируют тренды)))

Автор видимо не в курсе - какие ограничения есть у kmeans и насколько сами аномалии аффектят на него в процессе его работы. Это как искать аномалии по 2-м/3-м сигмам в одномерном пространстве забыв как аффектят аномалии на саму среднеарифметическую в процессе расчета. Хотя бы предварительно ознакомились с более робастными алгоритмами, например.

Статью смело можно сжать в несколько строк production-ready кода более уместными алгоритмами (например этим) , вызвав его хоть из R хоть из питона.

@NewTechAudit 17 июн 2022 в 08:54

Kmeans вполне рабочий алгоритм для текущей аналитики, простой и понятный. У DBSCAN свои недостатки, например, computational cost

Машинное обучение для поиска аномалий

Комментарии 4

Публикации