Andriljo спасибо за интересное предложение!
В принципе да, так тоже можно. Но мы решили, что предсказание непрерывной величины (значения нормы на дату) больше подходит для наших данных, чем бинарная классификация. Дело в том, что однозначно разметить аномалии можно только по явным пикам, которых значительно меньше условной «нормы». Т.о. мы получаем высокую несбалансированность обучающей выборки, где классу 1 соответствует на порядок меньше примеров, чем классу 0. Есть риск, что незначительные выбросы при таком обучении xgboost тоже загонит в 0, а они как раз очень ценны с т.з. раннего прогнозирования (как показано во втором примере).
Andriljo спасибо за интересное предложение!
В принципе да, так тоже можно. Но мы решили, что предсказание непрерывной величины (значения нормы на дату) больше подходит для наших данных, чем бинарная классификация. Дело в том, что однозначно разметить аномалии можно только по явным пикам, которых значительно меньше условной «нормы». Т.о. мы получаем высокую несбалансированность обучающей выборки, где классу 1 соответствует на порядок меньше примеров, чем классу 0. Есть риск, что незначительные выбросы при таком обучении xgboost тоже загонит в 0, а они как раз очень ценны с т.з. раннего прогнозирования (как показано во втором примере).
В принципе да, так тоже можно. Но мы решили, что предсказание непрерывной величины (значения нормы на дату) больше подходит для наших данных, чем бинарная классификация. Дело в том, что однозначно разметить аномалии можно только по явным пикам, которых значительно меньше условной «нормы». Т.о. мы получаем высокую несбалансированность обучающей выборки, где классу 1 соответствует на порядок меньше примеров, чем классу 0. Есть риск, что незначительные выбросы при таком обучении xgboost тоже загонит в 0, а они как раз очень ценны с т.з. раннего прогнозирования (как показано во втором примере).
В принципе да, так тоже можно. Но мы решили, что предсказание непрерывной величины (значения нормы на дату) больше подходит для наших данных, чем бинарная классификация. Дело в том, что однозначно разметить аномалии можно только по явным пикам, которых значительно меньше условной «нормы». Т.о. мы получаем высокую несбалансированность обучающей выборки, где классу 1 соответствует на порядок меньше примеров, чем классу 0. Есть риск, что незначительные выбросы при таком обучении xgboost тоже загонит в 0, а они как раз очень ценны с т.з. раннего прогнозирования (как показано во втором примере).
Спецпроекты в Сбербанк-Технологиях: как в банках готовят Hadoop, Spark, Kafka и прочую Big Data