Как стать автором
Обновить
3
0

Пользователь

Отправить сообщение
Andriljo спасибо за интересное предложение!
В принципе да, так тоже можно. Но мы решили, что предсказание непрерывной величины (значения нормы на дату) больше подходит для наших данных, чем бинарная классификация. Дело в том, что однозначно разметить аномалии можно только по явным пикам, которых значительно меньше условной «нормы». Т.о. мы получаем высокую несбалансированность обучающей выборки, где классу 1 соответствует на порядок меньше примеров, чем классу 0. Есть риск, что незначительные выбросы при таком обучении xgboost тоже загонит в 0, а они как раз очень ценны с т.з. раннего прогнозирования (как показано во втором примере).
Andriljo спасибо за интересное предложение!
В принципе да, так тоже можно. Но мы решили, что предсказание непрерывной величины (значения нормы на дату) больше подходит для наших данных, чем бинарная классификация. Дело в том, что однозначно разметить аномалии можно только по явным пикам, которых значительно меньше условной «нормы». Т.о. мы получаем высокую несбалансированность обучающей выборки, где классу 1 соответствует на порядок меньше примеров, чем классу 0. Есть риск, что незначительные выбросы при таком обучении xgboost тоже загонит в 0, а они как раз очень ценны с т.з. раннего прогнозирования (как показано во втором примере).
Послали туда же куда и всегда — прорабатывать промышленное решение

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность