Comments 8
Я снес сберонлайн после того как оно запросило достут к фото.
до этого сбер выкачал себе телефонные книги пользователей, а учитывая их клиентскую базу это огромнейший граф который непонятно как и кто будет использовать.
до этого сбер выкачал себе телефонные книги пользователей, а учитывая их клиентскую базу это огромнейший граф который непонятно как и кто будет использовать.
Ну почему же, как раз понятно :)
Спецпроекты в Сбербанк-Технологиях: как в банках готовят Hadoop, Spark, Kafka и прочую Big Data
Спецпроекты в Сбербанк-Технологиях: как в банках готовят Hadoop, Spark, Kafka и прочую Big Data
Напишите нам, куда вас послали с предложением по использованию ваших наработок из службы сопровождения компании!?
Andriljo спасибо за интересное предложение!
В принципе да, так тоже можно. Но мы решили, что предсказание непрерывной величины (значения нормы на дату) больше подходит для наших данных, чем бинарная классификация. Дело в том, что однозначно разметить аномалии можно только по явным пикам, которых значительно меньше условной «нормы». Т.о. мы получаем высокую несбалансированность обучающей выборки, где классу 1 соответствует на порядок меньше примеров, чем классу 0. Есть риск, что незначительные выбросы при таком обучении xgboost тоже загонит в 0, а они как раз очень ценны с т.з. раннего прогнозирования (как показано во втором примере).
В принципе да, так тоже можно. Но мы решили, что предсказание непрерывной величины (значения нормы на дату) больше подходит для наших данных, чем бинарная классификация. Дело в том, что однозначно разметить аномалии можно только по явным пикам, которых значительно меньше условной «нормы». Т.о. мы получаем высокую несбалансированность обучающей выборки, где классу 1 соответствует на порядок меньше примеров, чем классу 0. Есть риск, что незначительные выбросы при таком обучении xgboost тоже загонит в 0, а они как раз очень ценны с т.з. раннего прогнозирования (как показано во втором примере).
А не пробовали предсказывать аномалии, как дисперсия в прогнозируемом окне. Например при прогнозе на 7 суток, берем окно в 7 дней вперед и считаем в нем дисперсию -> ставим как целевой признак. Если комментарии «нормальны» по числу, то дисперсия будет мала, если аномальный уровень появится, будет пик. Пики можно нумеровать как 1-есть аномалия, все что ниже порога (обычно около 0) — ставим 0-нет аномалии. Далее классификатор из xgboost и уаля детектор без АРИМА и т.п.
Andriljo спасибо за интересное предложение!
В принципе да, так тоже можно. Но мы решили, что предсказание непрерывной величины (значения нормы на дату) больше подходит для наших данных, чем бинарная классификация. Дело в том, что однозначно разметить аномалии можно только по явным пикам, которых значительно меньше условной «нормы». Т.о. мы получаем высокую несбалансированность обучающей выборки, где классу 1 соответствует на порядок меньше примеров, чем классу 0. Есть риск, что незначительные выбросы при таком обучении xgboost тоже загонит в 0, а они как раз очень ценны с т.з. раннего прогнозирования (как показано во втором примере).
В принципе да, так тоже можно. Но мы решили, что предсказание непрерывной величины (значения нормы на дату) больше подходит для наших данных, чем бинарная классификация. Дело в том, что однозначно разметить аномалии можно только по явным пикам, которых значительно меньше условной «нормы». Т.о. мы получаем высокую несбалансированность обучающей выборки, где классу 1 соответствует на порядок меньше примеров, чем классу 0. Есть риск, что незначительные выбросы при таком обучении xgboost тоже загонит в 0, а они как раз очень ценны с т.з. раннего прогнозирования (как показано во втором примере).
- Взять данные за 1-ю неделю,
- Сделать прогноз на 2-ю неделю,
- Сравнить прогноз с данными за 2-ю неделю.
Расхождения прогноза с реальностью свидетельствуют о возникновении событий, заслуживающих внимания.
Я правильно понял методику?
Sign up to leave a comment.
Как мы анализировали отзывы о мобильном приложении с помощью машинного обучения