Pull to refresh

Comments 8

Я снес сберонлайн после того как оно запросило достут к фото.
до этого сбер выкачал себе телефонные книги пользователей, а учитывая их клиентскую базу это огромнейший граф который непонятно как и кто будет использовать.
Напишите нам, куда вас послали с предложением по использованию ваших наработок из службы сопровождения компании!?
Послали туда же куда и всегда — прорабатывать промышленное решение
Andriljo спасибо за интересное предложение!
В принципе да, так тоже можно. Но мы решили, что предсказание непрерывной величины (значения нормы на дату) больше подходит для наших данных, чем бинарная классификация. Дело в том, что однозначно разметить аномалии можно только по явным пикам, которых значительно меньше условной «нормы». Т.о. мы получаем высокую несбалансированность обучающей выборки, где классу 1 соответствует на порядок меньше примеров, чем классу 0. Есть риск, что незначительные выбросы при таком обучении xgboost тоже загонит в 0, а они как раз очень ценны с т.з. раннего прогнозирования (как показано во втором примере).
А не пробовали предсказывать аномалии, как дисперсия в прогнозируемом окне. Например при прогнозе на 7 суток, берем окно в 7 дней вперед и считаем в нем дисперсию -> ставим как целевой признак. Если комментарии «нормальны» по числу, то дисперсия будет мала, если аномальный уровень появится, будет пик. Пики можно нумеровать как 1-есть аномалия, все что ниже порога (обычно около 0) — ставим 0-нет аномалии. Далее классификатор из xgboost и уаля детектор без АРИМА и т.п.
Andriljo спасибо за интересное предложение!
В принципе да, так тоже можно. Но мы решили, что предсказание непрерывной величины (значения нормы на дату) больше подходит для наших данных, чем бинарная классификация. Дело в том, что однозначно разметить аномалии можно только по явным пикам, которых значительно меньше условной «нормы». Т.о. мы получаем высокую несбалансированность обучающей выборки, где классу 1 соответствует на порядок меньше примеров, чем классу 0. Есть риск, что незначительные выбросы при таком обучении xgboost тоже загонит в 0, а они как раз очень ценны с т.з. раннего прогнозирования (как показано во втором примере).
  • Взять данные за 1-ю неделю,
  • Сделать прогноз на 2-ю неделю,
  • Сравнить прогноз с данными за 2-ю неделю.

Расхождения прогноза с реальностью свидетельствуют о возникновении событий, заслуживающих внимания.


Я правильно понял методику?

Sign up to leave a comment.

Information

Website
www.sber.ru
Registered
Founded
Employees
over 10,000 employees
Location
Россия