Статьи / Профиль matsera

matsera_ms 3 окт 2025 в 10:07

Data Drift в ML Страхового Дома ВСК: от PSI-анализа до пересборки фичей и сравнения моделей

6 мин

4.1K

Блог компании Страховой Дом ВСКPython * Open source * Big Data * Машинное обучение *

Туториал

Представьте: ваша модель машинного обучения, блестяще прошедшая все A/B-тесты, через полгода начинает тихо, но уверенно деградировать. Предсказания становятся менее точными, бизнес-метрики ползут вниз, а вы не понимаете, почему. Знакомо? Скорее всего, вы столкнулись с Data Drift — смещением данных.

Data Drift — это изменение распределения входных данных модели с течением времени. Мир не статичен: меняются привычки клиентов, экономическая ситуация, законодательство. Модель, обученная на «старых» данных, оказывается не готова к «новым». В страховой сфере, где риски и деньги напрямую связаны, это особенно критично. Ошибка в оценке убыточности полиса может стоить компании миллионов.

В этой статье я на реальном примере разберу, как:

Читать и обсуждать