Pull to refresh
6
0
Иван Серов @Distem

Data Scientist at ID Finance

Send message
Очень зависит от страны, порядка 15 тысяч в день. Но туда отправляется батчами каждые 30 минут, поэтому проблем не возникает
ML модели используются как раз в большинстве случаев. Для них используется Docker, в котором находится скрипт на питоне.
А в случае описанном в статье нормализация и замена пропусков как раз решается WOE биннингом.
1. В среднем ML модели выигрывают около 10-15 gini, однако они используют 100+ переменных вместо 10 в регрессии и чуть менее стабильны при изменении, например, потока клиентов.
2. В excel выгружаются бины и коэффициенты регрессии. В нашем случае (это не всегда так и зависит от компании) дальше создается DSL-скрипт — при попадание клиента в такой-то бин ему присвается такое-то WOE. После чего скрипт используется в Java.
В этой статье мы рассказываем только про логистическую регрессию и все процессы классического кредитного скоринга — то есть без применения машинного обучения. WoE
Биннинг не лучше кодирования для ML моделей, однако именно он даёт регрессии такую стабильность и интерпретируемость, за которые её любят в банках.
Качество оцениваем с помощью коэффициента Gini на тестовой выборке. И как раз благодаря методикам, описанным в статье он возрастает.
Второй вопрос не совсем понял.
Привет! Elastic Net пробовали использовать, она не встроена в обычную регрессию, но доступна в sklearn.linear_model.ElasticNet. В последней версии мы прогоняем разные версии регрессии, и выбирается наилучшая из них. Но у версии в sklearn есть минус — она не выдает вероятности (нет метода predict_proba)

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity