Elena24Kov 23 мая 2023 в 16:35

Структурирование кредитного портфеля методами машинного обучения

Средний

7 мин

2.9K

Big Data*Математика*Машинное обучение*

Кейс

Cезон big data

Recovery Mode

Комментарии 9

ChePeter 24 мая 2023 в 04:57

Кредитные организации естественным образом располагают большими портфелями клиентских кредитов. Большими - в том смысле, что к ним начинают быть применимы законы больших чисел, предельные теоремы, а значит, и аппарат статистики, что делает естественным применение машинного обучения.

Это ложный посыл. Люди это субъекты и представлять их в виде независимых случайных величин весьма сомнительно.

Очередной пример к статье "как не нужно делать data science "

https://habr.com/ru/articles/592389/

Ka_Wabanga 24 мая 2023 в 05:25

ДатаСаенс, который мы заслужили.

Стань саентологом за 3 дня, Чатгпт напишет код за меня, будешь сидеть на работе без дела полгода, а получать денег много.

RKrop 24 мая 2023 в 06:06

Думаю, смысл в том, что в микрокредитовании применять индивидуальный подход к каждому заёмщику слишком нерационально, ведь тогда затраты на обслуживание кредитного портфеля превысят доходы от него. Чтобы этот бизнес стал прибыльным, хочешь не хочешь, а нужно группировать заёмщиков в однородные портфели.

ChePeter 25 мая 2023 в 08:21

Если взять слиток металла, то там атомов тоже очень много.

Но только вот там применяют другую математику.

Elena24Kov 29 мая 2023 в 07:34

полностью разделяю точку зрения о том, что люди - это сложные субъекты и моделирование поведения каждого отдельного индивидуума не может сводиться к независимым случайным величинам. Это нехорошо не только с точки зрения математики, но и с позиций этики. Но в статье моделируется ПРИБЫЛЬ кредитного (под-)ПОРТФЕЛЯ, состоящего из множества займов, и кстати упоминается, и обосновывается почему моделирование прибыли от одного отдельного займа - дело совершенно безнадёжное

ChePeter 29 мая 2023 в 07:46

люди - это сложные субъекты и моделирование поведения каждого отдельного индивидуума не может сводиться к независимым случайным величинам

И это ложный посыл. Для теорвера и центральной предельной теоремы сложность людей не имеет никакого значения. Там, если прочтете, значение имеет независимость случайных величин. И есть доказательства ЦПТ для "почти" независимых случайных величин.

Значение имеет то, что толпа людей берущих кредиты, скорее всего, не действует независимо.

Ну или Вам нужно доказать, что та степень зависимости, что есть в этой толпе не влияет на доказательство ЦПТ. Вот как то так. Ведь другой предсказательной силы, кроме ЦПТ, в теорвере то и нет

Anyothernick 29 мая 2023 в 05:25

а если переобучиться и зафитить каждый из метапортфелей константой- коэффициент детерминации вообще станет равным 1. Но модель от этого не станет хорошей.

Elena24Kov 29 мая 2023 в 07:43

либо я плохо изложила мысль, либо вы не поняли смысла написанного: если всё зафитить константой, то как получить разные оценки возврата по кредиту, чтобы выделить "перспективную" группу заёмщиков и отделить её от "безнадёжной"? (А ведь используя вышеописанную методику у нас отделить зёрна от плевел получилось!!!) Константа нам для этого категорически не подходит!

Anyothernick 29 мая 2023 в 14:34

Перечитайте мой пост и попытайтесь понять что я имею в виду под метапортфелем.

В целом, рассматривать во вроде как серьезной задаче ванильный коэффициент детерминации да еще и на той же выборке на которой фитились -.... мягко говоря сомнительное решение.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий