![](https://habrastorage.org/r/w1560/getpro/habr/upload_files/f16/1af/51a/f161af51ad3f0667362e267863364b2f.png)
Кредитные организации естественным образом располагают большими портфелями клиентских кредитов. Большими - в том смысле, что к ним начинают быть применимы законы больших чисел, предельные теоремы, а значит, и аппарат статистики, что делает естественным применение машинного обучения.
Задача разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже давно: так многие десятки лет структурируются и синдицируются студенческие займы, долги по кредитным картам, ипотечные обязательства для продажи инвесторам в виде ABS (Asset Backed Sequrities, или "ценные бумаги, обеспеченные активами"). Ярким примером такой однородной группы ABS являются печально известные subprime MBS (Mortgage Backed Sequrities, или "ценные бумаги, обеспеченные ипотечными обязательствами") – категория самых ненадёжных ипотечных займов, из-за которых разгорелся кризис 2007-2008 годов. MBS сектора кроме subprime: jumbo, prime и alt-A. Для определения к какому сектору относится конкретный ипотечный кредит, используется как правило всего пара признаков (сумма кредита, кредитный рейтинг должника). В этой статье мы рассматриваем задачу разбиения кредитного портфеля с использованием гораздо большего количества признаков: всей информации, которой обладает кредитор.