ML и DS оттенки кредитного риск-менеджмента



    Всем привет.

    Мы команда Advanced Analytics GlowByte и запускаем цикл статей о моделировании в задачах управления кредитным риском. Цель цикла — кратко рассказать о сфере, расширить словарь профессиональных терминов и дать ссылки на полезные статьи и книги. В вводной статье мы покажем особенности применения ML и DS в сфере кредитного риска, без глубокого погружения в предметную область.

    Далее раскроем вопросы методологии моделирования, работы с компонентами кредитного риска, а также подходов к калибровке и валидации, которые учитывают специфику работы моделей в банке.

    Основа публикаций — наш проектный опыт по разработке и внедрению аналитических моделей в банковской сфере.

    А теперь под кат.

    Чем рискуем?


    Простым языком, кредитный риск — риск нарушения клиентами условий выплаты денежных средств по кредитным договорам.

    Сфокусируемся на трех задачах, которые возникают в рамках кредитного риск-менеджмента.

    1. Рейтинговое моделирование;
    2. Кредитный офферинг;
    3. Расчет уровня ожидаемых потерь.

    Почему именно на них?

    • Эти задачи всегда актуальны для  финансовых организаций;
    • Их можно перенести в другие индустрии (телеком, промышленность, страхование);
    • В них достаточно пространства для ML и DS методов.

    Общую классификацию рисков финансовых организаций и контекст смотрите в обзоре [1].

    Всем труба (pipeline) или схема кредитного процесса


    Схематично кредитный процесс выглядит так:


    Часть этого процесса от подачи заявления до выдачи именуется кредитным конвейером. В этой схеме есть упрощения. Например, мы рассматриваем процесс в рамках одного кредитного продукта, т.е. остаются за скобками вопросы маркетинга (Marketing Optimization, каннибализации продуктов, оттока клиентов и др). Из pipeline исключены процессы прескоринга, экспертной корректировки рейтинга и применения стоп-факторов андеррайтерами. Под стоп-факторами подразумеваются ограничения, природа которых, в первую очередь, в структуре продукта, который банк предлагает клиенту. Пример — вхождение клиента в список банкротов или наличие просрочки по кредитам в других банках.

    Рейтинговое моделирование 


    Задача рейтингового моделирования (РМ) — это построение модели рейтингования клиентов для последующего ранжирования. Рейтингование производится по отношению к разным негативным событиям — ухудшение кредитоспособности, банкротство и т.д.

    В зависимости от контекста, можно по-разному классифицировать эту задачу:

    По этапу жизненного цикла клиента:

    1. Заявочный (аппликативный) скоринг применяется для новых клиентов или клиентов с небольшой (или давней и неактуальной) историей внутри финансовой компании. В построении такой модели рейтингования важны профиль и анкета клиента, данные о его платежном поведении в других финансовых организациях (есть в Бюро Кредитных Историй) и данные о вхождении в разные списки — например, негативные списки ЦБ для юр.лиц. Заявочный скоринг используется для решения о выдаче кредита заявителю.
    2. Поведенческий скоринг применяется для определения рейтинга клиентов с актуальной историей. Здесь существенную роль играют поведенческие атрибуты внутри компании — обороты и платежная дисциплина по внутренним продуктам банка-кредитора. Поведенческий скоринг используется для вычисления и корректировки размера зарезервированных банком средств, но об этом чуть позже.

    По требованиям к результатам работы модели:

    1. «Относительный» рейтинг: важно качество ранжирования (относительный порядок) клиентов в рейтинге, абсолютное значение не играет роли при принятии итогового решения.
    2. «Абсолютный» рейтинг: имеет значение абсолютное значение скора и алгоритм его пересчета в вероятность дефолта клиента. Часто бывает, что у банка зафиксировано пороговое значение вероятности дефолта, при котором клиенту может быть выдан кредит, и необходимо максимально корректно определить именно абсолютное значение вероятности дефолта по каждому из клиентов.

    По степени включения экспертных представлений в итоговое решение:

    1. «Статистическая» модель. Ее веса подбираются на основании статистического анализа ретроспективных данных. Экспертные корректировки производятся на уровне отбора атрибутов и подготовки выборки для моделирования.
    2. «Экспертная» модель. Финальные значения весов факторов устанавливаются вручную (или полуавтоматически) с учетом кейсов по дефолтам за историю. Классический пример — модель Альтмана Z-score [2].

    По степени автоматизации решения:

    1. Результат рейтингования автоматически без ручных корректировок транслируется в конвейере для бОльшей части клиентов. Часть клиентов подвергается ручной проверке для оперативного мониторинга работы модели.
    2. Результат рейтингования является дополнительным инструментом для владельца модели и андеррайтера.

    По степени использования информации о внешней среде:

    1. Stand-alone — приближение, при котором в факторах модели не учитывается взаимодействие клиента с другими клиентами. Основа — поведенческие атрибуты по финансовым продуктам. Влияние внешней среды учитывается или через процедуру калибровки, или через набор флагов о негативной информации с другими клиентами без детализации.
    2. «Supply chain finance» — использование информации о связях с другими заемщиками. В первую очередь, данные о транзакциях и данные об экономической, юридической, родственной (для ФЛ) аффилированности с другими клиентами. Чем больше такой информации, тем точнее будет прогноз — не только на уровне клиента, но и на уровне сделки [3].

    По степени вовлеченности в общий процесс:

    1. Результат моделирования используется локально: задача, как правило, не интегрируется с другими процессами. При таком применении возможны дополнительные требования к обслуживанию рейтинга — например, введение корректировок (в частности, корректировка рейтинга компании в зависимости от уровня поддержки государством).
    2. Результат является входом для другого процесса, т.е. частью большего приложения. В таких случаях необходимо учитывать специфику этого внешнего процесса, т.к. она может влиять на требования к разработке и валидации рейтинговой модели.

    Особенности решения данной задачи в первом приближении можно посмотреть в [1], [4], [5], [6]. Проектные особенности планируем рассказать в следующей статье цикла, посвященной методологии разработки.

    Из смежных задач стоит упомянуть задачу кредитного офферинга (см. далее) и задачу подбора порога отсечки по скоринговому баллу — определение порога одобрения. Последняя задача не освещается в этой статье, но содержит пространство для cutting-edge ML подходов. Например, есть попытки использования RL [7]

    Еще кратко следует упомянуть актуальные тенденции по увеличению качества разрабатываемых моделей рейтингового моделирования:

    1. Поиск новой информации / источников данных (например, гео-аналитика [8], соц. сети [9], ОФД)
    2. Использование продвинутых алгоритмов для моделирования (все чаще XGBoost заменяет стандартные скоринговые карты на основе логистической регрессии);
    3. Использование продвинутых алгоритмов для поиска взаимосвязей (графовая аналитика) и генерации специфических атрибутов (text-mining);
    4. Операционализация моделей (встраивание моделей в автоматический pipeline разработка-внедрение-мониторинг-переобучение) для снижения модельного риска и автоматизации процесса, т.н. ModelOps решения [10].

    Рейтинговое моделирование все реже встречается как самостоятельная задача и все больше в связке с другими, являясь частью прикладного приложения по решению более общих задач. Одной из таких является кредитный офферинг. К нему и переходим.

    Кредитный офферинг или как сделать предложение от которого нельзя отказаться



    Результат рейтинговой модели (абсолютное значение оценки вероятности дефолта — PD) может быть использован для решения задачи кредитного офферинга. Под кредитным офферингом подразумеваем, в первую очередь, задачу установки первоначального лимита клиенту.

    Безусловно, одного значения PD — прогноза вероятности дефолта — для определения оптимального лимита недостаточно. Нужно понимать допустимую область значений лимита, которые разумно предлагать клиентам. Это необходимо, чтобы сумма хотя бы косвенно отражала потребности клиента и его возможности по обслуживанию долга.

    Ориентиром в этом случае может быть, например, оборот собственных средств клиента по некредитным продуктам. 

    Что еще нужно знать? Для лучшего понимания задачи нужно иметь представление о структуре стоимости кредита. Она схематично представлена на следующей диаграмме (подсмотрено в [11]):


    «Ресурс» — стоимость денег, за счет которых осуществляется кредитование (например, ставка по депозитам, которая привлекает деньги вкладчиков и обеспечивает требуемую денежную массу). «Маржа» — ожидаемая прибыль от выдачи кредита. «Риск» — отчисление на случай невозврата кредита. «Расходы» — расходы на привлечение и обслуживание.

    В этой структуре рейтинговое моделирование может быть использовано для определения размера и структуры блока «Риск». «Ресурс», в значительной степени, определяется ключевой ставкой ЦБ. «Расходы» и «маржа» — продуктовые составляющие, часто указываются в паспорте продукта.

    Другими словами, «Риск» является всего лишь одной из компонент, которая влияет на итоговую доходность по сделке.

    А как быть с другими? Похоже, возникает оптимизационная задача. Попробуем ее формализовать. Стоит подчеркнуть, что вариантов может быть множество, и опираться, в первую очередь, стоит на бизнес-задачу и контекст процесса разработки.

    Начнем с простого варианта и далее покажем потенциальные точки развития решения. Проще всего оптимизировать доходность сделки.

    Пусть происходит выдача кредитного договора на сумму L (лимит). У этого договора есть прогнозная вероятность дефолта PD. В первом приближении считаем, что клиент на момент дефолта имеет задолженность равную L.

    Тогда оптимизационная задача будет выглядеть следующим образом:


    Видим, что PD фиксирован и зависимость от L линейная. Казалось бы, оптимизировать нечего.

    Однако в реальной жизни PD зависит от L по следующим соображениям: чем больше лимит, тем сложнее обслуживать долг и, соответственно, тем выше вероятность дефолта. В этом случае наша задача, действительно, превращается в оптимизационную. Однако и тут есть нюанс. В выборке бывают клиенты с разными доходами, поэтому абсолютных значений будет недостаточно. Лучше всего строить зависимости не от лимита, а от уровня закредитованности, т.е. параметра $\frac{L}{Доход\:клиента (Д_к)}$:


    Зависимость $PD(\frac{L}{Д_к})$ может быть восстановлена на исторических данных или данных пилота. 

    Также на оптимизационную задачу могут влиять продуктовые стопы. Например, в паспорте продукта могут быть указаны допустимые границы уровня риска (вероятности дефолта). Тогда оптимизация производится только до указанной границы.

    Далее усложняем, кому интересно, то под кат:
    В целом, и особенно для других индустрий (телеком, например) оценка дохода и дебиторской задолженности (по-другому, EAD — Exposure at default — величина кредита на дату дефолта) в виде лимита являются слишком консервативными. Кроме того, стоит учесть, что часть средств может быть возвращена (та доля EAD, которая не будет возвращена, обозначается LGD – Loss Given Default). Тогда


    Обычно для выручки и EAD разрабатываются отдельные модели. LGD чаще всего заменяется консервативным значением, которое зависит от отрасли (банки, телеком и т.д.) и типа продукта (может оценивается как средний LGD по продукту). Для ориентира можно посоветовать использовать любимое число в диапазоне 0.9-1.

    До сих пор мы считали, что только PD зависит от $\frac{L}{Д_к}$. Но такой зависимостью могут обладать и другие компоненты:


    Далее, если мы хотим учитывать другие продукты в офферинге (например, для выбора оптимального предложения клиенту), то дополнительно следует учитывать вероятность отклика клиента на продукт и вероятность оттока, если клиент уже обслуживается:


    «Отклик» — вероятность взятия продукта, «Отток» — вероятность оттока клиента. В этом случае можно сравнивать доходности между разными продуктами и решать задачи Marketing Optimization.

    Все что здесь перечислено — лишь канва для решения задачи. Пока мы не учитывали расходы на каждый продукт, стоимость привлечения ресурсов, стоимость кампании, вероятность мошенничества и т.д.

    В общем случае их надо также включать в оптимизатор. Все зависит от контекста и приемлемого уровня приближения для решения бизнес-задачи.

    Что еще погуглить? Ключевые слова risk-based limit, credit-limit management profit-based approach.

    Итак, деньги предложены и выданы клиентам. Но часть из них начинает уходить в просрочку. Как управлять ситуацией? Берем паяльник. Собираем подушку безопасности в виде резерва денег. Как это сделать, расскажем прямо сейчас.

    Резервы и роль DS для их расчета



    Определение величины риска является ключевым в деятельности банка: в зависимости от аппетита к риску банк определяет с какими клиентами готов работать. Но в любом случае для минимизации возможных потерь формируется денежный резерв в виде наличности или ликвидных ценных бумаг. В худшем случае банк теряет весь портфель, однако это маловероятно, поэтому иметь полный резерв не слишком эффективно. Нужен некоторый баланс.

    Для этого надо точно определить объем денег, который следует зарезервировать. Так появляется задача обеспечения достаточности капитала (required capital) под ожидаемые потери. (Expected Loss — EL). Требования достаточности капитала определяются и отслеживаются регулятором (Центральный банк).

    Историческая справка:
    Интуицией для регулятора служит международный опыт, отраженный в разных нормативных документах. Международный опыт спроецирован на отечественную реальность в ряд положений и указаний. Но об этом чуть позже.

    Взглянем на эволюцию подхода, чтобы подчеркнуть как именно возрастала роль DS и ML в контексте данной задачи.

    В 1974 году при банке международных расчетов в Базеле был сформирован Базельский комитет по банковскому надзору, который и по сей день занимается внедрением единых стандартов в сфере банковского регулирования. 

    Первым принятым соглашением было Базельское соглашение о капитале Basel I в 1988 году. В Basel I основное внимание уделялось кредитному риску и было установлено, что размер капитала должен превышать 8% активов банка, взвешенных с учетом риска (Активы, взвешенные с учетом риска – Risk-weighted Assets (RWA)).


    В терминах кредитного риска, the Basel I Capital Accord ввел фиксированные RWA, которые зависят от типа кредита. 
    Тип кредитного продукта Вес,  %
    Кредит наличными  0
    Ипотека 50
    Кредиты ЮЛ  100
    Например, рассмотрим Ипотеку за 100кР (да-да, пример в вакууме):


    Т.е. банку под данный договор необходимо зарезервировать не менее 4кР.

    Подход очень прост и в этом его большое преимущество. Но и недостаток тоже: не применить XGBoost не учитываются, например, поведение клиента и общая экономическая ситуация.

    Для устранения недостатков соглашения Basel I было введено соглашение Basel II. Во-первых, Basel II учел другие типы рисков (операционные и рыночные) для резервирования, а во вторых, что более важно для нас, декомпозировал расчет на компоненты. В этот момент и появляется простор для Xgboost ML и DS.

    Basel III было введено как прямой результат глобального экономического кризиса. Добавились риски и усложнились расчеты. Для рассуждений нам хватит первых двух соглашений. Чуть подробнее для первого ознакомления можно погрузиться в первые страницы [6]. 

    Так как же посчитать? В России, аналогично базельской системе, есть несколько подходов к оценке RWA:

    1. Стандартный подход– наиболее простой. Основа — положение ЦБ 590-П.
    Далее цитата (подслушано в [12]):
    «Концепция оценки кредитного риска, описанная в Положении 590-п, не предполагает непосредственного расчета параметров кредитного риска. Размер формируемого резерва определяется на основании профессионального суждения в соответствии с критериями, заданными регулятором по отдельным ссудам или на основании методики оценки кредитного риска по портфелям однородных ссуд, при этом ссуда (портфель однородных ссуд) относится к одной из пяти категорий качества. Для каждой категории банком России определены диапазоны обесценения в процентах от балансовой стоимости финансового инструмента.»
    Конец цитаты.

    Иными словами, все ссуды экспертно классифицируются на 5 категорий качества, и в зависимости от категории определяется объем резервирования. Кроме того, определяются так называемые индивидуальные признаки обесценения (например, ухудшение финансового положения), на основе которых кредитный договор может быть выведен из ПОС (портфель однородных ссуд) с дальнейшей оценкой резервов на индивидуальной основе.

    2. Подходы на основе Внутренних Рейтингов(ПВР, регламентируется положением ЦБ 483-П) уже подразумевают наличие компонент PD, LGD и EAD.
    На иллюстрации ниже отражены зоны ответственности банка и регулятора при разных подходах:


    Как видно из таблицы выше, в случае использования базового или продвинутого ПВР, задача по оценке отдельных компонент проводится банками самостоятельно, в связи с чем возникает необходимость построения предиктивных моделей на основе исторических данных. А с учетом того, что для отдельных кредитных продуктов зачастую используются различные сегменты клиентов и, соответственно, необходимо строить отдельные модели, появляется простор для работы data scientist’ов.

    При имеющихся рассчитанных значениях указанных компонент можно определить ожидаемые потери (Expected Loss – EL) и неожиданные потери (Unexpected Loss – UL).

    Потери в рублях представляют собой произведение трех компонент:

    1. вероятность дефолта (PD — Probability of Default)
    2. сумма долга плательщика на момент дефолта (EAD — Exposure At Default),
    3. доля от этой суммы, которая так и останется невыплаченной (LGD — Loss Given Default).

    Вообще, эта формула: 


    еще встретится нам неоднократно в цикле статей — это рефрен задачи резервирования в кредитном риске.

    После такого рода декомпозиции EL (ECL), возникает возможность смоделировать (DS и ML, привет!) ) каждую из упомянутых величин PD (модель бинарной классификации), LGD (модель регрессии), EAD (модель регрессии), где, в рамках указанных регулятором требований на разных этапах моделирования (разработка, калибровка и валидация) появляется возможность для использования статистических методов и алгоритмов машинного обучения. 

    Для тех, кто любит посложнее:
    Сумма EL и UL формирует величину стоимости под риском (Value at Risk – VaR) – меру, которую с заданной вероятностью (по базельским соглашениям 99%) не превысят потери в течение определенного периода времени.


    Подробнее об особенностях моделирования компонент PD, LGD, EAD расскажем в следующей статье цикла, а пока рассмотрим еще один способ оценки суммы для формирования резервов.

    3. Методология МСФО9. Кратко. 
    Методология МСФО9 для определения резервов использует:

    • информацию об ухудшении кредитного качества финансового инструмента (стадии обесценения);
    • компоненты (с приставкой «Lifetime-» или «Lt») PD, LGD, EAD, рассчитанные на весь срок работы с клиентом; ECL — Expected Credit Losses;
    • информацию о макроэкономических изменениях (посредством калибровки модели).

    Схематично отличие ПВР и МСФО9 представлено на рисунке ниже:


    В подходе МСФО9 ещё больше простора для DS и ML-экспериментов.

    Что еще почитать?


    • Письмо банка России от 29.12.2012 N 192-Т «О Методических рекомендациях по реализации подхода к расчету кредитного риска на основе внутренних рейтингов банков»
    • Положение банка России от 6 августа 2015 г. № 483-П «О порядке расчета величины кредитного риска на основе внутренних рейтингов»
    • Указание банка России от 15 апреля 2015 г. N 3624-У «О требованиях к системе управления рисками и капиталом кредитной организации и банковской группы»
    • Указание банка России от 6 августа 2015 г. № 3752-У «О порядке получения разрешений на применение банковских методик управления кредитными рисками и моделей количественной оценки кредитных рисков в целях расчета нормативов достаточности капитала банка, а также порядке оценки их качества»
    • В книге [13].

    Положения и указания заботали, книги прочитали, а где тут DS? Как и обещали — DS в деталях компонентах. Но это уже совсем другая история. Подробнее особенности моделирования компонент PD, LGD и EAD разберем в следующей статье цикла, а в завершение вводной статьи приведем таблицу с вариантами приложений статистических методов и алгоритмов машинного обучения к сфере риск-моделирования в разрезе каждой задачи.
    Рейтинговое
    моделирование
    Кредитный офферинг Расчет уровня
    ожидаемых потерь
    Задачи,
    решаемые
    с помощью
    DS/ML
    – Определение
    алгоритма
    рейтингования;
    – Определение порога
    одобрения;
    – Калибровка.
    – Разработка
    оптимизатора;
    – Разработка моделей,
    используемых для
    подбора кредитного
    предложения.
    – Моделирование
    компонент PD, LGD, EAD;
    – Калибровка.

    Выводы


    Основной вывод после написания вводной статьи для нас (abv_gbc, alisaalisa, artysav, eienkotowaru) таков: крайне сложно коротко рассказать даже о трех задачах, возникающих в расчете кредитного риска. Почему?

    Для этих задач разработана детальная методология, что дает хорошую пищу для ML и DS размышлений. Эти размышления развивают подходы для ответа на все более сложные вызовы рынка. Инструменты, основанные на таких подходах, из комплементарных постепенно становятся основными при принятии решения. Все это вместе позволяет переносить лучшие практики и интуиции риск-моделирования в другие индустрии (телеком, страхование, промышленность). Какие именно? Расскажем в следующих статьях цикла.

    Список использованных терминов


    • Дефолт – невыполнение обязательств по договору займа. Обычно дефолтом считается неоплата по договору в течение 90 дней.
    • PD – probability of default – вероятность дефолта.
    • EAD – exposure at default – кредитные обязательства по договору на момент дефолта. По сути, баланс на дату дефолта, где баланс = Тело долга + Просрочка.
    • LGD – loss given default – доля EAD, которую клиент не возвращает на горизонте восстановления.
    • EL – expected loss – ожидаемые потери по договору.
    • EСL – expected credit loss – ожидаемые потери по договору на протяжении всего его времени жизни.
    • Андеррайтер – специалист, осуществляющий оценку риска и принимающий решение о кредитной заявке.
    • Стоп-фактор – ограничения на предоставление банком кредитного продукта.
    • SCF – supply chain finance – финансирование цепочки поставок — система взаимодействия предприятия-поставщика и его контрагентов.
    • RWA – risk-weighted assets – активы, взвешенные с учетом риска; используется для определения достаточности капитала.
    • ПВР (IRB) – подход к оценке кредитных рисков банков для целей оценки достаточности регулятивного капитала, основанный на использовании внутренних рейтингов заемщиков, то есть рейтингов, устанавливаемых самими банками.
    • МСФО9 (IFRS9) – международный стандарт финансовой отчетности, предполагающий, в том числе, оценку ожидаемых кредитных убытков с учетом времени жизни договора и стадий обесценения.
    • VaR – мера, которую с заданной вероятностью не превысят потери в течение определенного периода времени.

    Ссылки


    [1] Leo Martin, Suneel Sharma, and Koilakuntla Maddulety. «Machine learning in banking risk management: A literature review.» Risks 7.1 (2019): 29.
    [2] en.wikipedia.org/wiki/Altman_Z-score
    [3] www.youtube.com/watch?v=rfCamyEURyw&list=PLLQmSdmAWzkKeiOC1b-nxpoACqgfTc0G5&index=7
    [4] Breeden Joseph. «A Survey of Machine Learning in Credit Risk.» (2020).
    [5] Сорокин Александр. «Построение скоринговых карт с использованием модели логистической регрессии.» Интернет-журнал науковедение 2 (21) (2014).
    [6] Baesens Bart, Daniel Roesch, Harald Scheule. Credit risk analytics: Measurement techniques, applications, and examples in SAS. John Wiley & Sons, 2016.
    [7] github.com/MykolaHerasymovych/Optimizing-Acceptance-Threshold-in-Credit-Scoring-using-Reinforcement-Learning
    [8] riskconference.ru/wp-content/uploads/2019/10/%D0%A1%D1%83%D1%80%D0%B6%D0%BA%D0%BE_%D0%92%D0%A2%D0%91.pdf
    [9] Masyutin Alexey. «Credit scoring based on social network data.» Бизнес-информатика 3 (33) (2015).
    [10] habr.com/ru/company/vtb/blog/508012
    [11] vc.ru/finance/83771-kak-formiruetsya-procentnaya-stavka-po-kreditam
    [12] Фаррахов Игорь. «МСФО 9: сформированные резервы в оценке ожидаемых кредитных потерь.» Банковское обозрение. Приложение" BEST PRACTICE 2 (2018).
    [13] Bellini Tiziano. IFRS 9 and CECL Credit Risk Modelling and Validation: A Practical Guide with Examples Worked in R and SAS. Academic Press, 2019.
    GlowByte
    Компания

    Похожие публикации

    Комментарии 0

    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

    Самое читаемое