Pull to refresh
5
0
Александр Бородин @abv_gbc

Data Science Team Leader in Risk Modeling

Send message

Как правильно считать деньги, или Несколько слов в пользу теста Стьюдента

Reading time12 min
Views10K

Хабр, привет! Меня зовут Наталья Тоганова, я работаю бизнес-аналитиком в компании GlowByte Consulting. В этой статье хочу поговорить о деньгах и тестах. А точнее о том, как с помощью тестов определить, где больше денег.

Представим стандартную рабочую ситуацию аналитика. Дано две выборки с N наблюдениями. В каждой — данные о продажах лимонада молодыми хочу-стать-единорогами предпринимателями. В выборке А — предприниматели из Москвы, в выборке Б — из Санкт-Петербурга.

Читать далее
Total votes 9: ↑8 and ↓1+7
Comments2

Машинное обучение в банковском ценообразовании. VBP

Reading time8 min
Views4.2K

Современные банки накапливают и агрегируют данные о пользователях и своем взаимодействии с ними. Это помогает им лучше понимать потребности отдельного клиента и его склонность к открытию того или иного банковского продукта. А с помощью современных технологий коммуникации банк может провзаимодействовать с каждым клиентом точечно, направив ему персональное предложение. Как машинное обучение помогает решать такие задачи, поговорим в данной статье.

Читать далее
Total votes 2: ↑2 and ↓0+2
Comments1

Графовый анализ — обзор и области применения

Reading time15 min
Views24K

Всем привет!

Мы - команда GlowByte Advanced Analytics. Сегодня мы расскажем об одном из перспективных направлений Data Science - графовом анализе, и покажем, какие задачи можно решать с его помощью.

Цель статьи - показать многообразие бизнес-областей, в которых можно применять графовые подходы.

Читать далее
Total votes 5: ↑4 and ↓1+5
Comments5

Как мы запускали подкаст и что из этого вышло

Reading time5 min
Views1.2K

Привет, Хабр! Мы — команда Advanced Analytics компании GlowByte — подводим итоги года и хотим рассказать об одном значимом для нас событии — запуске подкаста «Дайте данных»! 

Мы запускали его практически своими силами. Набили немного шишек. Узнали больше о тайм-менеджменте, редактуре и продвижении. И поняли, что «просто побеседовать» не совсем и просто. Особенно, когда включен микрофон. И если ты, дорогой читатель, подумываешь о запуске своего подкаста или тебе любопытно взглянуть на изнанку подкастерских будней, то наш опыт будет полезен. Итак…

Читать далее
Total votes 8: ↑4 and ↓4+2
Comments1

Валидация моделей машинного обучения

Reading time14 min
Views28K

Всем привет!

На связи команда Advanced Analytics GlowByte и сегодня мы разберем валидацию моделей. 
Иногда термин «валидация» ассоциируется с вычислением одной точечной статистической метрики (например, ROC AUC) на отложенной выборке данных. Однако такой подход может привести к ряду ошибок.

В статье разберем, о каких ошибках идет речь, подробнее рассмотрим процесс валидации и дадим ответы на вопросы:

  1. на каком этапе жизненного цикла модели проводится валидация? Спойлер: это происходит больше одного раза;
  2. какие метрики обычно применяются при валидации и с какой целью?
  3. почему важно использовать не только количественные, но и качественные метрики?

Примеры в статье будут из финансового сектора. Финансовый сектор отличается от других областей (больше предписаний со стороны регулятора — Центрального банка), но в то же время в секторе большой опыт применения моделирования для решения бизнес-задач и есть широкий спектр опробованных на практике тестов по валидации моделей. Поэтому статья будет интересна как тем, кто работает в ритейле, телекоме, промышленности, так и специалистам любой другой сферы, где применяются модели машинного обучения.
Читать дальше →
Total votes 3: ↑2 and ↓1+1
Comments1

Automatic Relevance Determination или машинное обучение когда данных очень мало

Reading time4 min
Views13K

Когда речь заходит про машинное обучение, обычно подразумевают большие объемы данных — миллионы или даже миллиарды транзакций, из которых надо сделать сложный вывод о поведении, интересах или текущем cостоянии пользователя, покупателя или какого-нибудь аппарата (робота, автомобиля, дрона или станка).
Однако в жизни обычного аналитика самой обычной компании много данных встречается нечасто. Скорее даже наоборот — у вас будет мало или очень мало данных — буквально десятки или сотни записей. Но анализ все же нужно провести. Причем не какой попало анализ, а качественный и достоверный.


Зачастую ситуация усугубляется еще и тем, что вы без труда можете нагенерить для каждой записи много признаков (чаще всего добавляют полиномы, разницу с предыдущим значением и значением за прошлый год, one-hot-encoding для категориальных признаков и т.п.). Вот только совсем нелегко разобраться, какие из них действительно полезны, а какие только усложняют модель и увеличивают ошибки вашего прозноза.


Для этого вы можете воспользоваться методами байесовой статистики, например, Automatic Relevance Determination.

Total votes 28: ↑26 and ↓2+24
Comments23

ML и DS оттенки кредитного риск-менеджмента | LGD, или Жизнь после дефолта

Reading time13 min
Views18K


Хабр, привет!

Мы продолжаем цикл статей ([1], [2], [3]), посвященных применению ML-методов в ряде задач управления кредитным риском. В этой мы расскажем про задачу, которая возникает в ходе жизненного цикла кредитного договора: моделирование доли невозврата по договору в случае его дефолта (loss given default, LGD). 

Зачем это нужно делать, ведь дефолт случился и на первый взгляд кажется, что прогнозировать уже ничего не нужно? Действительно, можно считать, что клиент уже ничего не вернет и под такие договоры закладывать 100%-ное резервирование. 

Однако в действительности после дефолта клиенты могут вносить платежи  или, если договор был обеспечен (залог), то в ходе продажи обеспечения вся сумма договора или ее часть могут быть погашены за счет суммы реализации (продажи) залога. 

Также стоит обратить внимание, что для банковской сферы (в других индустриях зависит от продукта и политики резервирования) прогноз должен производиться как по договорам, находящимся в дефолте $(PD = 100\%)$ (default сегмент), так и по тем, по которым нет дефолта на момент расчета резервов $(PD \neq 100\%)$ (non-default сегмент). Разработка прогнозной модели возможна только на договорах в дефолте. В этом случае возникает проблема переноса модели на сегмент недефолтных договоров. 

Об особенности расчета компоненты LGD, ее моделирования, распространении прогноза на весь портфель, а также подходах к валидации расскажем далее. 

Бегите, глупцы. Добро пожаловать под кат!
Читать дальше →
Rating0
Comments3

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

Reading time16 min
Views43K
Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Пока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.

Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна. Попробуем разобраться, как выжать из рядов без меток немного смысла. В этой статье рассматриваются подтипы кластеризации временных рядов, общие приёмы и популярные меры расстояния между рядами. Статья рассчитана на читателя, уже имевшего дело с последовательностями в data science: о базовых вещах (тренд, ARMA/ARIMA, спектральный анализ) рассказываться не будет.

Читать дальше →
Total votes 18: ↑18 and ↓0+18
Comments5

Маркетинговая оптимизация в банке

Reading time5 min
Views4K
image
Привет, Хабр.

Маркетинговая оптимизация, установка лимитов по портфелю кредитных продуктов, логистика и товарная аналитика, оптимизация производственных процессов, … — список применения методов математической оптимизации далеко не ограничивается перечисленными задачами, а методы оптимизации начали решать задачи бизнеса задолго до того, как науки о данных стали называться науками о данных.

С развитием адаптации технологий ML/DS можно ожидать рост популярности оптимизационных методов прежде всего за счет того, что решения бизнес задач становятся более комплексными. То есть, вместо того, чтобы сделать одну-две модели, которые выдают почти финальные решения, процесс принятия решения декомпозируется на отдельные составляющие компоненты, в которых есть место прогнозным моделям, а для самого принятия решения с учетом всех этих компонент и ограничений работает уже оптимизационная модель.

В статье поговорим о возможной постановке задачи оптимизации в банковской сфере и методах ее решения.
Читать дальше →
Total votes 2: ↑1 and ↓10
Comments0

Прогнозирование временных рядов методом рядов Фурье

Reading time10 min
Views25K
image
Привет, Хабр.

Эта статья посвящена методу долгосрочного прогнозирования временных рядов с помощью рядов Фурье [1-2]. Особенность подхода в том, что в отличие от классических методов прогнозирования и машинного обучения прогнозируется не сама неизвестная функция, а ее коэффициенты разложения в ряд Фурье. Далее по спрогнозированным коэффициентам Фурье восстанавливается неизвестная функция и делается прогноз ее значений на следующий период.

Внимание! Статья содержит множество формул.

Читать дальше →
Total votes 8: ↑8 and ↓0+8
Comments10

Опыт внедрения Shiny в качестве корпоративной отчетности

Reading time13 min
Views5.4K

Всем привет! Меня зовут Сергей, я аналитик в ГК «Везёт». Исторически так сложилось, что в нашей компании было множество систем отчетности: от платных в виде Looker и Qlick – до самописных веб-сервисов. Однажды решив, что так дальше жить нельзя, мы стали выбирать единую систему, на которой будет все, и в итоге остановились на Shiny. В этой статье я расскажу про наш опыт внедрения Shiny в качестве корпоративного BI. Эта статья будет полезна всем, кто только выбирает инструмент для корпоративной отчетности.

Читать дальше →
Total votes 10: ↑10 and ↓0+10
Comments5

ML и DS оттенки кредитного риск-менеджмента | EAD или деньги в дефолте

Reading time11 min
Views18K


Привет, Хабр!

Новая статья цикла о моделировании в задачах управления кредитным риском (предыдущие статьи смотрите здесь и здесь)  посвящена EAD — компоненте, отражающей размер задолженности заемщика перед банком в момент дефолта.

Как спрогнозировать сумму кредитного требования в момент дефолта, при условии, что момент дефолта неизвестен, и вообще может не настать? Как поступать с экстремальными, особенно большими по абсолютному значению, EAD? А если кредитный продукт, по которому нужно оценить риск — это так называемый револьверный кредит, где нет установленных регулярных платежей,- как, например, кредитка с кредитным лимитом? 

Эти и подобные им вопросы возникают при моделировании компоненты. Их и рассмотрим под катом.
Читать дальше →
Total votes 10: ↑10 and ↓0+10
Comments3

Как Reinforcement Learning помогает ритейлерам

Reading time14 min
Views6K

Введение


Привет! Наша команда Glowbyte Advanced Analytics разрабатывает ML-решения для прикладных индустрий (ритейл, банки, телеком и др). Многие задачи требуют нестандартных решений. Одно из них — оптимизация цепочек коммуникаций с клиентом с помощью Reinforcement Learning (RL), которому мы решили посвятить данную статью.

Мы разбили статью на три блока: введение в задачу оптимизации цепочек коммуникаций; введение в RL; а в третьем блоке мы объединяем 1 и 2 вместе.

image
Читать дальше →
Total votes 2: ↑2 and ↓0+2
Comments0

Оценка рыночного риска (Value at Risk) портфеля облигаций (теория)

Reading time15 min
Views16K

Достаточно много работ написано на тему вычисления такого показателя, как $VaR$ (Value at Risk), в том числе и различные статьи в интернете. Однако, честно признаться, действительно качественных из них оказалось мало. Да и работ, посвященных оценке $VaR$ инструментов, отличных от акций, тоже немного. Те, кто хочет разобраться с тем, что же это такое и какая математическая модель стоит за вычислением $VaR$ портфеля облигаций, прошу под кат.

Читать дальше →
Total votes 2: ↑2 and ↓0+2
Comments8

Заметки Дата Сатаниста: честность модели

Reading time4 min
Views8.2K
Один из ключевых фундаментальных принципов обработки данных, согласно GDPR, это право человека на объяснение принятого решения и честность этого решения.

И сегодня мы поговорим о том, что же такое честность модели машинного обучения.


Картинка взята отсюда

И разберем на простом примере выдачи кредитов: какие проблемы могут возникнуть, какие подходы к ним бывают и что из этого обычно получается.

Задача: по данным пользователя выдать решения и вероятности того, что не произойдет дефолта кредита. Причем таким образом, чтобы наши модели машинного обучения не попали под раздачу со всеми законами о дискриминации.
Читать дальше →
Total votes 25: ↑22 and ↓3+34
Comments6

ML и DS оттенки кредитного риск-менеджмента | Компоненты

Reading time18 min
Views27K

Привет!

В предыдущей статье цикла о моделировании в задачах управления кредитным риском (здесь) мы провели обзор трех задач кредитного риск-менеджмента, нашли возможные точки приложения ML и DS к этим задачам и попутно ввели набор терминов для дальнейшей работы.

Сейчас мы расскажем о трех компонентах (PD, LGD, EAD), которые участвуют при расчете ожидаемых потерь: рассмотрим основные драйверы и методологию построения моделей. В конце статьи приведем сводную таблицу с особенностями работы с компонентами на различных этапах разработки, сформированную на основе нашего проектного опыта. 

За подробностями добро пожаловать под кат.
Читать дальше →
Total votes 4: ↑4 and ↓0+4
Comments3

ML и DS оттенки кредитного риск-менеджмента

Reading time14 min
Views24K


Всем привет.

Мы команда Advanced Analytics GlowByte и запускаем цикл статей о моделировании в задачах управления кредитным риском. Цель цикла — кратко рассказать о сфере, расширить словарь профессиональных терминов и дать ссылки на полезные статьи и книги. В вводной статье мы покажем особенности применения ML и DS в сфере кредитного риска, без глубокого погружения в предметную область.

Далее раскроем вопросы методологии моделирования, работы с компонентами кредитного риска, а также подходов к калибровке и валидации, которые учитывают специфику работы моделей в банке.

Основа публикаций — наш проектный опыт по разработке и внедрению аналитических моделей в банковской сфере.

А теперь под кат.
Читать дальше →
Total votes 5: ↑3 and ↓2+5
Comments1

Information

Rating
Does not participate
Works in
Registered
Activity