Как стать автором
Обновить
5
0
Александр Бородин @abv_gbc

Data Science Team Leader in Risk Modeling

Отправить сообщение

Как правильно считать деньги, или Несколько слов в пользу теста Стьюдента

Время на прочтение12 мин
Количество просмотров11K

Хабр, привет! Меня зовут Наталья Тоганова, я работаю бизнес-аналитиком в компании GlowByte Consulting. В этой статье хочу поговорить о деньгах и тестах. А точнее о том, как с помощью тестов определить, где больше денег.

Представим стандартную рабочую ситуацию аналитика. Дано две выборки с N наблюдениями. В каждой — данные о продажах лимонада молодыми хочу-стать-единорогами предпринимателями. В выборке А — предприниматели из Москвы, в выборке Б — из Санкт-Петербурга.

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии2

Машинное обучение в банковском ценообразовании. VBP

Время на прочтение8 мин
Количество просмотров4.4K

Современные банки накапливают и агрегируют данные о пользователях и своем взаимодействии с ними. Это помогает им лучше понимать потребности отдельного клиента и его склонность к открытию того или иного банковского продукта. А с помощью современных технологий коммуникации банк может провзаимодействовать с каждым клиентом точечно, направив ему персональное предложение. Как машинное обучение помогает решать такие задачи, поговорим в данной статье.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии1

Графовый анализ — обзор и области применения

Время на прочтение15 мин
Количество просмотров25K

Всем привет!

Мы - команда GlowByte Advanced Analytics. Сегодня мы расскажем об одном из перспективных направлений Data Science - графовом анализе, и покажем, какие задачи можно решать с его помощью.

Цель статьи - показать многообразие бизнес-областей, в которых можно применять графовые подходы.

Читать далее
Всего голосов 5: ↑4 и ↓1+5
Комментарии5

Как мы запускали подкаст и что из этого вышло

Время на прочтение5 мин
Количество просмотров1.2K

Привет, Хабр! Мы — команда Advanced Analytics компании GlowByte — подводим итоги года и хотим рассказать об одном значимом для нас событии — запуске подкаста «Дайте данных»! 

Мы запускали его практически своими силами. Набили немного шишек. Узнали больше о тайм-менеджменте, редактуре и продвижении. И поняли, что «просто побеседовать» не совсем и просто. Особенно, когда включен микрофон. И если ты, дорогой читатель, подумываешь о запуске своего подкаста или тебе любопытно взглянуть на изнанку подкастерских будней, то наш опыт будет полезен. Итак…

Читать далее
Всего голосов 8: ↑4 и ↓4+2
Комментарии1

Валидация моделей машинного обучения

Время на прочтение14 мин
Количество просмотров29K

Всем привет!

На связи команда Advanced Analytics GlowByte и сегодня мы разберем валидацию моделей. 
Иногда термин «валидация» ассоциируется с вычислением одной точечной статистической метрики (например, ROC AUC) на отложенной выборке данных. Однако такой подход может привести к ряду ошибок.

В статье разберем, о каких ошибках идет речь, подробнее рассмотрим процесс валидации и дадим ответы на вопросы:

  1. на каком этапе жизненного цикла модели проводится валидация? Спойлер: это происходит больше одного раза;
  2. какие метрики обычно применяются при валидации и с какой целью?
  3. почему важно использовать не только количественные, но и качественные метрики?

Примеры в статье будут из финансового сектора. Финансовый сектор отличается от других областей (больше предписаний со стороны регулятора — Центрального банка), но в то же время в секторе большой опыт применения моделирования для решения бизнес-задач и есть широкий спектр опробованных на практике тестов по валидации моделей. Поэтому статья будет интересна как тем, кто работает в ритейле, телекоме, промышленности, так и специалистам любой другой сферы, где применяются модели машинного обучения.
Читать дальше →
Всего голосов 3: ↑2 и ↓1+1
Комментарии1

Automatic Relevance Determination или машинное обучение когда данных очень мало

Время на прочтение4 мин
Количество просмотров14K

Когда речь заходит про машинное обучение, обычно подразумевают большие объемы данных — миллионы или даже миллиарды транзакций, из которых надо сделать сложный вывод о поведении, интересах или текущем cостоянии пользователя, покупателя или какого-нибудь аппарата (робота, автомобиля, дрона или станка).
Однако в жизни обычного аналитика самой обычной компании много данных встречается нечасто. Скорее даже наоборот — у вас будет мало или очень мало данных — буквально десятки или сотни записей. Но анализ все же нужно провести. Причем не какой попало анализ, а качественный и достоверный.


Зачастую ситуация усугубляется еще и тем, что вы без труда можете нагенерить для каждой записи много признаков (чаще всего добавляют полиномы, разницу с предыдущим значением и значением за прошлый год, one-hot-encoding для категориальных признаков и т.п.). Вот только совсем нелегко разобраться, какие из них действительно полезны, а какие только усложняют модель и увеличивают ошибки вашего прозноза.


Для этого вы можете воспользоваться методами байесовой статистики, например, Automatic Relevance Determination.

Всего голосов 28: ↑26 и ↓2+24
Комментарии23

ML и DS оттенки кредитного риск-менеджмента | LGD, или Жизнь после дефолта

Время на прочтение13 мин
Количество просмотров19K


Хабр, привет!

Мы продолжаем цикл статей ([1], [2], [3]), посвященных применению ML-методов в ряде задач управления кредитным риском. В этой мы расскажем про задачу, которая возникает в ходе жизненного цикла кредитного договора: моделирование доли невозврата по договору в случае его дефолта (loss given default, LGD). 

Зачем это нужно делать, ведь дефолт случился и на первый взгляд кажется, что прогнозировать уже ничего не нужно? Действительно, можно считать, что клиент уже ничего не вернет и под такие договоры закладывать 100%-ное резервирование. 

Однако в действительности после дефолта клиенты могут вносить платежи  или, если договор был обеспечен (залог), то в ходе продажи обеспечения вся сумма договора или ее часть могут быть погашены за счет суммы реализации (продажи) залога. 

Также стоит обратить внимание, что для банковской сферы (в других индустриях зависит от продукта и политики резервирования) прогноз должен производиться как по договорам, находящимся в дефолте $(PD = 100\%)$ (default сегмент), так и по тем, по которым нет дефолта на момент расчета резервов $(PD \neq 100\%)$ (non-default сегмент). Разработка прогнозной модели возможна только на договорах в дефолте. В этом случае возникает проблема переноса модели на сегмент недефолтных договоров. 

Об особенности расчета компоненты LGD, ее моделирования, распространении прогноза на весь портфель, а также подходах к валидации расскажем далее. 

Бегите, глупцы. Добро пожаловать под кат!
Читать дальше →
Рейтинг0
Комментарии3

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

Время на прочтение16 мин
Количество просмотров44K
Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Пока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.

Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна. Попробуем разобраться, как выжать из рядов без меток немного смысла. В этой статье рассматриваются подтипы кластеризации временных рядов, общие приёмы и популярные меры расстояния между рядами. Статья рассчитана на читателя, уже имевшего дело с последовательностями в data science: о базовых вещах (тренд, ARMA/ARIMA, спектральный анализ) рассказываться не будет.

Читать дальше →
Всего голосов 18: ↑18 и ↓0+18
Комментарии5

Маркетинговая оптимизация в банке

Время на прочтение5 мин
Количество просмотров4.2K
image
Привет, Хабр.

Маркетинговая оптимизация, установка лимитов по портфелю кредитных продуктов, логистика и товарная аналитика, оптимизация производственных процессов, … — список применения методов математической оптимизации далеко не ограничивается перечисленными задачами, а методы оптимизации начали решать задачи бизнеса задолго до того, как науки о данных стали называться науками о данных.

С развитием адаптации технологий ML/DS можно ожидать рост популярности оптимизационных методов прежде всего за счет того, что решения бизнес задач становятся более комплексными. То есть, вместо того, чтобы сделать одну-две модели, которые выдают почти финальные решения, процесс принятия решения декомпозируется на отдельные составляющие компоненты, в которых есть место прогнозным моделям, а для самого принятия решения с учетом всех этих компонент и ограничений работает уже оптимизационная модель.

В статье поговорим о возможной постановке задачи оптимизации в банковской сфере и методах ее решения.
Читать дальше →
Всего голосов 2: ↑1 и ↓10
Комментарии0

Прогнозирование временных рядов методом рядов Фурье

Время на прочтение10 мин
Количество просмотров25K
image
Привет, Хабр.

Эта статья посвящена методу долгосрочного прогнозирования временных рядов с помощью рядов Фурье [1-2]. Особенность подхода в том, что в отличие от классических методов прогнозирования и машинного обучения прогнозируется не сама неизвестная функция, а ее коэффициенты разложения в ряд Фурье. Далее по спрогнозированным коэффициентам Фурье восстанавливается неизвестная функция и делается прогноз ее значений на следующий период.

Внимание! Статья содержит множество формул.

Читать дальше →
Всего голосов 8: ↑8 и ↓0+8
Комментарии10

Опыт внедрения Shiny в качестве корпоративной отчетности

Время на прочтение13 мин
Количество просмотров5.6K

Всем привет! Меня зовут Сергей, я аналитик в ГК «Везёт». Исторически так сложилось, что в нашей компании было множество систем отчетности: от платных в виде Looker и Qlick – до самописных веб-сервисов. Однажды решив, что так дальше жить нельзя, мы стали выбирать единую систему, на которой будет все, и в итоге остановились на Shiny. В этой статье я расскажу про наш опыт внедрения Shiny в качестве корпоративного BI. Эта статья будет полезна всем, кто только выбирает инструмент для корпоративной отчетности.

Читать дальше →
Всего голосов 10: ↑10 и ↓0+10
Комментарии5

ML и DS оттенки кредитного риск-менеджмента | EAD или деньги в дефолте

Время на прочтение11 мин
Количество просмотров19K


Привет, Хабр!

Новая статья цикла о моделировании в задачах управления кредитным риском (предыдущие статьи смотрите здесь и здесь)  посвящена EAD — компоненте, отражающей размер задолженности заемщика перед банком в момент дефолта.

Как спрогнозировать сумму кредитного требования в момент дефолта, при условии, что момент дефолта неизвестен, и вообще может не настать? Как поступать с экстремальными, особенно большими по абсолютному значению, EAD? А если кредитный продукт, по которому нужно оценить риск — это так называемый револьверный кредит, где нет установленных регулярных платежей,- как, например, кредитка с кредитным лимитом? 

Эти и подобные им вопросы возникают при моделировании компоненты. Их и рассмотрим под катом.
Читать дальше →
Всего голосов 10: ↑10 и ↓0+10
Комментарии3

Как Reinforcement Learning помогает ритейлерам

Время на прочтение14 мин
Количество просмотров6.2K

Введение


Привет! Наша команда Glowbyte Advanced Analytics разрабатывает ML-решения для прикладных индустрий (ритейл, банки, телеком и др). Многие задачи требуют нестандартных решений. Одно из них — оптимизация цепочек коммуникаций с клиентом с помощью Reinforcement Learning (RL), которому мы решили посвятить данную статью.

Мы разбили статью на три блока: введение в задачу оптимизации цепочек коммуникаций; введение в RL; а в третьем блоке мы объединяем 1 и 2 вместе.

image
Читать дальше →
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Оценка рыночного риска (Value at Risk) портфеля облигаций (теория)

Время на прочтение15 мин
Количество просмотров16K

Достаточно много работ написано на тему вычисления такого показателя, как $VaR$ (Value at Risk), в том числе и различные статьи в интернете. Однако, честно признаться, действительно качественных из них оказалось мало. Да и работ, посвященных оценке $VaR$ инструментов, отличных от акций, тоже немного. Те, кто хочет разобраться с тем, что же это такое и какая математическая модель стоит за вычислением $VaR$ портфеля облигаций, прошу под кат.

Читать дальше →
Всего голосов 2: ↑2 и ↓0+2
Комментарии8

Заметки Дата Сатаниста: честность модели

Время на прочтение4 мин
Количество просмотров8.3K
Один из ключевых фундаментальных принципов обработки данных, согласно GDPR, это право человека на объяснение принятого решения и честность этого решения.

И сегодня мы поговорим о том, что же такое честность модели машинного обучения.


Картинка взята отсюда

И разберем на простом примере выдачи кредитов: какие проблемы могут возникнуть, какие подходы к ним бывают и что из этого обычно получается.

Задача: по данным пользователя выдать решения и вероятности того, что не произойдет дефолта кредита. Причем таким образом, чтобы наши модели машинного обучения не попали под раздачу со всеми законами о дискриминации.
Читать дальше →
Всего голосов 25: ↑22 и ↓3+34
Комментарии6

ML и DS оттенки кредитного риск-менеджмента | Компоненты

Время на прочтение18 мин
Количество просмотров29K

Привет!

В предыдущей статье цикла о моделировании в задачах управления кредитным риском (здесь) мы провели обзор трех задач кредитного риск-менеджмента, нашли возможные точки приложения ML и DS к этим задачам и попутно ввели набор терминов для дальнейшей работы.

Сейчас мы расскажем о трех компонентах (PD, LGD, EAD), которые участвуют при расчете ожидаемых потерь: рассмотрим основные драйверы и методологию построения моделей. В конце статьи приведем сводную таблицу с особенностями работы с компонентами на различных этапах разработки, сформированную на основе нашего проектного опыта. 

За подробностями добро пожаловать под кат.
Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии3

ML и DS оттенки кредитного риск-менеджмента

Время на прочтение14 мин
Количество просмотров25K


Всем привет.

Мы команда Advanced Analytics GlowByte и запускаем цикл статей о моделировании в задачах управления кредитным риском. Цель цикла — кратко рассказать о сфере, расширить словарь профессиональных терминов и дать ссылки на полезные статьи и книги. В вводной статье мы покажем особенности применения ML и DS в сфере кредитного риска, без глубокого погружения в предметную область.

Далее раскроем вопросы методологии моделирования, работы с компонентами кредитного риска, а также подходов к калибровке и валидации, которые учитывают специфику работы моделей в банке.

Основа публикаций — наш проектный опыт по разработке и внедрению аналитических моделей в банковской сфере.

А теперь под кат.
Читать дальше →
Всего голосов 5: ↑3 и ↓2+5
Комментарии1

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность