Статьи / Закладки / Профиль abv

Александр Бородин @abv_gbc

Data Science Team Leader in Risk Modeling

Профиль Публикации 3Комментарии 3Закладки 17

NataliaToganova 24 янв 2022 в 15:02

Как правильно считать деньги, или Несколько слов в пользу теста Стьюдента

12 мин

11K

Блог компании GlowByte

Хабр, привет! Меня зовут Наталья Тоганова, я работаю бизнес-аналитиком в компании GlowByte Consulting. В этой статье хочу поговорить о деньгах и тестах. А точнее о том, как с помощью тестов определить, где больше денег.

Представим стандартную рабочую ситуацию аналитика. Дано две выборки с N наблюдениями. В каждой — данные о продажах лимонада молодыми хочу-стать-единорогами предпринимателями. В выборке А — предприниматели из Москвы, в выборке Б — из Санкт-Петербурга.

vagonoff 18 янв 2022 в 12:08

Машинное обучение в банковском ценообразовании. VBP

8 мин

4.4K

Блог компании GlowByteData Mining*Математика*Машинное обучение*

Современные банки накапливают и агрегируют данные о пользователях и своем взаимодействии с ними. Это помогает им лучше понимать потребности отдельного клиента и его склонность к открытию того или иного банковского продукта. А с помощью современных технологий коммуникации банк может провзаимодействовать с каждым клиентом точечно, направив ему персональное предложение. Как машинное обучение помогает решать такие задачи, поговорим в данной статье.

artysav 8 дек 2021 в 18:42

Графовый анализ — обзор и области применения

15 мин

25K

Блог компании GlowByte

Всем привет!

Мы - команда GlowByte Advanced Analytics. Сегодня мы расскажем об одном из перспективных направлений Data Science - графовом анализе, и покажем, какие задачи можно решать с его помощью.

Цель статьи - показать многообразие бизнес-областей, в которых можно применять графовые подходы.

aa_glowbyte 29 дек 2021 в 15:58

Как мы запускали подкаст и что из этого вышло

5 мин

1.2K

Блог компании GlowByteПрограммирование*Звук

Привет, Хабр! Мы — команда Advanced Analytics компании GlowByte — подводим итоги года и хотим рассказать об одном значимом для нас событии — запуске подкаста «Дайте данных»!

Мы запускали его практически своими силами. Набили немного шишек. Узнали больше о тайм-менеджменте, редактуре и продвижении. И поняли, что «просто побеседовать» не совсем и просто. Особенно, когда включен микрофон. И если ты, дорогой читатель, подумываешь о запуске своего подкаста или тебе любопытно взглянуть на изнанку подкастерских будней, то наш опыт будет полезен. Итак…

EienKotowaru 4 авг 2021 в 18:41

Валидация моделей машинного обучения

14 мин

29K

Блог компании GlowByteМашинное обучение*

Всем привет!

На связи команда Advanced Analytics GlowByte и сегодня мы разберем валидацию моделей.
Иногда термин «валидация» ассоциируется с вычислением одной точечной статистической метрики (например, ROC AUC) на отложенной выборке данных. Однако такой подход может привести к ряду ошибок.

В статье разберем, о каких ошибках идет речь, подробнее рассмотрим процесс валидации и дадим ответы на вопросы:

на каком этапе жизненного цикла модели проводится валидация? Спойлер: это происходит больше одного раза;
какие метрики обычно применяются при валидации и с какой целью?
почему важно использовать не только количественные, но и качественные метрики?

Примеры в статье будут из финансового сектора. Финансовый сектор отличается от других областей (больше предписаний со стороны регулятора — Центрального банка), но в то же время в секторе большой опыт применения моделирования для решения бизнес-задач и есть широкий спектр опробованных на практике тестов по валидации моделей. Поэтому статья будет интересна как тем, кто работает в ритейле, телекоме, промышленности, так и специалистам любой другой сферы, где применяются модели машинного обучения.

Читать дальше →

Roman_Kh 26 окт 2016 в 09:59

Automatic Relevance Determination или машинное обучение когда данных очень мало

4 мин

14K

Data Mining*Python*Математика*Машинное обучение*

Когда речь заходит про машинное обучение, обычно подразумевают большие объемы данных — миллионы или даже миллиарды транзакций, из которых надо сделать сложный вывод о поведении, интересах или текущем cостоянии пользователя, покупателя или какого-нибудь аппарата (робота, автомобиля, дрона или станка).
Однако в жизни обычного аналитика самой обычной компании много данных встречается нечасто. Скорее даже наоборот — у вас будет мало или очень мало данных — буквально десятки или сотни записей. Но анализ все же нужно провести. Причем не какой попало анализ, а качественный и достоверный.

Зачастую ситуация усугубляется еще и тем, что вы без труда можете нагенерить для каждой записи много признаков (чаще всего добавляют полиномы, разницу с предыдущим значением и значением за прошлый год, one-hot-encoding для категориальных признаков и т.п.). Вот только совсем нелегко разобраться, какие из них действительно полезны, а какие только усложняют модель и увеличивают ошибки вашего прозноза.

Для этого вы можете воспользоваться методами байесовой статистики, например, Automatic Relevance Determination.

+24

abv_gbc 10 мая 2021 в 10:00

ML и DS оттенки кредитного риск-менеджмента | LGD, или Жизнь после дефолта

13 мин

19K

Блог компании GlowByteМашинное обучение*

Хабр, привет!

Мы продолжаем цикл статей ([1], [2], [3]), посвященных применению ML-методов в ряде задач управления кредитным риском. В этой мы расскажем про задачу, которая возникает в ходе жизненного цикла кредитного договора: моделирование доли невозврата по договору в случае его дефолта (loss given default, LGD).

Зачем это нужно делать, ведь дефолт случился и на первый взгляд кажется, что прогнозировать уже ничего не нужно? Действительно, можно считать, что клиент уже ничего не вернет и под такие договоры закладывать 100%-ное резервирование.

Однако в действительности после дефолта клиенты могут вносить платежи или, если договор был обеспечен (залог), то в ходе продажи обеспечения вся сумма договора или ее часть могут быть погашены за счет суммы реализации (продажи) залога.

Также стоит обратить внимание, что для банковской сферы (в других индустриях зависит от продукта и политики резервирования) прогноз должен производиться как по договорам, находящимся в дефолте

$(PD = 100\%)$ (default сегмент), так и по тем, по которым нет дефолта на момент расчета резервов

$(PD \neq 100\%)$ (non-default сегмент). Разработка прогнозной модели возможна только на договорах в дефолте. В этом случае возникает проблема переноса модели на сегмент недефолтных договоров.

Об особенности расчета компоненты LGD, ее моделирования, распространении прогноза на весь портфель, а также подходах к валидации расскажем далее.

~~Бегите, глупцы.~~ Добро пожаловать под кат!

Читать дальше →

Siarshai 27 июл 2017 в 09:55

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

16 мин

44K

Data Mining*Математика*Машинное обучение*

Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Пока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.

Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна. Попробуем разобраться, как выжать из рядов без меток немного смысла. В этой статье рассматриваются подтипы кластеризации временных рядов, общие приёмы и популярные меры расстояния между рядами. Статья рассчитана на читателя, уже имевшего дело с последовательностями в data science: о базовых вещах (тренд, ARMA/ARIMA, спектральный анализ) рассказываться не будет.

Читать дальше →

+18

vagonoff 14 апр 2021 в 10:23

Маркетинговая оптимизация в банке

5 мин

4.2K

Блог компании GlowByteМатематика*Машинное обучение*

Привет, Хабр.

Маркетинговая оптимизация, установка лимитов по портфелю кредитных продуктов, логистика и товарная аналитика, оптимизация производственных процессов, … — список применения методов математической оптимизации далеко не ограничивается перечисленными задачами, а методы оптимизации начали решать задачи бизнеса задолго до того, как науки о данных стали называться науками о данных.

С развитием адаптации технологий ML/DS можно ожидать рост популярности оптимизационных методов прежде всего за счет того, что решения бизнес задач становятся более комплексными. То есть, вместо того, чтобы сделать одну-две модели, которые выдают почти финальные решения, процесс принятия решения декомпозируется на отдельные составляющие компоненты, в которых есть место прогнозным моделям, а для самого принятия решения с учетом всех этих компонент и ограничений работает уже оптимизационная модель.

В статье поговорим о возможной постановке задачи оптимизации в банковской сфере и методах ее решения.

Читать дальше →

vagonoff 15 мар 2021 в 14:39

Прогнозирование временных рядов методом рядов Фурье

10 мин

25K

Блог компании GlowByteМатематика*Машинное обучение*Физика

Привет, Хабр.

Эта статья посвящена методу долгосрочного прогнозирования временных рядов с помощью рядов Фурье [1-2]. Особенность подхода в том, что в отличие от классических методов прогнозирования и машинного обучения прогнозируется не сама неизвестная функция, а ее коэффициенты разложения в ряд Фурье. Далее по спрогнозированным коэффициентам Фурье восстанавливается неизвестная функция и делается прогноз ее значений на следующий период.

Внимание! Статья содержит множество формул.

Читать дальше →

Ranlod 3 дек 2020 в 15:11

Опыт внедрения Shiny в качестве корпоративной отчетности

13 мин

5.6K

Анализ и проектирование систем*R*

Всем привет! Меня зовут Сергей, я аналитик в ГК «Везёт». Исторически так сложилось, что в нашей компании было множество систем отчетности: от платных в виде Looker и Qlick – до самописных веб-сервисов. Однажды решив, что так дальше жить нельзя, мы стали выбирать единую систему, на которой будет все, и в итоге остановились на Shiny. В этой статье я расскажу про наш опыт внедрения Shiny в качестве корпоративного BI. Эта статья будет полезна всем, кто только выбирает инструмент для корпоративной отчетности.

Читать дальше →

+10

alisaalisa 19 янв 2021 в 10:00

ML и DS оттенки кредитного риск-менеджмента | EAD или деньги в дефолте

11 мин

19K

Блог компании GlowByteМашинное обучение*

Привет, Хабр!

Новая статья цикла о моделировании в задачах управления кредитным риском (предыдущие статьи смотрите здесь и здесь) посвящена EAD — компоненте, отражающей размер задолженности заемщика перед банком в момент дефолта.

Как спрогнозировать сумму кредитного требования в момент дефолта, при условии, что момент дефолта неизвестен, и вообще может не настать? Как поступать с экстремальными, особенно большими по абсолютному значению, EAD? А если кредитный продукт, по которому нужно оценить риск — это так называемый револьверный кредит, где нет установленных регулярных платежей,- как, например, кредитка с кредитным лимитом?

Эти и подобные им вопросы возникают при моделировании компоненты. Их и рассмотрим под катом.

Читать дальше →

+10

Emiliia_GBC 10 авг 2020 в 12:33

Как Reinforcement Learning помогает ритейлерам

14 мин

6.2K

Блог компании GlowByteBig Data*

Введение

Привет! Наша команда Glowbyte Advanced Analytics разрабатывает ML-решения для прикладных индустрий (ритейл, банки, телеком и др). Многие задачи требуют нестандартных решений. Одно из них — оптимизация цепочек коммуникаций с клиентом с помощью Reinforcement Learning (RL), которому мы решили посвятить данную статью.

Мы разбили статью на три блока: введение в задачу оптимизации цепочек коммуникаций; введение в RL; а в третьем блоке мы объединяем 1 и 2 вместе.

Читать дальше →

4uvak 9 июн 2020 в 13:58

Оценка рыночного риска (Value at Risk) портфеля облигаций (теория)

15 мин

16K

Математика*Финансы в IT

Из песочницы

Достаточно много работ написано на тему вычисления такого показателя, как $inline$ (Value at Risk), в том числе и различные статьи в интернете. Однако, честно признаться, действительно качественных из них оказалось мало. Да и работ, посвященных оценке $inline$ инструментов, отличных от акций, тоже немного. Те, кто хочет разобраться с тем, что же это такое и какая математическая модель стоит за вычислением $inline$ портфеля облигаций, прошу под кат.

Читать дальше →

paramonov_ruvds 20 окт 2020 в 12:12

Заметки Дата Сатаниста: честность модели

4 мин

8.3K

Блог компании RUVDS.comМашинное обучение*Математика*Искусственный интеллектData Mining*

Один из ключевых фундаментальных принципов обработки данных, согласно GDPR, это право человека на объяснение принятого решения и честность этого решения.

И сегодня мы поговорим о том, что же такое честность модели машинного обучения.

^{Картинка взята отсюда}

И разберем на простом примере выдачи кредитов: какие проблемы могут возникнуть, какие подходы к ним бывают и что из этого обычно получается.

Задача: по данным пользователя выдать решения и вероятности того, что не произойдет дефолта кредита. Причем таким образом, чтобы наши модели машинного обучения не попали под раздачу со всеми законами о дискриминации.

Читать дальше →

+34

abv_gbc 20 окт 2020 в 13:06

ML и DS оттенки кредитного риск-менеджмента | Компоненты

18 мин

29K

Блог компании GlowByteМашинное обучение*

Привет!

В предыдущей статье цикла о моделировании в задачах управления кредитным риском (здесь) мы провели обзор трех задач кредитного риск-менеджмента, нашли возможные точки приложения ML и DS к этим задачам и попутно ввели набор терминов для дальнейшей работы.

Сейчас мы расскажем о трех компонентах (PD, LGD, EAD), которые участвуют при расчете ожидаемых потерь: рассмотрим основные драйверы и методологию построения моделей. В конце статьи приведем сводную таблицу с особенностями работы с компонентами на различных этапах разработки, сформированную на основе нашего проектного опыта.

За подробностями добро пожаловать под кат.

Читать дальше →

abv_gbc 23 сен 2020 в 08:53

ML и DS оттенки кредитного риск-менеджмента

14 мин

25K

Блог компании GlowByteМашинное обучение*

Всем привет.

Мы команда Advanced Analytics GlowByte и запускаем цикл статей о моделировании в задачах управления кредитным риском. Цель цикла — кратко рассказать о сфере, расширить словарь профессиональных терминов и дать ссылки на полезные статьи и книги. В вводной статье мы покажем особенности применения ML и DS в сфере кредитного риска, без глубокого погружения в предметную область.

Далее раскроем вопросы методологии моделирования, работы с компонентами кредитного риска, а также подходов к калибровке и валидации, которые учитывают специфику работы моделей в банке.

Основа публикаций — наш проектный опыт по разработке и внедрению аналитических моделей в банковской сфере.

А теперь под кат.

Читать дальше →