Articles / Bookmarks / Profile of abv

Александр Бородин @abv_gbc

Data Science Team Leader in Risk Modeling

Profile Publications 3Comments 3Bookmarks 17

NataliaToganova Jan 24 2022 at 15:02

Как правильно считать деньги, или Несколько слов в пользу теста Стьюдента

12 min

10K

GlowByte corporate blog

Хабр, привет! Меня зовут Наталья Тоганова, я работаю бизнес-аналитиком в компании GlowByte Consulting. В этой статье хочу поговорить о деньгах и тестах. А точнее о том, как с помощью тестов определить, где больше денег.

Представим стандартную рабочую ситуацию аналитика. Дано две выборки с N наблюдениями. В каждой — данные о продажах лимонада молодыми хочу-стать-единорогами предпринимателями. В выборке А — предприниматели из Москвы, в выборке Б — из Санкт-Петербурга.

vagonoff Jan 18 2022 at 12:08

Машинное обучение в банковском ценообразовании. VBP

8 min

4.2K

Data Mining*Mathematics*Machine learning*GlowByte corporate blog

Современные банки накапливают и агрегируют данные о пользователях и своем взаимодействии с ними. Это помогает им лучше понимать потребности отдельного клиента и его склонность к открытию того или иного банковского продукта. А с помощью современных технологий коммуникации банк может провзаимодействовать с каждым клиентом точечно, направив ему персональное предложение. Как машинное обучение помогает решать такие задачи, поговорим в данной статье.

artysav Dec 8 2021 at 18:42

Графовый анализ — обзор и области применения

15 min

24K

GlowByte corporate blog

Всем привет!

Мы - команда GlowByte Advanced Analytics. Сегодня мы расскажем об одном из перспективных направлений Data Science - графовом анализе, и покажем, какие задачи можно решать с его помощью.

Цель статьи - показать многообразие бизнес-областей, в которых можно применять графовые подходы.

aa_glowbyte Dec 29 2021 at 15:58

Как мы запускали подкаст и что из этого вышло

5 min

1.2K

Programming*SoundGlowByte corporate blog

Привет, Хабр! Мы — команда Advanced Analytics компании GlowByte — подводим итоги года и хотим рассказать об одном значимом для нас событии — запуске подкаста «Дайте данных»!

Мы запускали его практически своими силами. Набили немного шишек. Узнали больше о тайм-менеджменте, редактуре и продвижении. И поняли, что «просто побеседовать» не совсем и просто. Особенно, когда включен микрофон. И если ты, дорогой читатель, подумываешь о запуске своего подкаста или тебе любопытно взглянуть на изнанку подкастерских будней, то наш опыт будет полезен. Итак…

EienKotowaru Aug 4 2021 at 18:41

Валидация моделей машинного обучения

14 min

28K

Machine learning*GlowByte corporate blog

Всем привет!

На связи команда Advanced Analytics GlowByte и сегодня мы разберем валидацию моделей.
Иногда термин «валидация» ассоциируется с вычислением одной точечной статистической метрики (например, ROC AUC) на отложенной выборке данных. Однако такой подход может привести к ряду ошибок.

В статье разберем, о каких ошибках идет речь, подробнее рассмотрим процесс валидации и дадим ответы на вопросы:

на каком этапе жизненного цикла модели проводится валидация? Спойлер: это происходит больше одного раза;
какие метрики обычно применяются при валидации и с какой целью?
почему важно использовать не только количественные, но и качественные метрики?

Примеры в статье будут из финансового сектора. Финансовый сектор отличается от других областей (больше предписаний со стороны регулятора — Центрального банка), но в то же время в секторе большой опыт применения моделирования для решения бизнес-задач и есть широкий спектр опробованных на практике тестов по валидации моделей. Поэтому статья будет интересна как тем, кто работает в ритейле, телекоме, промышленности, так и специалистам любой другой сферы, где применяются модели машинного обучения.

Читать дальше →

Roman_Kh Oct 26 2016 at 09:59

Automatic Relevance Determination или машинное обучение когда данных очень мало

4 min

13K

Python*Data Mining*Mathematics*Machine learning*

Когда речь заходит про машинное обучение, обычно подразумевают большие объемы данных — миллионы или даже миллиарды транзакций, из которых надо сделать сложный вывод о поведении, интересах или текущем cостоянии пользователя, покупателя или какого-нибудь аппарата (робота, автомобиля, дрона или станка).
Однако в жизни обычного аналитика самой обычной компании много данных встречается нечасто. Скорее даже наоборот — у вас будет мало или очень мало данных — буквально десятки или сотни записей. Но анализ все же нужно провести. Причем не какой попало анализ, а качественный и достоверный.

Зачастую ситуация усугубляется еще и тем, что вы без труда можете нагенерить для каждой записи много признаков (чаще всего добавляют полиномы, разницу с предыдущим значением и значением за прошлый год, one-hot-encoding для категориальных признаков и т.п.). Вот только совсем нелегко разобраться, какие из них действительно полезны, а какие только усложняют модель и увеличивают ошибки вашего прозноза.

Для этого вы можете воспользоваться методами байесовой статистики, например, Automatic Relevance Determination.

+24

abv_gbc May 10 2021 at 10:00

ML и DS оттенки кредитного риск-менеджмента | LGD, или Жизнь после дефолта

13 min

18K

Machine learning*GlowByte corporate blog

Хабр, привет!

Мы продолжаем цикл статей ([1], [2], [3]), посвященных применению ML-методов в ряде задач управления кредитным риском. В этой мы расскажем про задачу, которая возникает в ходе жизненного цикла кредитного договора: моделирование доли невозврата по договору в случае его дефолта (loss given default, LGD).

Зачем это нужно делать, ведь дефолт случился и на первый взгляд кажется, что прогнозировать уже ничего не нужно? Действительно, можно считать, что клиент уже ничего не вернет и под такие договоры закладывать 100%-ное резервирование.

Однако в действительности после дефолта клиенты могут вносить платежи или, если договор был обеспечен (залог), то в ходе продажи обеспечения вся сумма договора или ее часть могут быть погашены за счет суммы реализации (продажи) залога.

Также стоит обратить внимание, что для банковской сферы (в других индустриях зависит от продукта и политики резервирования) прогноз должен производиться как по договорам, находящимся в дефолте

$(PD = 100\%)$ (default сегмент), так и по тем, по которым нет дефолта на момент расчета резервов

$(PD \neq 100\%)$ (non-default сегмент). Разработка прогнозной модели возможна только на договорах в дефолте. В этом случае возникает проблема переноса модели на сегмент недефолтных договоров.

Об особенности расчета компоненты LGD, ее моделирования, распространении прогноза на весь портфель, а также подходах к валидации расскажем далее.

~~Бегите, глупцы.~~ Добро пожаловать под кат!

Читать дальше →

Siarshai Jul 27 2017 at 09:55

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

16 min

43K

Data Mining*Mathematics*Machine learning*

Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Пока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.

Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна. Попробуем разобраться, как выжать из рядов без меток немного смысла. В этой статье рассматриваются подтипы кластеризации временных рядов, общие приёмы и популярные меры расстояния между рядами. Статья рассчитана на читателя, уже имевшего дело с последовательностями в data science: о базовых вещах (тренд, ARMA/ARIMA, спектральный анализ) рассказываться не будет.

Читать дальше →

+18

vagonoff Apr 14 2021 at 10:23

Маркетинговая оптимизация в банке

5 min

Mathematics*Machine learning*GlowByte corporate blog

Привет, Хабр.

Маркетинговая оптимизация, установка лимитов по портфелю кредитных продуктов, логистика и товарная аналитика, оптимизация производственных процессов, … — список применения методов математической оптимизации далеко не ограничивается перечисленными задачами, а методы оптимизации начали решать задачи бизнеса задолго до того, как науки о данных стали называться науками о данных.

С развитием адаптации технологий ML/DS можно ожидать рост популярности оптимизационных методов прежде всего за счет того, что решения бизнес задач становятся более комплексными. То есть, вместо того, чтобы сделать одну-две модели, которые выдают почти финальные решения, процесс принятия решения декомпозируется на отдельные составляющие компоненты, в которых есть место прогнозным моделям, а для самого принятия решения с учетом всех этих компонент и ограничений работает уже оптимизационная модель.

В статье поговорим о возможной постановке задачи оптимизации в банковской сфере и методах ее решения.

Читать дальше →

vagonoff Mar 15 2021 at 14:39

Прогнозирование временных рядов методом рядов Фурье

10 min

25K

Mathematics*Machine learning*PhysicsGlowByte corporate blog

Привет, Хабр.

Эта статья посвящена методу долгосрочного прогнозирования временных рядов с помощью рядов Фурье [1-2]. Особенность подхода в том, что в отличие от классических методов прогнозирования и машинного обучения прогнозируется не сама неизвестная функция, а ее коэффициенты разложения в ряд Фурье. Далее по спрогнозированным коэффициентам Фурье восстанавливается неизвестная функция и делается прогноз ее значений на следующий период.

Внимание! Статья содержит множество формул.

Читать дальше →

Ranlod Dec 3 2020 at 15:11

Опыт внедрения Shiny в качестве корпоративной отчетности

13 min

5.4K

System Analysis and Design*R*

Всем привет! Меня зовут Сергей, я аналитик в ГК «Везёт». Исторически так сложилось, что в нашей компании было множество систем отчетности: от платных в виде Looker и Qlick – до самописных веб-сервисов. Однажды решив, что так дальше жить нельзя, мы стали выбирать единую систему, на которой будет все, и в итоге остановились на Shiny. В этой статье я расскажу про наш опыт внедрения Shiny в качестве корпоративного BI. Эта статья будет полезна всем, кто только выбирает инструмент для корпоративной отчетности.

Читать дальше →

+10

alisaalisa Jan 19 2021 at 10:00

ML и DS оттенки кредитного риск-менеджмента | EAD или деньги в дефолте

11 min

18K

Machine learning*GlowByte corporate blog

Привет, Хабр!

Новая статья цикла о моделировании в задачах управления кредитным риском (предыдущие статьи смотрите здесь и здесь) посвящена EAD — компоненте, отражающей размер задолженности заемщика перед банком в момент дефолта.

Как спрогнозировать сумму кредитного требования в момент дефолта, при условии, что момент дефолта неизвестен, и вообще может не настать? Как поступать с экстремальными, особенно большими по абсолютному значению, EAD? А если кредитный продукт, по которому нужно оценить риск — это так называемый револьверный кредит, где нет установленных регулярных платежей,- как, например, кредитка с кредитным лимитом?

Эти и подобные им вопросы возникают при моделировании компоненты. Их и рассмотрим под катом.

Читать дальше →

+10

Emiliia_GBC Aug 10 2020 at 12:33

Как Reinforcement Learning помогает ритейлерам

14 min

Big Data*GlowByte corporate blog

Введение

Привет! Наша команда Glowbyte Advanced Analytics разрабатывает ML-решения для прикладных индустрий (ритейл, банки, телеком и др). Многие задачи требуют нестандартных решений. Одно из них — оптимизация цепочек коммуникаций с клиентом с помощью Reinforcement Learning (RL), которому мы решили посвятить данную статью.

Мы разбили статью на три блока: введение в задачу оптимизации цепочек коммуникаций; введение в RL; а в третьем блоке мы объединяем 1 и 2 вместе.

Читать дальше →

4uvak Jun 9 2020 at 13:58

Оценка рыночного риска (Value at Risk) портфеля облигаций (теория)

15 min

16K

Mathematics*Finance in IT

From sandbox

Достаточно много работ написано на тему вычисления такого показателя, как $inline$ (Value at Risk), в том числе и различные статьи в интернете. Однако, честно признаться, действительно качественных из них оказалось мало. Да и работ, посвященных оценке $inline$ инструментов, отличных от акций, тоже немного. Те, кто хочет разобраться с тем, что же это такое и какая математическая модель стоит за вычислением $inline$ портфеля облигаций, прошу под кат.

Читать дальше →

paramonov_ruvds Oct 20 2020 at 12:12

Заметки Дата Сатаниста: честность модели

4 min

8.2K

Data Mining*Mathematics*Machine learning*RUVDS.com corporate blogArtificial Intelligence

Один из ключевых фундаментальных принципов обработки данных, согласно GDPR, это право человека на объяснение принятого решения и честность этого решения.

И сегодня мы поговорим о том, что же такое честность модели машинного обучения.

^{Картинка взята отсюда}

И разберем на простом примере выдачи кредитов: какие проблемы могут возникнуть, какие подходы к ним бывают и что из этого обычно получается.

Задача: по данным пользователя выдать решения и вероятности того, что не произойдет дефолта кредита. Причем таким образом, чтобы наши модели машинного обучения не попали под раздачу со всеми законами о дискриминации.

Читать дальше →

+34

abv_gbc Oct 20 2020 at 13:06

ML и DS оттенки кредитного риск-менеджмента | Компоненты

18 min

27K

Machine learning*GlowByte corporate blog

Привет!

В предыдущей статье цикла о моделировании в задачах управления кредитным риском (здесь) мы провели обзор трех задач кредитного риск-менеджмента, нашли возможные точки приложения ML и DS к этим задачам и попутно ввели набор терминов для дальнейшей работы.

Сейчас мы расскажем о трех компонентах (PD, LGD, EAD), которые участвуют при расчете ожидаемых потерь: рассмотрим основные драйверы и методологию построения моделей. В конце статьи приведем сводную таблицу с особенностями работы с компонентами на различных этапах разработки, сформированную на основе нашего проектного опыта.

За подробностями добро пожаловать под кат.

Читать дальше →

abv_gbc Sep 23 2020 at 08:53

ML и DS оттенки кредитного риск-менеджмента

14 min

24K

Machine learning*GlowByte corporate blog

Всем привет.

Мы команда Advanced Analytics GlowByte и запускаем цикл статей о моделировании в задачах управления кредитным риском. Цель цикла — кратко рассказать о сфере, расширить словарь профессиональных терминов и дать ссылки на полезные статьи и книги. В вводной статье мы покажем особенности применения ML и DS в сфере кредитного риска, без глубокого погружения в предметную область.

Далее раскроем вопросы методологии моделирования, работы с компонентами кредитного риска, а также подходов к калибровке и валидации, которые учитывают специфику работы моделей в банке.

Основа публикаций — наш проектный опыт по разработке и внедрению аналитических моделей в банковской сфере.

А теперь под кат.

Читать дальше →