Pull to refresh
8
0
Send message

Цена качества модели: как метрики качества модели машинного обучения влияют на финансовый результат

Level of difficultyMedium
Reading time8 min
Reach and readers5.2K

При создании любой модели машинного обучения всегда возникает вопрос оптимального соотношения цены и качества. С одной стороны data scientist-ы всегда стараются построить максимально производительную модель, с другой стороны бюджет, выделенный на ее построение всегда ограничен. Часть источников данных, может быть, платными, для части требуется наладить сложную процедуру сбора соответствующей информации, ограничено также и время, которое моделист может потратить на конкретную модель, ведь, по сути, эксперименты с различными фичами, выборками и параметрами можно проводить почти бесконечно. Все это приводит к тому, что в продакшене используются модели, которые могли бы быть существенно улучшены при больших затратах ресурсов, однако эти затраты зачастую очень сложно обосновать, в частности, потому что метрики качества модели бывает крайне не просто превратить в конкретные бизнес-показатели, связанные с деньгами. В данной статье я хочу предложить подход, связывающий метрики качества модели с ее финансовой полезностью, на примере одного класса моделей: моделей вероятности дефолта, хотя, по сути, аналогичные идеи могут быть использованы для любых моделей классификации.

Читать далее

Использование теории игр для повышения прозрачности моделей машинного обучения

Level of difficultyMedium
Reading time7 min
Reach and readers7.7K

Интерпретация современных моделей машинного обучения может быть чрезвычайно сложным делом учитывая, что количество параметров и весовых коэффициентов может идти на тысячи и даже миллионы. Тем не менее это совершенно необходимо, для повышения качества, обеспечения стабильности и предсказуемости работы модели. В этом нам может помочь теория игр, математическая дисциплина позволяющая выделить из сложного взаимодействия факторов модели отдельный вклад каждого в конечное предсказание.

Читать далее

Модели вероятности дефолта: практические аспекты разработки и подводные камни

Level of difficultyMedium
Reading time12 min
Reach and readers20K

Когда люди задумываются о профессии data scientist-а они в первую очередь вспоминают нейронные сети, которые создают красивые картинки или ведут с человеком псевдоосмысленные диалоги. Существует огромное количество материалов посвященных такого рода моделям, и они безусловно крайне интересны любому человеку, увлеченному анализом данных. Тем не менее, фактически только небольшая часть data scientist-ов занимается подобными моделями, поскольку внедрение их не может в большинстве случаев принести существенной прибыли, а data scientist это достаточно высокооплачиваемая профессия. При этом существенная часть специалистов работает в банковской сфере, основными моделями которой (порядка 80-90% от общего числа моделей) являются модели PD (probability of default), отвечающие на фундаментальный вопрос банков: каковая вероятность того, что заемщик не вернет кредит.

Информации по данным моделям, обзорных статей, описания подводных камней и т.п. достаточно мало и начинающий специалист может столкнуться с настоящим информационным голодом и даже провалить собеседование из-за незнания элементарной терминологии.  Именно этот информационный пробел мне хотелось бы заполнить данной статьей. За время работы в банковской сфере мне удалось поучаствовать в разработке нескольких десятков моделей данного класса, и я хотел бы сосредоточится не на конкретной технике моделирования (она может быть разной в каждом конкретном случае), а на практических аспектах разработки и подводных камнях, которые удивили меня в свое время.

Читать далее

Information

Rating
Does not participate
Registered
Activity