Pull to refresh
4
0
Марк Паненко @mark-rtb

Data scientist

Send message
Классная статья!
Спасибо за перевод. Две последних анимации с вниманием особенно понравились!
Спасибо, получилось кратко и ясно, круто.
С появлением BERT все NLP архитектуры стали строить на ячейках трансформерах, неужели архитектуры на двунаправленых слоях LSTM ячеек изжили себя? Есть ли информация у автора, о применении предобучения по типу BERT или XLNet для рекуррентных сеток? Я использовал архитектуру FLAIR На задаче выделения именованных сущностей неплохие результаты показывает.
Все таки тип предобучения или тип используемых базовых ячеек дает такие результаты?
Отличный комментарий.
Хотелось бы добавить, что максимальная сумма начислений тело займа*2.5, с 1 Июля будет тело займа*2, а с 1 января 20го, тело займа*1.5.
Кстати, ав него можно внести внезапно возникший фактор риска, типа если какой то персональный фактор должен блокировать выдачу? Не ждать, пока научится, что таким людям не давать, а запретить директивно.

Вы правы. Это хорошая практика и такие правила существуют. Но их сложно найти и работают они на 1-2% клиентов.
С 28 января вступили в силу ограничения от центробанка, которые делают предложенную бизнес модель экономически нецелесообразной. А с 1 Июля вступят в силу новые ограничения. Так что уже сейчас микрозайм это полезный финансовый инструмент, для многих категорий пользователей.
Точно подмечено.
Особенно влияют наши любимые зимние и весенние каникулы, по 7-10 дней. :)
Согласен с вами, пустая кредитная история (ки) не единственный фактор мешающий получению кредита. Но если ки есть, пусть и негативная, то это уже другая совокупность заемщиков, и по ним ключевыми будут признаки из ки. А вот когда она пустая, то ту найти факторы для оценки сложно. Про скоринговую модель для таких клиентов я и стараюсь написать.
При обучении модели тренировочную выборку разделял на train test, проверял AUC и F1 на test. Затем проверял эти же метрики на отложенном test сете, который разделен временным промежутком с тренировочным.
Постараюсь в следующей статье привести убедительную доказательную базу. Надеюсь, получится.
Пробовал оба значения, признак с использованием медианы дает больший прирост показателей, поэтому остановился на нем. Да и медиана более устойчива к выбросам.

Пилообразный вид, возможно вы правы. Думаете это плохо в контексте скоринга?
ИМХО (+практика): на этом этапе уже нужна предобработка и исключение таких вещей. Иначе о информативности не очень можно говорить.
И уже не к графику, а к сбору данных: лучше, чтобы клиенты выбирали из списка, а не писали от руки. Будут данные чище.

Согласен с вами. Но изначально данные собирались таким способом. Можно попробовать начать собирать выпадающим списком, нужно оценить не повлечет ли это усложнение заполнения анкеты.

категории были сравнимого размера? Если нет, то была ли проверка на то, можно ли вообще сравнивать данные из таких категорий? (пример: 1000 врачей и всего 7 ИП-шников. Тогда данные по ИП-шникам брать нельзя.)

Самая малочисленная категория 73 записи, самая многочисленная 340 записей.
И еще к кластеризации: перед ее выполнением делалась ли оценка на то, есть ли там предварительно подозрение на кластеры? (та же статистика Хопкинса)

В этом случае действовал исходя из влияния на показатели модели, экспериментальным путем. Чуть позже сделаю оценку и добавлю в статью, спасибо за замечание.
Очень приятно, что вы подробно читали мою публикацию.
Пункты 1-4:
Профессии на графике взяты из сырых данных, то есть это самые часто встречающиеся варианты, указанные клиентами. Поэтому возможно проскочили повторения. Перед подачей в модель профессии распределяются по 5 категориям.
Данные конечно же относительные (количество дефолтных клиентов данной профессии, деленное на общее количество клиентов данной профессии), но конкретные значения на некоторых осях пришлось удалить, коммерческая тайна к сожалению.
пункт 5: Кластеризация действительно дает прирост показателей. Постараюсь нарисовать более информативный график.
Пункт 6: Было проверено много вариантов, в статье приводится вариант, дающий максимальный прирост AUC модели. Хотел написать о процессе выбора, но стройного текста не получилось, решил привести конечный результат.
Пункт 7: Обязательно поправлю график.
Пункт 8: Вы правы это стандартный матплотлиб.
В целом спасибо за профессиональный взгляд, постараюсь учесть ваши замечания и сделать публикацию лучше.
Большое спасибо. Описал эти признаки и забыл вынести в итоговый список (исправил)
Пол не используем, с оглядкой на Базель III, думаю и у нас со временем что то похожее будет.
Наличие детей на прямую не используется, вместо него используется количество совместно проживающих членов семьи.
Я не юрист и не разбираюсь во всех тонкостях этого вопроса, но думаю вы правы.
Однако уверен, что хранение и обработка бинарного признака заполнил клиент дополнительные данные или нет, не противоречит закону.
В любом случае спасибо вам за предостережение.
мне кажется, что МФО не любят больше РКН. И тут подружить жабу с гадюкой будет довольно интересно.


Не совсем понятно, что вы имеете ввиду.
Может расскажите более развернуто?
Если гражданин добропорядочный, и нет необходимости в использовании персональных данных для осуществления правосудия, то не остаются.
Спасибо за поддержку и за развернутую, конструктивную критику!
Действительно, после вступления в силу 1 января изменений о микрофинансовой деятельности, рынок сильно меняется. Но может это и к лучшему? Возможно микрофинансы начнут воспринимать более позитивно? Надеюсь на это.
Эта статья описывает построение модели только для клиентов с пустой КИ. Конечно модели для заемщиков с сформированной кредитной историей или для постоянных клиентов, содержат намного больше факторов. И эти факторы устойчивые и предсказательно сильные.
Но если этот заем первый для клиента, то больше факторов просто негде взять. Есть множество статей про использование соц сетей но тут проблема с использованием данных. Нужно чтобы клиент согласился на обработку информации содержащейся у него на страничке.
Я сейчас работаю над второй частью статьи. Там покажу цифры по оценке заемщиков.
Вы правы на счет сильного шума в данных, но все же они позволяют выделить сегмент клиентов, выдавать займы которым экономически целесообразно.
Заполнение контактной информации является добровольным.
Заемщик понимает, что указывая дополнительную контактную информацию он повышает свои шансы на одобрение займа. Поэтому поля часто заполнены.
Скорее всего этот фактор не будет обладать большой предсказательной силой.
Но может дать небольшой прирост в показателях.
Дело в том, что в праздники увеличивается доля высокорисковых клиентов. Люди берут заём, не оценивая возможность возврата. И некоторые заёмщики, которые поддавшись праздничному настроению возлагают на себя неоправданные обязательства, допускают просрочку или не имеют возможность вернуть заем полностью.
Спасибо :)
На самом деле опасаюсь, что читатели не оценят статью, из за негатива, который появился вокруг МФО в предыдущие годы. Но хочется быть честным, и поэтому мне кажется важным указывать какие именно данные использовались при моделировании.
1

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Date of birth
Registered
Activity