Search
Write a publication
Pull to refresh
11
0
Марк Паненко @mark-rtb

Chief Data Scientist

Send message
Очень приятно, что вы подробно читали мою публикацию.
Пункты 1-4:
Профессии на графике взяты из сырых данных, то есть это самые часто встречающиеся варианты, указанные клиентами. Поэтому возможно проскочили повторения. Перед подачей в модель профессии распределяются по 5 категориям.
Данные конечно же относительные (количество дефолтных клиентов данной профессии, деленное на общее количество клиентов данной профессии), но конкретные значения на некоторых осях пришлось удалить, коммерческая тайна к сожалению.
пункт 5: Кластеризация действительно дает прирост показателей. Постараюсь нарисовать более информативный график.
Пункт 6: Было проверено много вариантов, в статье приводится вариант, дающий максимальный прирост AUC модели. Хотел написать о процессе выбора, но стройного текста не получилось, решил привести конечный результат.
Пункт 7: Обязательно поправлю график.
Пункт 8: Вы правы это стандартный матплотлиб.
В целом спасибо за профессиональный взгляд, постараюсь учесть ваши замечания и сделать публикацию лучше.
Большое спасибо. Описал эти признаки и забыл вынести в итоговый список (исправил)
Пол не используем, с оглядкой на Базель III, думаю и у нас со временем что то похожее будет.
Наличие детей на прямую не используется, вместо него используется количество совместно проживающих членов семьи.
Я не юрист и не разбираюсь во всех тонкостях этого вопроса, но думаю вы правы.
Однако уверен, что хранение и обработка бинарного признака заполнил клиент дополнительные данные или нет, не противоречит закону.
В любом случае спасибо вам за предостережение.
мне кажется, что МФО не любят больше РКН. И тут подружить жабу с гадюкой будет довольно интересно.


Не совсем понятно, что вы имеете ввиду.
Может расскажите более развернуто?
Если гражданин добропорядочный, и нет необходимости в использовании персональных данных для осуществления правосудия, то не остаются.
Спасибо за поддержку и за развернутую, конструктивную критику!
Действительно, после вступления в силу 1 января изменений о микрофинансовой деятельности, рынок сильно меняется. Но может это и к лучшему? Возможно микрофинансы начнут воспринимать более позитивно? Надеюсь на это.
Эта статья описывает построение модели только для клиентов с пустой КИ. Конечно модели для заемщиков с сформированной кредитной историей или для постоянных клиентов, содержат намного больше факторов. И эти факторы устойчивые и предсказательно сильные.
Но если этот заем первый для клиента, то больше факторов просто негде взять. Есть множество статей про использование соц сетей но тут проблема с использованием данных. Нужно чтобы клиент согласился на обработку информации содержащейся у него на страничке.
Я сейчас работаю над второй частью статьи. Там покажу цифры по оценке заемщиков.
Вы правы на счет сильного шума в данных, но все же они позволяют выделить сегмент клиентов, выдавать займы которым экономически целесообразно.
Заполнение контактной информации является добровольным.
Заемщик понимает, что указывая дополнительную контактную информацию он повышает свои шансы на одобрение займа. Поэтому поля часто заполнены.
Скорее всего этот фактор не будет обладать большой предсказательной силой.
Но может дать небольшой прирост в показателях.
Дело в том, что в праздники увеличивается доля высокорисковых клиентов. Люди берут заём, не оценивая возможность возврата. И некоторые заёмщики, которые поддавшись праздничному настроению возлагают на себя неоправданные обязательства, допускают просрочку или не имеют возможность вернуть заем полностью.
Спасибо :)
На самом деле опасаюсь, что читатели не оценят статью, из за негатива, который появился вокруг МФО в предыдущие годы. Но хочется быть честным, и поэтому мне кажется важным указывать какие именно данные использовались при моделировании.
Это воинская профессия.
Стрело́к — первичная воинская должность военнослужащего в формированиях Вооружённых Сил Российской Федерации
Спасибо за конструктив. Цены на товары первой необходимости учитывались при группировке регионов. Праздники сложно учесть, так как данные собраны за небольшой период. Нужно хотя бы два три года, чтобы такой фактор оценить.
Со 152-ФЗ все как положено.
Да и в целом ППУ достаточно дорогой материал. И после напыления, голову этой машины надо полностью разбирать и промывать. Не совсем автономная система получается.
Но все равно молодцы, что пробуют.
По поводу символьных эмбеддингов, отличные результаты показывает предварительное обучении двунаправленной рекуррентной сети предсказывать следующий символ. Получается, что информацию о структуре языка можно добавить в модель, используя неразмеченные текстовые данные, коих невероятное количество на просторах сети. А после слоев погружения уже основная, тоже двунаправленная рекуррентная сеть. Такое решение авторы назвали FLAIR, кстати есть код в открытом доступе. Я применял несколько модифицированную архитектуру. И разница в результатах с предобучением погружений и без него очень существенна. Кстати лучший вариант обучения погружений, это обучаться на всей литературе в предметной области. Например в юридической сфере статьи и книги о юриспруденции и праве.
Таким образом погружения несут в себе не просто информацию о Русском языке, а информацию о юридическом стиле языка.
Правда все это дает существенный прирост на небольших объемах данных, но для Русского языка, пока что не приходится говорить о больших размеченных данных в задачах выделения именованных сущностей.
2

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Date of birth
Registered
Activity