Pull to refresh
11
0
Марк Паненко @mark-rtb

Chief Data Scientist

Send message

Классно! Почитаю, если окажется для DS важным добавлю в список. Может есть еще рекомендации? Будет полезно развивать, дополнять статью.

А почему именно в такой последовательности?

Спасибо. Но думаю в DS без Python никак. Даже если смотреть чисто с точки зрения разработчика. Часто проще поднять микросервис с моделью на Python и уже в него ходить из Go'шного например, чем пытаться имплементировать архитектуру модели.

Есть опасение что это нарушит авторские права.

Ключевая идея этой книги показать что и простым языком можно объяснять сложные вещи. Не всем удается разглядеть за терминологией серьезных книг заложенные принципы.
Но вообще вы правы конечно. Есть очень много книг по статистике в которых гораздо больше информации. Мне в свое время очень понравилась книга "Статистика для всех" Сара Бослаф.

Спасибо за развернутый комментарий и дополнение про DDD обязательно добавлю её в следующую статью посвященную развитию навыков разработки.

Я покупал за 1к примерно.
Но так как предложение уникальное то все во власти продавца.

Я периодически отслеживаю сети книжные. Пару месяцев назад находил в книжном в Новосибе. Но вообще она очень редкая.

Рад что понравилась подборка.
Если есть рекомендации книг для новичков в DS накидывайте в комментарии.

Классная статья!
Спасибо за перевод. Две последних анимации с вниманием особенно понравились!
Спасибо, получилось кратко и ясно, круто.
С появлением BERT все NLP архитектуры стали строить на ячейках трансформерах, неужели архитектуры на двунаправленых слоях LSTM ячеек изжили себя? Есть ли информация у автора, о применении предобучения по типу BERT или XLNet для рекуррентных сеток? Я использовал архитектуру FLAIR На задаче выделения именованных сущностей неплохие результаты показывает.
Все таки тип предобучения или тип используемых базовых ячеек дает такие результаты?
Отличный комментарий.
Хотелось бы добавить, что максимальная сумма начислений тело займа*2.5, с 1 Июля будет тело займа*2, а с 1 января 20го, тело займа*1.5.
Кстати, ав него можно внести внезапно возникший фактор риска, типа если какой то персональный фактор должен блокировать выдачу? Не ждать, пока научится, что таким людям не давать, а запретить директивно.

Вы правы. Это хорошая практика и такие правила существуют. Но их сложно найти и работают они на 1-2% клиентов.
С 28 января вступили в силу ограничения от центробанка, которые делают предложенную бизнес модель экономически нецелесообразной. А с 1 Июля вступят в силу новые ограничения. Так что уже сейчас микрозайм это полезный финансовый инструмент, для многих категорий пользователей.
Точно подмечено.
Особенно влияют наши любимые зимние и весенние каникулы, по 7-10 дней. :)
Согласен с вами, пустая кредитная история (ки) не единственный фактор мешающий получению кредита. Но если ки есть, пусть и негативная, то это уже другая совокупность заемщиков, и по ним ключевыми будут признаки из ки. А вот когда она пустая, то ту найти факторы для оценки сложно. Про скоринговую модель для таких клиентов я и стараюсь написать.
При обучении модели тренировочную выборку разделял на train test, проверял AUC и F1 на test. Затем проверял эти же метрики на отложенном test сете, который разделен временным промежутком с тренировочным.
Постараюсь в следующей статье привести убедительную доказательную базу. Надеюсь, получится.
Пробовал оба значения, признак с использованием медианы дает больший прирост показателей, поэтому остановился на нем. Да и медиана более устойчива к выбросам.

Пилообразный вид, возможно вы правы. Думаете это плохо в контексте скоринга?
ИМХО (+практика): на этом этапе уже нужна предобработка и исключение таких вещей. Иначе о информативности не очень можно говорить.
И уже не к графику, а к сбору данных: лучше, чтобы клиенты выбирали из списка, а не писали от руки. Будут данные чище.

Согласен с вами. Но изначально данные собирались таким способом. Можно попробовать начать собирать выпадающим списком, нужно оценить не повлечет ли это усложнение заполнения анкеты.

категории были сравнимого размера? Если нет, то была ли проверка на то, можно ли вообще сравнивать данные из таких категорий? (пример: 1000 врачей и всего 7 ИП-шников. Тогда данные по ИП-шникам брать нельзя.)

Самая малочисленная категория 73 записи, самая многочисленная 340 записей.
И еще к кластеризации: перед ее выполнением делалась ли оценка на то, есть ли там предварительно подозрение на кластеры? (та же статистика Хопкинса)

В этом случае действовал исходя из влияния на показатели модели, экспериментальным путем. Чуть позже сделаю оценку и добавлю в статью, спасибо за замечание.
1

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Date of birth
Registered
Activity