Как стать автором
Обновить
19.5
Карма
0
Рейтинг
Егор Борисов @egorborisov

Data science, credit scoring

  • Подписчики 14
  • Подписки

Анализ вакансий и зарплат в Data Science

Спасибо, для классификации вакансий достаточно самой простой модели, а разговорные частицы, предлоги и наречия хорошо отделяют комментарии от вакансий. По дата инженерам согласен - соотношение между специальностями может выглядеть искаженным, добавил пометку об этом в текст.

Анализ вакансий и зарплат в Data Science

Мы воспользовались нейронками в своей голове, написали регулярки и спарсили данные)

Анализ вакансий и зарплат в Data Science

Спасибо, резюме в чате размещают мало и почти всегда без деталей по зп, так что в таком-же ключе не получится аналитику сделать.

Анализ вакансий и зарплат в Data Science

Спасибо, согласен источник только один и данные могут быть смещенными, добавлю ремарку об этом в текст.

Но есть несколько соображений в пользу именно такой трактовки:
1) Чат ODS уже очень популярен и возможно хорошо отражает общие тенденции на рынке.
2) Если говорить о резком росте в 2021 году, то такого не было за всю историю.
3) Большая часть вакансий из чата jobs, где размещаться hr-ам запрещено.

Анализ вакансий и зарплат в Data Science

Спасибо, была такая мысль но данных маловато, плюс очень часто в одном сообщений ищут несколько грейдов, при этом список требований один.

Мониторинг работы кредитного скоринга в Power BI

Частично данные готовятся и обрабатываются на уровне хранилища. Частично на уровне дашборда.

Мониторинг работы кредитного скоринга в Power BI

Только sql и dax. Почти все, что хотели, смогли реализовать без использования питона.

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

Ахаха) У директора широкое поле для выбора. С таким же успехом можно было вообще никого не нанимать.

Что влияет на выдачу кредита. Обзор соревнования Home Credit Default Risk

Это ссылка на сам конкурс, но не на источник. Источником являются конкретные кернелы участников конкурса, из которых взято все все содержание статьи, вплоть до скриншотов графиков.

Что влияет на выдачу кредита. Обзор соревнования Home Credit Default Risk

Укажите ссылку на источник и напишите, что статья является просто упрощенным переводом. Плагиатить все, даже картинки и выдавать это за свою работу — некрасиво. www.kaggle.com/willkoehrsen/start-here-a-gentle-introduction

Сэмплирование и точность вычислений

Хорошая статья. Если в теорию не хочется вдаваться, есть уже готовые онлайн калькуляторы для определения размера выборки. Например: www.evanmiller.org/ab-testing/sample-size.html. В приведенном примере с уровнем конверсии 0,01% и 1 млн наблюдений, доверительный интервал будет 0.006% – 0.014%.

Если метрика строится только на части данных, нужно убедится что они выбраны случайно. Простая инструкция top 1000 в запросе часто дает смещенную выборку.

Как мы сократили время на разработку скоринговых моделей в пять раз, переключившись на Python

Из нашей практики трейн и тест лучше по времени делить. В тест только самые свежие данные. Так результаты работы модели на практике будут более предсказуемые.

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

1) Да, вы правы. Есть много других факторов которые влияют на вероятность визита, в том числе место работы. В модели мы их не использовали, потому что таких данных нет. Но есть несколько соображений из которых можно опираться именно на место проживания, как на основной фактор. Пик посещений в течении дня почти во всех отделениях приходится на утро-день. Основная аудитория — это женщины, часто с детьми. То есть можно предположить, что существенная часть аудитории — это неработающие женщины, которым важно именно расстояние от дома.

2) Цель — это и привлечение новой аудитории и удобство для имеющихся клиентов. Но оценку мы делали только по привлеченной новой аудитории. Гипотеза по по поводу конкурентов была, но текущие отделения расположены очень близко с отделениями основных конкурентов. В итоге если добавить этот фактор в модель получается не совсем корректный результат: ближе к конкуренту — лучше. Я попробовал подавать этот фактор в модель в другом виде: как кол-во конкурентов в радиусе, что тоже не дало нужного результата. В итоге этот фактор мы не включали в модель. На картах я сделал отдельный слой с адресами конкурентов.

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

700 тыс. — это объявления о продаже квартир. Мы получили их уже с координатами. Геокодирование требовалось только для клиентов, там меньше записей. Стандартных средств, таких как API Яндекс карт на такой объем достаточно. Даже с ограничением на 25 000 запросов в сутки. А по поводу точности, видимо сказалось что это Санкт-Петербург и адреса заполнены корректно.

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

У нас их нет. Но мы знаем для каждого дома численность жителей и долю текущих клиентов. Выставляя новую точку мы пересчитываем долю клиентов для части домов по модели. После этого пересчитываем кол-во клиентов.

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

При расчете нового места мы считаем только дополнительный эффект для всей сети. Он не включает в себя текущих клиентов, только новых.

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

Сразу, поясню что в этом конкретном случае мы больше ориентировались не на показатели качества, а на субъективное восприятие правильности результата. Но для порядка все считали: R^2 был около 0,8. Дополнительно контроль качества делали так: подставляли координаты текущих филиалов и сравнивали предсказание модели с фактическими данными. Расхождение ±10%, что вполне нас устроило.

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

Добрый день! Клиенты сами называют свои адреса при оформлении. Модель опирается на данные о существующих клиентах и зависимостях которые есть и на этой основе делает прогноз для потенциальных клиентов.

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

1) Да, конечно, модель и все картинки только дают ориентир. А конечное решение остается за менеджментом. Такие факторы как наличие подходящего помещения, транспортная доступность, парковка учитываются, но на другом этапе.

2) Выручка для на складывается из кол-ва визитов и среднего чека на визит. Мы проанализировали оба показателя в разрезах: цена недвижимости, расстояние до отделения, год постройки. Оказалось что все эти факторы почти не влияют на средний чек и среднее кол-во визитов, поэтому мы отталкивались только от кол-ва клиентов.

Информация

В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Работает в
Дата рождения
Зарегистрирован
Активность