Комментарии / Профиль datasanta / Хабр

Дмитрий Горелов@datasanta

Data Scientist

Подписчики

Мал, да удал: почему пять строк рефакторинга могут сказать о разработчике больше, чем весь его GitHub

Цель хорошая. В ООП коде такое часто встречается, шаблонный шаблон на 500 строк, что можно переписать в одну функцию на 10 строк.

Но, имхо, анализ кода должен быть автоматизирован. Если нужно еще думать, где метрику можно применять где нельзя - то это не масштабируемо и полуручной анализ получается.

А если на метрику опираться «бездумно», как вы сказали. То после ее оптимизации будет неизбежно повышаться когнитивная сложность кода и снижаться поддерживаемость

Мал, да удал: почему пять строк рефакторинга могут сказать о разработчике больше, чем весь его GitHub

datasanta 30 апр в 13:06

Высокая «концентрация информационной нагрузки» в статье рассматривается как показатель хорошего качества кода. В линтерах же оценка когнитивной сложности кода cognitive complexity, которую стараются снижать. Также есть показатель поддерживаемости кода maintainability index, который говорит, что чем выше когнитивная сложность, тем код сложнее поддерживать.

predict_proba в Python не прогнозирует вероятности (и как с этим бороться)

datasanta 21 авг 2021 в 09:08

Информативная статья. Но в названии ошибка

Что влияет на выдачу кредита. Обзор соревнования Home Credit Default Risk

datasanta 14 янв 2020 в 08:07

ProRunner, модель расчета скоринга кредитного бюро вполне себе годная и отражает риск. Суть в том, что когда у нас есть данные кредитной истории — информация о платежах, просрочках по предыщущим кредитам, мы можем построить модель не хуже балла бюро, т.к. бюро строит скоринговую модель на этих же данных. Соответственно, если мы строим свою модель на данных бюро (как в этом конкурсе), и добавляем в модель в качестве параметра скор бюро, расчитанный на этих же данных, принципиально никакой новой информации модель не получает. Это та же информация о кредитной истории, но ужатая в один параметр

Что влияет на выдачу кредита. Обзор соревнования Home Credit Default Risk

datasanta 13 янв 2020 в 19:36

А XGboost вообще прошлый век. Уже всем кто хоть одну модель строил за последний год, очевидно, что lightgbm лучше и по качеству и по скорости

Что влияет на выдачу кредита. Обзор соревнования Home Credit Default Risk

datasanta 13 янв 2020 в 19:28

Статья на обзорную не тянет. Там довольно много подходов и интересных признаков в кернелах. А вы просто вытянули картинку из первого попавшегося кернела с важностью признаков, где скорбалл бюро самый важный признак. Мол покупайте скор балл и будет у вас хорошая модель. Лучше посчитали как падает gini при выкидывани скорбалла бюро из модели. Это бы показало, что балл бюро бесполезен, когда есть информация о кредитах и признаки на них сконструированные

Граф Скоринг де ля Фер или исследование на тему кредитного скоринга, в рамках расширения кругозора. Ч.1

datasanta 21 авг 2019 в 10:42

Каким образом описанная система позволяет снизить субъективизм в принятии решения? Да, информация представлена в более удобном для анализа виде — в виде графа. Но анализируют ее все равно вручную, кредитные специалисты?