Цель хорошая. В ООП коде такое часто встречается, шаблонный шаблон на 500 строк, что можно переписать в одну функцию на 10 строк.
Но, имхо, анализ кода должен быть автоматизирован. Если нужно еще думать, где метрику можно применять где нельзя - то это не масштабируемо и полуручной анализ получается.
А если на метрику опираться «бездумно», как вы сказали. То после ее оптимизации будет неизбежно повышаться когнитивная сложность кода и снижаться поддерживаемость
Высокая «концентрация информационной нагрузки» в статье рассматривается как показатель хорошего качества кода. В линтерах же оценка когнитивной сложности кода cognitive complexity, которую стараются снижать. Также есть показатель поддерживаемости кода maintainability index, который говорит, что чем выше когнитивная сложность, тем код сложнее поддерживать.
ProRunner, модель расчета скоринга кредитного бюро вполне себе годная и отражает риск. Суть в том, что когда у нас есть данные кредитной истории — информация о платежах, просрочках по предыщущим кредитам, мы можем построить модель не хуже балла бюро, т.к. бюро строит скоринговую модель на этих же данных. Соответственно, если мы строим свою модель на данных бюро (как в этом конкурсе), и добавляем в модель в качестве параметра скор бюро, расчитанный на этих же данных, принципиально никакой новой информации модель не получает. Это та же информация о кредитной истории, но ужатая в один параметр
Статья на обзорную не тянет. Там довольно много подходов и интересных признаков в кернелах. А вы просто вытянули картинку из первого попавшегося кернела с важностью признаков, где скорбалл бюро самый важный признак. Мол покупайте скор балл и будет у вас хорошая модель. Лучше посчитали как падает gini при выкидывани скорбалла бюро из модели. Это бы показало, что балл бюро бесполезен, когда есть информация о кредитах и признаки на них сконструированные
Каким образом описанная система позволяет снизить субъективизм в принятии решения? Да, информация представлена в более удобном для анализа виде — в виде графа. Но анализируют ее все равно вручную, кредитные специалисты?
Цель хорошая. В ООП коде такое часто встречается, шаблонный шаблон на 500 строк, что можно переписать в одну функцию на 10 строк.
Но, имхо, анализ кода должен быть автоматизирован. Если нужно еще думать, где метрику можно применять где нельзя - то это не масштабируемо и полуручной анализ получается.
А если на метрику опираться «бездумно», как вы сказали. То после ее оптимизации будет неизбежно повышаться когнитивная сложность кода и снижаться поддерживаемость
Высокая «концентрация информационной нагрузки» в статье рассматривается как показатель хорошего качества кода. В линтерах же оценка когнитивной сложности кода cognitive complexity, которую стараются снижать. Также есть показатель поддерживаемости кода maintainability index, который говорит, что чем выше когнитивная сложность, тем код сложнее поддерживать.
Информативная статья. Но в названии ошибка
А XGboost вообще прошлый век. Уже всем кто хоть одну модель строил за последний год, очевидно, что lightgbm лучше и по качеству и по скорости
Статья на обзорную не тянет. Там довольно много подходов и интересных признаков в кернелах. А вы просто вытянули картинку из первого попавшегося кернела с важностью признаков, где скорбалл бюро самый важный признак. Мол покупайте скор балл и будет у вас хорошая модель. Лучше посчитали как падает gini при выкидывани скорбалла бюро из модели. Это бы показало, что балл бюро бесполезен, когда есть информация о кредитах и признаки на них сконструированные
Каким образом описанная система позволяет снизить субъективизм в принятии решения? Да, информация представлена в более удобном для анализа виде — в виде графа. Но анализируют ее все равно вручную, кредитные специалисты?