Статьи / Закладки / Профиль JoeyBlack / Хабр

@JoeyBlack

Пользователь

Профиль Публикации Комментарии 4Закладки 114

jandevel 6 мар 2018 в 13:59

Коэффициент Джини. Из экономики в машинное обучение

17 мин

124K

Python*Data Mining*Математика*Машинное обучение*Блог компании Open Data Science

Интересный факт: в 1912 году итальянский статистик и демограф Коррадо Джини написал знаменитый труд «Вариативность и изменчивость признака», и в этом же году «Титаник» затонул в водах Атлантики. Казалось бы, что общего между этими двумя событиями? Всё просто, их последствия нашли широкое применение в области машинного обучения. И если датасет «Титаник» в представлении не нуждается, то об одной замечательной статистике, впервые опубликованной в труде итальянского учёного, мы поговорим поподробней. Сразу хочу заметить, что статья не имеет никакого отношения к коэффициенту Джини (Gini Impurity), который используется в деревьях решений как критерий качества разбиения в задачах классификации. Эти коэффициенты никак не связаны друг с другом и общего между ними примерно столько же, сколько общего между трактором в Брянской области и газонокосилкой в Оклахоме.

Коэффициент Джини (Gini coefficient) — метрика качества, которая часто используется при оценке предсказательных моделей в задачах бинарной классификации в условиях сильной несбалансированности классов целевой переменной. Именно она широко применяется в задачах банковского кредитования, страхования и целевом маркетинге. Для полного понимания этой метрики нам для начала необходимо окунуться в экономику и разобраться, для чего она используется там.

Введение

Но давайте сначала разберёмся: как большинство людей запускают свои скрипты на Python?

Проблема

Разбивая крупные числа на мелкие, исследователи превысили фундаментальное математическое ограничение скорости

Переосмыслить концепцию задачи тяжело, но результат стоит того

Большой взрыв

Рекуррентные нейронные сети

Вместо предисловия