Comments 26
>«охотнее платят те кто больше весит»,… «Высокие платят немного охотнее»
Не охотнее, а так же, как и остальные. У вас графики показывают статистику веса и роста, а не статистику желаний.
Не охотнее, а так же, как и остальные. У вас графики показывают статистику веса и роста, а не статистику желаний.
Допустим клиентов с весом более 80 кг 50% из тех кто не платил и 70% из тех кто платил, разве это не означает «охотнее платят те кто больше весит»?
Не понял. Можно ещё раз для тех, кто не дружит с математикой?
Берем всех кто не платил. Смотрим какое кол-во из них весит более 80 кг. Допустим это 50% (у нас примерно так и есть судя по гистограмме)
Берем всех кто платил. Смотрим какое кол-во из них весит более 80 кг. Получается около 70%.
Итого у нас 50% людей с весом более 80 кг среди не платящих и 70% среди платящих. Вывод — люди с весом > 80кг платят охотнее.
Берем всех кто платил. Смотрим какое кол-во из них весит более 80 кг. Получается около 70%.
Итого у нас 50% людей с весом более 80 кг среди не платящих и 70% среди платящих. Вывод — люди с весом > 80кг платят охотнее.
Не прозрачнее ли взять просто всех и разделить сначала по весу? Получится, пусть, две группы — до 80 и более 80 (что, на мой взгляд, само по себе не показатель, нужно ещё учитывать рост и возраст). После этого посчитать сколько в каждой группе плативших/неплативших. Или здесь «от перемены мест слагаемых сумма не меняется»?
Почему-то эта дискуссия напомнила мне о влиянии количества пиратов на глобальное потепление…
7-летние дети охотнее идут в первый класс нежели 20-летние.
Платить могут не только лишь все, не все высокие могут это делать более не эффективно, чем не весящие больше.
Что-то я пропустил — а где дамп найти можно — не подскажите?
На торрентах, 9,7 Gb
P.S. «подскажЕте»
P.S. «подскажЕте»
Помню что была magnet ссылка. Где уже не помню, да и удалили уже скорее всего. Они сейчас пытаются быстро прикрывать места распространения. Нашел через гугл.
https://mywuwj5f76usg7eo.onion.to/stuff/impact-team-ashley-release.html
Рост у них возможно в футах и дюймах задаётся.
А ещё на картинке где дата рождения, у вас гистограммы как-то странно сдвинуты отностительно друг друга.
А ещё на картинке где дата рождения, у вас гистограммы как-то странно сдвинуты отностительно друг друга.
Судя по гистограмме, рост всё же в сантиметрах. Вес в граммах.
По поводу даты рождения — не вижу ничего странного. Сдвиг гистограммы как раз показывает разный возрастной состав групп платил/не платил
По поводу даты рождения — не вижу ничего странного. Сдвиг гистограммы как раз показывает разный возрастной состав групп платил/не платил
Присмотритесь повнимательнее. В правой части положение столбиков совпадает, а в левой они съехали на полстолбика. Предполагаю что ошибка в коде построения гистограммы.
> Ваши предложения?
Попробовать логистическую регрессию вместо RandomForest и сравнить результаты.
Попробовать логистическую регрессию вместо RandomForest и сравнить результаты.
Интересная статья.
А вы не пробовали разделять мужчин и женщин? ИМХО сильно влияет на данные, я думаю это может объяснить почему те, кто ниже и легче, платят реже.
А вы не пробовали разделять мужчин и женщин? ИМХО сильно влияет на данные, я думаю это может объяснить почему те, кто ниже и легче, платят реже.
Попробовал только что, принципиально разницы нет. По весу та же тенденция тяжелые женщины платят охотнее)
По возрасту — тоже аналогично. Женщин вообще около 12%, они не сильно влияют на общую картину.
Выложил дамп DataFrame для желающих поиграться самостоятельно.
По возрасту — тоже аналогично. Женщин вообще около 12%, они не сильно влияют на общую картину.
Выложил дамп DataFrame для желающих поиграться самостоятельно.
А ботов вы не исключили из выборки?
Интересная статья, спасибо! А в чем преимущества использования joblib для хранения данных?
Честно говоря не особо сравнивал с другими вариантами.
Как-то сразу начал использовать joblib после прочтения scikit-learn.org/stable/modules/model_persistence.html
Недавно попробовал pickle — в несколько раз дольше, объем также вырос в несколько раз.
Кстати, про joblib.dump: никто случайно не сталкивался с проблемой в ipython notebook?
Сохраняю tuple (X1,y1,X2,y2) с помощью joblib.dumb из одного ноутбука. Читаю из следующего — X1 и X2 пустые.
Без ipython notebook всё ОК.
Как-то сразу начал использовать joblib после прочтения scikit-learn.org/stable/modules/model_persistence.html
Недавно попробовал pickle — в несколько раз дольше, объем также вырос в несколько раз.
Кстати, про joblib.dump: никто случайно не сталкивался с проблемой в ipython notebook?
Сохраняю tuple (X1,y1,X2,y2) с помощью joblib.dumb из одного ноутбука. Читаю из следующего — X1 и X2 пустые.
Без ipython notebook всё ОК.
Sign up to leave a comment.
Зaчем мне AshleyMadison, если я не курю?