Pull to refresh

Comments 26

>«охотнее платят те кто больше весит»,… «Высокие платят немного охотнее»

Не охотнее, а так же, как и остальные. У вас графики показывают статистику веса и роста, а не статистику желаний.
Допустим клиентов с весом более 80 кг 50% из тех кто не платил и 70% из тех кто платил, разве это не означает «охотнее платят те кто больше весит»?
Не понял. Можно ещё раз для тех, кто не дружит с математикой?
Берем всех кто не платил. Смотрим какое кол-во из них весит более 80 кг. Допустим это 50% (у нас примерно так и есть судя по гистограмме)
Берем всех кто платил. Смотрим какое кол-во из них весит более 80 кг. Получается около 70%.
Итого у нас 50% людей с весом более 80 кг среди не платящих и 70% среди платящих. Вывод — люди с весом > 80кг платят охотнее.
Не прозрачнее ли взять просто всех и разделить сначала по весу? Получится, пусть, две группы — до 80 и более 80 (что, на мой взгляд, само по себе не показатель, нужно ещё учитывать рост и возраст). После этого посчитать сколько в каждой группе плативших/неплативших. Или здесь «от перемены мест слагаемых сумма не меняется»?
7-летние дети охотнее идут в первый класс нежели 20-летние.
Платить могут не только лишь все, не все высокие могут это делать более не эффективно, чем не весящие больше.
Что-то я пропустил — а где дамп найти можно — не подскажите?
Помню что была magnet ссылка. Где уже не помню, да и удалили уже скорее всего. Они сейчас пытаются быстро прикрывать места распространения. Нашел через гугл.
Спасибо — нашёл, просто часть уже была не рабочая. На бухте точно ещё есть рабочая раздача в данный момент.
https://mywuwj5f76usg7eo.onion.to/stuff/impact-team-ashley-release.html
Рост у них возможно в футах и дюймах задаётся.

А ещё на картинке где дата рождения, у вас гистограммы как-то странно сдвинуты отностительно друг друга.
Судя по гистограмме, рост всё же в сантиметрах. Вес в граммах.

По поводу даты рождения — не вижу ничего странного. Сдвиг гистограммы как раз показывает разный возрастной состав групп платил/не платил
Присмотритесь повнимательнее. В правой части положение столбиков совпадает, а в левой они съехали на полстолбика. Предполагаю что ошибка в коде построения гистограммы.
А, вы про это, тут всё нормально.
Просто минимальные значения для 2 выборок разные, а кол-во столбцов одинаковое.
Вот и получатся смещение.
> Ваши предложения?

Попробовать логистическую регрессию вместо RandomForest и сравнить результаты.
Интересная статья.

А вы не пробовали разделять мужчин и женщин? ИМХО сильно влияет на данные, я думаю это может объяснить почему те, кто ниже и легче, платят реже.
Попробовал только что, принципиально разницы нет. По весу та же тенденция тяжелые женщины платят охотнее)
По возрасту — тоже аналогично. Женщин вообще около 12%, они не сильно влияют на общую картину.
Выложил дамп DataFrame для желающих поиграться самостоятельно.
Не, я имел ввиду что женщины обычно легче и меньше ростом. И я предположил что женщины будут платить менее охотно, ибо соотношение мужчин и женщин на этом ресурсе 1:10
Нет, не пробовал. А по каким критериям предлагаете их исключать?
Интересная статья, спасибо! А в чем преимущества использования joblib для хранения данных?
Честно говоря не особо сравнивал с другими вариантами.
Как-то сразу начал использовать joblib после прочтения scikit-learn.org/stable/modules/model_persistence.html
Недавно попробовал pickle — в несколько раз дольше, объем также вырос в несколько раз.
Кстати, про joblib.dump: никто случайно не сталкивался с проблемой в ipython notebook?
Сохраняю tuple (X1,y1,X2,y2) с помощью joblib.dumb из одного ноутбука. Читаю из следующего — X1 и X2 пустые.
Без ipython notebook всё ОК.
Sign up to leave a comment.

Articles