ssh1 Sep 11 2015 at 07:48

Зaчем мне AshleyMadison, если я не курю?

5 min

31K

Big Data * Data Mining * Mathematics * Machine learning * Programming *

+19

Comments 26

samodum Sep 11 2015 at 08:42

>«охотнее платят те кто больше весит»,… «Высокие платят немного охотнее»

Не охотнее, а так же, как и остальные. У вас графики показывают статистику веса и роста, а не статистику желаний.

ssh1 Sep 11 2015 at 08:58

Допустим клиентов с весом более 80 кг 50% из тех кто не платил и 70% из тех кто платил, разве это не означает «охотнее платят те кто больше весит»?

samodum Sep 11 2015 at 09:29

Не понял. Можно ещё раз для тех, кто не дружит с математикой?

ssh1 Sep 11 2015 at 09:49

Берем всех кто не платил. Смотрим какое кол-во из них весит более 80 кг. Допустим это 50% (у нас примерно так и есть судя по гистограмме)
Берем всех кто платил. Смотрим какое кол-во из них весит более 80 кг. Получается около 70%.
Итого у нас 50% людей с весом более 80 кг среди не платящих и 70% среди платящих. Вывод — люди с весом > 80кг платят охотнее.

askbow Sep 11 2015 at 11:08

Не прозрачнее ли взять просто всех и разделить сначала по весу? Получится, пусть, две группы — до 80 и более 80 (что, на мой взгляд, само по себе не показатель, нужно ещё учитывать рост и возраст). После этого посчитать сколько в каждой группе плативших/неплативших. Или здесь «от перемены мест слагаемых сумма не меняется»?

FractalizeR Sep 11 2015 at 11:51

Почему-то эта дискуссия напомнила мне о влиянии количества пиратов на глобальное потепление…

AgentSmith Sep 11 2015 at 15:42

7-летние дети охотнее идут в первый класс нежели 20-летние.

SkanerSoft Sep 11 2015 at 16:11

Платить могут не только лишь все, не все высокие могут это делать более не эффективно, чем не весящие больше.

AndersonDunai Sep 13 2015 at 00:20

… мало кто может…

Nord001 Sep 11 2015 at 09:35

Что-то я пропустил — а где дамп найти можно — не подскажите?

samodum Sep 11 2015 at 09:44

На торрентах, 9,7 Gb

P.S. «подскажЕте»

ssh1 Sep 11 2015 at 09:45

Помню что была magnet ссылка. Где уже не помню, да и удалили уже скорее всего. Они сейчас пытаются быстро прикрывать места распространения. Нашел через гугл.

Nord001 Sep 11 2015 at 13:02

Спасибо — нашёл, просто часть уже была не рабочая. На бухте точно ещё есть рабочая раздача в данный момент.

UFO landed and left these words here

encyclopedist Sep 11 2015 at 10:03

Рост у них возможно в футах и дюймах задаётся.

А ещё на картинке где дата рождения, у вас гистограммы как-то странно сдвинуты отностительно друг друга.

ssh1 Sep 11 2015 at 10:07

Судя по гистограмме, рост всё же в сантиметрах. Вес в граммах.

По поводу даты рождения — не вижу ничего странного. Сдвиг гистограммы как раз показывает разный возрастной состав групп платил/не платил

encyclopedist Sep 11 2015 at 10:10

Присмотритесь повнимательнее. В правой части положение столбиков совпадает, а в левой они съехали на полстолбика. Предполагаю что ошибка в коде построения гистограммы.

ssh1 Sep 11 2015 at 10:15

А, вы про это, тут всё нормально.
Просто минимальные значения для 2 выборок разные, а кол-во столбцов одинаковое.
Вот и получатся смещение.

dimview Sep 11 2015 at 13:32

> Ваши предложения?

Попробовать логистическую регрессию вместо RandomForest и сравнить результаты.

nikmaster Sep 11 2015 at 17:47

Интересная статья.

А вы не пробовали разделять мужчин и женщин? ИМХО сильно влияет на данные, я думаю это может объяснить почему те, кто ниже и легче, платят реже.

ssh1 Sep 11 2015 at 18:04

Попробовал только что, принципиально разницы нет. По весу та же тенденция тяжелые женщины платят охотнее)
По возрасту — тоже аналогично. Женщин вообще около 12%, они не сильно влияют на общую картину.
Выложил дамп DataFrame для желающих поиграться самостоятельно.

nikmaster Sep 12 2015 at 05:50

Не, я имел ввиду что женщины обычно легче и меньше ростом. И я предположил что женщины будут платить менее охотно, ибо соотношение мужчин и женщин на этом ресурсе 1:10

ComodoHacker Sep 11 2015 at 22:41

А ботов вы не исключили из выборки?

ssh1 Sep 14 2015 at 17:03

Нет, не пробовал. А по каким критериям предлагаете их исключать?

Stas911 Sep 14 2015 at 16:54

Интересная статья, спасибо! А в чем преимущества использования joblib для хранения данных?

ssh1 Sep 14 2015 at 17:10

Честно говоря не особо сравнивал с другими вариантами.
Как-то сразу начал использовать joblib после прочтения scikit-learn.org/stable/modules/model_persistence.html
Недавно попробовал pickle — в несколько раз дольше, объем также вырос в несколько раз.
Кстати, про joblib.dump: никто случайно не сталкивался с проблемой в ipython notebook?
Сохраняю tuple (X1,y1,X2,y2) с помощью joblib.dumb из одного ноутбука. Читаю из следующего — X1 и X2 пустые.
Без ipython notebook всё ОК.