Pull to refresh
74
0

Разработчик

Send message
Я думал над этим, но решил все-таки сделать оформление как в предыдущих статьях. Если интересует ipython notebook файл можно взять у меня на github'e: TKCBankPredict.ipynb
Возможно, как-то не подумал об этом. Но после написания поста я продолжил эксперимент и понял, что Embarked и Fare вообще не нужны, а модель для классификации будет такой:

RandomForestClassifier(n_estimators = 80, max_features='auto', criterion='entropy',max_depth=4)

После данных манипуляций точность получилась 0.78947. Но в любом случае спасибо за подсказку.
Задача заняла 545 и 919. Насколько я знаю на данный момент указанные алгоритмы из sklearn могут работать только с числовыми значениями.
В дальнейшем планирую написать аналогичную статью про задачу распознования символов также с Kaggle.
Большое спасибо за пояснения :)
То, что все эти примеры с легкостью решаются с sql сомнений нет и загрузить их туда тоже можно разными способами. Это лишь элементарные примеры. Например визуализацию в sql не сделаешь. И не очень удобно загружать файлы в базу особенно если их штук 15. Кроме того в pandas также можно загружать в наборы данных не только xls, но и xlsx. Или же сводную таблицу, насколько я знаю, средствами sql тоже не составишь.
Жаль, что говоря о pandas, вы не упомянули об ipython notebook
Спасибо за комментарий в следующих статьях постараюсь исправиться, здесь я хотел написать именно про самый базовый функционал. Про среду разработки и интеграцию с ipython постараюсь написать отдельную статью.
На мой взгляд, ipython+pandas+mathplotlib — это замена R для знающих Python.
По существу сборки типа Anaconda или Python(x,y) неплохо справляются с этим.
12 ...
10

Information

Rating
Does not participate
Registered
Activity