Comments / Profile of kuznetsovin / Habr

Разработчик

Пример решения задачи кредитного скоринга c помощью связки python+pandas+scikit-learn

kuznetsovin Dec 3 2013 at 10:46

Я думал над этим, но решил все-таки сделать оформление как в предыдущих статьях. Если интересует ipython notebook файл можно взять у меня на github'e: TKCBankPredict.ipynb

Look

Основы анализа данных на python с использованием pandas+sklearn

kuznetsovin Nov 14 2013 at 13:13

Спасибо поправил

Look

Основы анализа данных на python с использованием pandas+sklearn

kuznetsovin Nov 14 2013 at 13:12

Возможно, как-то не подумал об этом. Но после написания поста я продолжил эксперимент и понял, что Embarked и Fare вообще не нужны, а модель для классификации будет такой:

RandomForestClassifier(n_estimators = 80, max_features='auto', criterion='entropy',max_depth=4)

После данных манипуляций точность получилась 0.78947. Но в любом случае спасибо за подсказку.

Look

Основы анализа данных на python с использованием pandas+sklearn

kuznetsovin Nov 14 2013 at 07:34

Задача заняла 545 и 919. Насколько я знаю на данный момент указанные алгоритмы из sklearn могут работать только с числовыми значениями.
В дальнейшем планирую написать аналогичную статью про задачу распознования символов также с Kaggle.

Look

Введение в визуализацию данных при анализе с помощью Pandas

kuznetsovin Oct 12 2013 at 11:01

Большое спасибо за пояснения :)

Look

Введение в анализ данных с помощью Pandas

kuznetsovin Oct 10 2013 at 16:49

То, что все эти примеры с легкостью решаются с sql сомнений нет и загрузить их туда тоже можно разными способами. Это лишь элементарные примеры. Например визуализацию в sql не сделаешь. И не очень удобно загружать файлы в базу особенно если их штук 15. Кроме того в pandas также можно загружать в наборы данных не только xls, но и xlsx. Или же сводную таблицу, насколько я знаю, средствами sql тоже не составишь.

Look

Введение в анализ данных с помощью Pandas

kuznetsovin Oct 10 2013 at 08:38

Жаль, что говоря о pandas, вы не упомянули об ipython notebook

Спасибо за комментарий в следующих статьях постараюсь исправиться, здесь я хотел написать именно про самый базовый функционал. Про среду разработки и интеграцию с ipython постараюсь написать отдельную статью.

Look

Введение в анализ данных с помощью Pandas

kuznetsovin Oct 10 2013 at 07:59

На мой взгляд, ipython+pandas+mathplotlib — это замена R для знающих Python.

По существу сборки типа Anaconda или Python(x,y) неплохо справляются с этим.

Look

1 2 ...

8 9