Pull to refresh

Comments 15

Хорошая тема, и на русском почти ничего нет — пишите еще!
Очень интересно было бы почитать про анализ временных рядов в pandas.
Wes McKinney, автор pandas, давал прекрасный туториал по анализу временных рядов при помощи своей библиотеки на SpiPy 2012 pyvideo.org/video/1198/time-series-data-analysis-with-pandas. Там три часа, но их стоит посмотреть все, если вы действительно занимаетесь интерактивным анализом данных :) Также у него есть замечательная книга, которая не только про пандас, но про весь джентельменский набор необходимый для анализа и визуализации данных в питоне — «Python for Data Analysis». В сети находится на раз, но и стоит сравнительно не дорого :)
На мой взгляд, ipython+pandas+mathplotlib — это замена R для знающих Python. Список с pydata.org только подтверждает наблюдение.

Столкнулся с Pandas в рамках курса «Computational Investing». Там автор пишет (и продвигает) свою собственную библиотеку с pydata.org-тулзами под капотом. В запуске курса от 2012 года были накладки организационного характера и неплотная подача материала, но если нужен повод попробовать инструмент, то это вариант.
На мой взгляд, ipython+pandas+mathplotlib — это замена R для знающих Python.
По существу сборки типа Anaconda или Python(x,y) неплохо справляются с этим.
В целом, да. Однако же я встречал вещи, которые есть в R, но которых нет (или они очень криво имплементированы) в питоне… Например, многое, что связано с анализом временных рядов
Можно пример, если не сложно? :)
Например, модель ARIMA и ей подобные
Если вы имеете в виду статистические модели, то да, пока с ними не всё хорошо, хотя ребята из statsmodels работают над этим (там, кстати, и ARIMA есть). Конечно у R большое легаси и существует масса специализированных пакетов, которые могут делать с данными почти всё, что угодно. Для чистых статистиков R ещё долго будет оставаться главным инструментом.

Однако 90% времени работы с данными (по крайней мере в моей области) это форматирование, нахождение среднего и сложение. С этим пандас, на мой взгляд, справляется лучше R, поскольку синтакс там сделан для людей :) Ну а если что-то из R сильно захочется использовать, вплоть до графики, всегда можно это сделать не вылезая из ipython notebook :)
Спасибо за статью. Было бы действительно здорово иметь больше информации на русском про pandas в частности и обработку данных в питоне в общем. Жаль, что говоря о pandas, вы не упомянули об ipython notebook, поскольку именно в нём эта библиотека раскрывается полностью. Она задумывалась больше как интерактивный инструмент, и интеграция с ноутбуком (ну или на худой конец просто с ipython) позволяет быстро создавать графику и смотреть на табицы в удобном виде. Если использовать её просто как замену базе данных, смысл несколько теряется :)
Жаль, что говоря о pandas, вы не упомянули об ipython notebook
Спасибо за комментарий в следующих статьях постараюсь исправиться, здесь я хотел написать именно про самый базовый функционал. Про среду разработки и интеграцию с ipython постараюсь написать отдельную статью.
Для тех, кому английский не помеха есть книга Python for Data Analysis с целой главой посвященной Pandas.
Да и вообще рекомендую всю книгу к прочтению. Много примеров. Хотя похоже, что перевода этой книги еще нет.
Буквально недавно тоже заморочился на целый рабочий день.
Нужно было заглатывать большие xls файлы, как-то их обрабатывать и сливать в Mongo или sql`ную базу.
Однако, так и не увидел ничего, что нельзя было бы сделать в SQLной БД.
Все приведенные примеры с неимоверной легкостью решаются в мускуле или пг.
Просто вместо read_csv — load data infile…
Ну и в способности sql окучить табличку длиной миллионов в 20 записей сомнений нет. А вот насчет Pandas — есть, хоть я и не пробовал 8-)
Единственная удобная тема — чтение экселевых файлов, но это и xlrd делает. Точнее, Pandas в вопросах xls — надстройка над xlrd.
Короче, не придумал, зачем бы оно было нужно = забил.
То, что все эти примеры с легкостью решаются с sql сомнений нет и загрузить их туда тоже можно разными способами. Это лишь элементарные примеры. Например визуализацию в sql не сделаешь. И не очень удобно загружать файлы в базу особенно если их штук 15. Кроме того в pandas также можно загружать в наборы данных не только xls, но и xlsx. Или же сводную таблицу, насколько я знаю, средствами sql тоже не составишь.
Было бы лучше, если добавить описание установки пакета и озвучить в начале, какая версия Python используется в примерах.
Sign up to leave a comment.

Articles