Спасибо за статью, пандас нужно продвигать в массы :)
Вы, конечно, схитрили — самое то интересное как разбираться с дырками до 1970 года :) На вкус и цвет, как известно, фломастеры разные, и пандас тем и хорош, что позволяет делать похожие вещи разными способами. Позволю себе другой вариант генерации дат, который на мой взгляд выглядит проще и понятнее:
pd.date_range('1970','2016', freq='A')
даст результат похожий на ваш, только даты будут привязаны к концу года. Однако в данном случае при работе с годами это не так важно, пандас будет воспринимать год просто как одну точку для анализа. Вот если вы ресемплинг будете делать внутри годов, то тут это уже будет иметь значение. Если очень хочется привязаться к середине года, то можно использовать freq='BAS-JUN'.
Если вы имеете в виду статистические модели, то да, пока с ними не всё хорошо, хотя ребята из statsmodels работают над этим (там, кстати, и ARIMA есть). Конечно у R большое легаси и существует масса специализированных пакетов, которые могут делать с данными почти всё, что угодно. Для чистых статистиков R ещё долго будет оставаться главным инструментом.
Однако 90% времени работы с данными (по крайней мере в моей области) это форматирование, нахождение среднего и сложение. С этим пандас, на мой взгляд, справляется лучше R, поскольку синтакс там сделан для людей :) Ну а если что-то из R сильно захочется использовать, вплоть до графики, всегда можно это сделать не вылезая из ipython notebook :)
Посмотрел первую лекцию. Видно, что преподаватель болеет за свой топик, и рассказывает хорошо. Думаю, что во многом помогает то, что говорит он перед живой аудиторией. Многие преподаватели на курсере записывают лекции в студии, и они от этого получаются немного суховатыми. Записался, попробую следить. Я так понимаю это первый курс где авторы наши соотечественники (хоть и работающие в США)?
Спасибо за статью. Было бы действительно здорово иметь больше информации на русском про pandas в частности и обработку данных в питоне в общем. Жаль, что говоря о pandas, вы не упомянули об ipython notebook, поскольку именно в нём эта библиотека раскрывается полностью. Она задумывалась больше как интерактивный инструмент, и интеграция с ноутбуком (ну или на худой конец просто с ipython) позволяет быстро создавать графику и смотреть на табицы в удобном виде. Если использовать её просто как замену базе данных, смысл несколько теряется :)
Wes McKinney, автор pandas, давал прекрасный туториал по анализу временных рядов при помощи своей библиотеки на SpiPy 2012 pyvideo.org/video/1198/time-series-data-analysis-with-pandas. Там три часа, но их стоит посмотреть все, если вы действительно занимаетесь интерактивным анализом данных :) Также у него есть замечательная книга, которая не только про пандас, но про весь джентельменский набор необходимый для анализа и визуализации данных в питоне — «Python for Data Analysis». В сети находится на раз, но и стоит сравнительно не дорого :)
Ноутбук прекрасно работает с русским, например nbviewer.ipython.org/4964582. Русскоязычной аудитории было бы тоже интересно ваш код прямо из статьи запускать, а не копипастить )
А у вас нет желания оформить этот, туториал, явно расчитанный на аудиторию занимающуюся исследованиями, в виде IPython notebook? Уже есть впечатляющая коллекция подобных ноутбуков c «академическими» примерами рассчётов в Python: github.com/ipython/ipython/wiki/A-gallery-of-interesting-IPython-Notebooks
У вас слишком оптимистичное восприятие реальности, на мой взгляд :)
Ну и к тому же, можно смотреть на cmass не просто как на агрегатор, а как на авторскую выборку постов. У этого есть свои плюсы и минусы.
Основной минус — всё делается ручками.
Плюс — попадает в ленту только то, что по мнению редакторов подпадает под определение «научного блогинга». Кто-то может быть не согласен с нашим выбором, в таком случае у нас висит список блогов из которых мы выбираем посты и каждый может самостоятельно сворганить себе френдленту по вкусу :)
Да не сработает это — будут забывать, будут ставить на что ни попадя, будут стесняться ставить. Ну и правда, людей пишущих про науку в блогах раз два и обчёлся, так что особого труда фильтрация не составляет.
А, я понял, что вы имеете в виду. Проблема в том, что всех ставить теги не заставишь, поэтому приходится ручками выбирать интересное. В принципе процесс не сильно отличается от чтения френдленты в ЖЖ, так что это не сложно. Единственно не всегда редакторы могут проверять ленту ежедневно, и часть постов в агрегатор вообще не попадает.
Там есть RSS для разных тем cmass.ru/rss/ Но на самом деле проще подписаться на ленту со всеми постами — в русскоязычной блогосфере, к сожалению, в день не так много хороших постов о науке, или даже постов просто относящихся к науке появляется.
Агрегатор по блогам (в основмном ЖЖ) есть — cmass.ru. Он не шибко умный, то есть посты добавляются в ручном режиме, но с задачей более-менее справляется.
Самая большая проблема это, конечно, хороший ведущий. Все остальное это надуманные трудности — студия делается из гостиной с диваном, любая современная камера баксов за 200-300 обеспечит вам неплохую картинку, со светом тоже не много заморочек.
Я это все к тому что не стоит думать как довольно многочисленная часть наших сограждан что «пока я не куплю оборудования штук на пять баксов подкасты или видео я записывать не начну» ) Главное чтобы контент был интересный, а оборудование дело наживное )
По основному вашему вопросу — мне кажется что заниматься переводами тех подкастов — это ненужная трата времени. Успех переводов сериалов обусловлен тем что они интересны довольно широкой публике. Технологически подкованные товарищи, которым интересна тематика той же Техзиллы, обычно достаточно знают английский для того чтобы смотреть программы в оригинале. Лучше потратить ваши ресурсы на создание собственного шоу, вот это было бы круто, пусть изначально оно и копировало бы зарубежные.
Посмотрел первый эпизод Tekzilla, может я чего не понимаю но самым дорогим показалась заставка ) Кирпичная стена, страшный стол, не загримированные ведущие )
Плюс зачем начинать с получасового шоу? Сделать что-то качественное, но небольшое, минут на 5-10.
github.com/ivanov/bipython
Правда только в консоли.
«спасся челоке(1) „
“Для загрузим тестовую»
Вы, конечно, схитрили — самое то интересное как разбираться с дырками до 1970 года :) На вкус и цвет, как известно, фломастеры разные, и пандас тем и хорош, что позволяет делать похожие вещи разными способами. Позволю себе другой вариант генерации дат, который на мой взгляд выглядит проще и понятнее:
pd.date_range('1970','2016', freq='A')
даст результат похожий на ваш, только даты будут привязаны к концу года. Однако в данном случае при работе с годами это не так важно, пандас будет воспринимать год просто как одну точку для анализа. Вот если вы ресемплинг будете делать внутри годов, то тут это уже будет иметь значение. Если очень хочется привязаться к середине года, то можно использовать
freq='BAS-JUN'
.По сборкам — есть ещё canopy от enthought.
Однако 90% времени работы с данными (по крайней мере в моей области) это форматирование, нахождение среднего и сложение. С этим пандас, на мой взгляд, справляется лучше R, поскольку синтакс там сделан для людей :) Ну а если что-то из R сильно захочется использовать, вплоть до графики, всегда можно это сделать не вылезая из ipython notebook :)
github.com/ipython/ipython/wiki/A-gallery-of-interesting-IPython-Notebooks
Ну и к тому же, можно смотреть на cmass не просто как на агрегатор, а как на авторскую выборку постов. У этого есть свои плюсы и минусы.
Основной минус — всё делается ручками.
Плюс — попадает в ленту только то, что по мнению редакторов подпадает под определение «научного блогинга». Кто-то может быть не согласен с нашим выбором, в таком случае у нас висит список блогов из которых мы выбираем посты и каждый может самостоятельно сворганить себе френдленту по вкусу :)
Я это все к тому что не стоит думать как довольно многочисленная часть наших сограждан что «пока я не куплю оборудования штук на пять баксов подкасты или видео я записывать не начну» ) Главное чтобы контент был интересный, а оборудование дело наживное )
По основному вашему вопросу — мне кажется что заниматься переводами тех подкастов — это ненужная трата времени. Успех переводов сериалов обусловлен тем что они интересны довольно широкой публике. Технологически подкованные товарищи, которым интересна тематика той же Техзиллы, обычно достаточно знают английский для того чтобы смотреть программы в оригинале. Лучше потратить ваши ресурсы на создание собственного шоу, вот это было бы круто, пусть изначально оно и копировало бы зарубежные.
Плюс зачем начинать с получасового шоу? Сделать что-то качественное, но небольшое, минут на 5-10.