Как стать автором
Обновить

Комментарии 19

Ну так сколько твитов из ~10k имели геотег?
Ну я так думаю, что количество твитов с новым годом гораздо больше 10 тыс, соответственно эти 10 тыс твитов и есть те что с геометками.
Видимо, невнятно выразился. ~10k — это уже с геотегом. Прочие не рассматривались. Посмотрел специально другие свои датасеты (где собиралось все) — тегирован где-то 1% твитов.
С видео это вы замечательно придумали. Сейчас на Coursera идет курс про R (пока первая неделя), я в числе слушателей. Статистика это, конечно, хорошо, и если раньше я думал, что там все сухо будет, то после этого поста у меня энтузиазма к прохождению курса значительно прибавилось.
Сейчас идет Introduction to data Analysis. Он достаточно простой, это скорее вступление в R. А вот осенний Statisitcs One — это был хардкор )
Да, syllabus там что надо, но в описании написано мол курс для всех, и background'а толком не надо никакого :)
Да, я тоже в числе слушателей. Надеюсь к концу курса осознать «дао *apply». Т.к. пока все очень туманно в этом вопросе.
А можете пояснить, почему сначала Вы скачиваете все python`ом, а потом обрабатываете в R. Ведь в python`е точно так же можно нарисовать карту, отобразить точки и тп. Единственный косяк с часами-придется повозится.
Это такой вариант самообразования. Из серии «а что еще можно сделать?» И да, с R я пока знаком значительно меньше, чем хотелось бы. А по поводу возможностей отрисовки в python — совершенно серьезный и насущный вопрос — чем бы Вы отрисовывали карту, точки (имеются в виду библиотеки)? Заранее спасибо!
Из любимых — есть очень интересный проект PyNGL.
Из попсы — matplotlib, там кстати вполне красиво получается.
Если нужна интерактивность, то тогда django+openlayers (если нужно все очень красиво Leaflet). Очень много с этим вожусь, поэтому нарисовать там карту с точками, полигонами, картинками и прочим, для меня будет быстрее, чем тот же matplotlib.
А для хардкора есть GRASS скрипты на python.
Спасибо большое! Попробую сегодня посмотреть-поизучать. Да, вариант «все_в_одном» (все в python), особенно при решении прикладной задачи был бы удобнее.
Да, забыл, в том же GGPlot`e на сколько я знаю проблемы с русскими подписями осей. Так что к выбору инструментов, нужно очень ответственно подходить.
А если не секрет, какая у Вас прикладная задача?
Кажется, я где-то читал о проблемах, но сам не столкнулся (гистограмма в тексте — подписи осей отобразились без проблем). В данном случае — прикладной задачи как таковой и нет. Если в более общем виде — то и круг задач получается общий: «возможности исследований в соцсетях, процессы происходящие там же и тенденции». Как-то так. Прошу прощения за такую неопределенность.
тогда Вам очень понравится вот это.
Судя по этому, данные по существующим странам и границам у basemap посвежее, чем у maps для R. Да, я все больше убеждаюсь, что pure python вариант был бы гораздо лаконичнее и проще. Надо будет как-нибудь попробовать.
Ну по сути всегда границы можно скачать отдельно и построить контурной картой. По крайней мере с береговой линией я раньше так и поступал.

И да я не в коем случае не отговариваю использовать R. И не ратую за Python. А то может сложиться не правильное впечатление :)
И да я не в коем случае не отговариваю использовать R.

И не отговорите :) IMHO, для каждой задачи — свой инструмент, и надо эти инструменты знать. Просто благодаря Вам я понял, что мой вариант не оптимальный, но по-прежнему интересный.
А у меня вопро по Twitter API, в чем преимущество библиотеки tweetstream, перед подходом когда requests + requests_oauthlib + oauth? Какие ограничения на количество запросов и получение твитов в вашем случае?
Именно указанным Вами вариантом я ни разу не пользовался. Я пробовал oauth2 или tweepy. Думаю, oauth2 ближе к описанному Вами варианту. Его я использую для взаимодействия с REST API. Видимо, Вы тоже, если спрашиваете про ограничение на количество запросов? Tweepy — «универсальный вариант». Обертка, позволяющая работать и с REST API, и со Streaming API (как в данном случае). Но у меня tweepy stream регулярно «отваливается» с 420 ошибкой (при единственном соединении). Возможно, это моя криворукость, но с tweetstream такой проблемы нет.
Tweetstream — только для Streaming API (без REST). Про количество запросов — в Streaming API такого понятия, насколько я понимаю, нет. Есть ограничение на количество соединений. И ограничение на объем потока — не больше, чем выдается по statuses/sample. Но это ограничение площадки (Twitter).
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории