• Zotero hacks: unlimited synced storage and its smooth use with rmarkdown

    • Tutorial
    Here is a bit refreshed translation of my 2015 blog post. The post shows how to organize a personal academic library of unlimited size for free. This is a funny case of a self written manual which I came back to multiple times myself and many many more times referred my friends to it, even non-Russian speakers who had to use Google Translator and infer the rest from screenshots. Finally, I decided to translate it adding some basic information on how to use Zotero with rmarkdown.


    A brief (and hopefully unnecessary for you) intro of bibliographic managers


    Bibliographic manager is a life saver in everyday academic life. I suffer almost physical pain just thinking about colleagues who for some reason never started using one — all those excel spreadsheets with favorite citations, messy folders with PDFs, constant hours lost for the joy-killing task of manual reference list formatting. Once you start using a reference manager this all becomes a happily forgotten nightmare.

    Read more →
  • Сборник демографических рассказов в одной карте

      fig0


      В свежем номере журнала The Lancet опубликована моя статья — любопытная карта и небольшое к ней пояснение. Решил рассказать об этом на Хабре, поскольку есть надежда, что реализованный способ визуализации данных может пригодиться еще кому-то.


      Kashnitsky, I., & Schöley, J. (2018). Regional population structures at a glance. The Lancet, 392(10143), 209–210. https://doi.org/10.1016/S0140-6736(18)31194-2

      Собственно, вот карта в высоком разрешении (кликабельно).


      fig1


      Карту можно воспроизвести точь-в-точь за несколько минут, код на гитхабе.


      Данные создают цвета

      Читать дальше →
    • HABR coin

        Дорогие Разработчики Хабра,


        Прочитав пост об интернационализации Хабра спешу поделиться светлой (как мне кажется) мыслью. Уверен, что я не первый, кто ее в том или ином виде высказывает (ну просто не может такого быть), но сам нигде не натыкался


        UPD

        Пошел внимательно читать комментарии — и наткнулся на этот (Bumkin)


        Мое предложение отвечает на раздел поста "Привлечение инвестиций".


        На мой взгляд, Хабру нужна своя криптовалюта


        Читать дальше →
      • Добыча данных в R

          Этот пост — перевод трех частей серии Data acquisition in R из моего англоязычного блога. Исходная серия задумана в четырех частях, три из которых легли в основу данного поста: Использование подготовленных наборов данных; Доступ к популярным статистическим БД; Демографические данные; Демографические данные. В еще не написанной заключительной части речь пойдет об использовании пространственных данных.




          R заточен под воспроизводимость результатов. Существует множество прекрасных решений, обеспечивающих сопоставимость версий системы и пакетов, помогающих применять принципы literate programming… Я же хочу показать, как можно легко и эффективно находить/скачивать/добывать данные, используя собственно R и документируя каждый шаг, что обеспечивает полную воспроизводимость всего процесса. Разумеется, я не ставлю перед собой задачи перечислить все возможные источники данных и фокусирую внимание в основном на демографических данных. Если ваши интересы лежат вне сферы статистики населения, стоит посмотреть в сторону великолепного проекта Open Data Task View.


          Для иллюстрации использования каждого из источников информации я привожу пример визуализации полученных данных. Каждый пример кода задуман как самостоятельная единица — копируйте и воспроизводите. Разумеется, сперва необходимо установить требуемые пакеты. Весь код целиком лежит тут.

          Читать дальше →
          • +21
          • 9.8k
          • 7
        • Соавторство на Хабре


            Наверное, у каждого из нас рождается множество мелких усовершенствований, которые так хотелось бы видеть на любимом тематическом ресурсе. Значительное количество таких предложений, спорных и не очень, было размещено в специально созданном репозитории на github (см. также пост limonte, посвященный этому). Для небольших вещей такой подход хорош (хотя, судя по всему, пациент скорее мертв, чем жив). У меня же действительно большое предложение.




            Соавторство статей



            Читать дальше →
          • R, GIS и fuzzyjoin: восстанавливаем статистические данные для регионов NUTS

              В этом посте речь пойдет о том, как я восстанавливал демографические данные для регионов Дании, где после реформы территориального устройства 2007 года официальной гармонизации данных не проводилось. Это лишь небольшая часть гармонизации евростатовских данных, которую я выполнил в рамках своего phd проекта. Пост сперва опубликован в моем англоязычном блоге и в блоге Demotrends. Думаю, что он может быть интересен далеко не только демографам.


              Что такое NUTS?


              NUTS расшифровывается как Nomenclature of Territorial Units For Statistics. Это стандартизированная система административно-территориального деления, принятая странами Евросоюза. История вопроса уходит в 1970-е, когда родилась идея сделать регионы различных стран Европы сопоставимыми. В более или менее законченном и широко употребимом виде система появилась лишь на рубеже веков. Существуют три основных уровня NUTS (см. рис. 1), и наиболее распространенным в региональном анализе оказывается NUTS-2.


              fig1
              Рисунок 1. Иллюстрация принципа выделения регионов NUTS различного иерархического уровня

              Читать дальше →
            • Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2]



                R код (gist) для воспроизведения всех результатов


                В первой части, подхваченный вдохновением и желанием проверить гипотезы сразу, я проанализировал взаимосвязь между соотношением полов и распространенностью убийств в странах Европы. Результаты не подтвердили моих ожиданий. Похоже, что во многом страны Европы напоминают регионы одной страны со своей периферией и своими центрами.


                В следующей итерации своего скептицизма, результаты которого вы можете прочитать ниже, я проверяю свою гипотезу на данных американских графств, как и авторы исходной статьи.


                Коротко о гипотезе

                Если вам лень заглянуть в первую часть статьи, то вот кратко суть. Авторы опубликованного в журнале Human Nature исследования утверждают, что соотношения полов во взрослом населении влияет на распространенность тяжких преступлений (в частности, убийств): чем больше женщин, тем больше и преступлений. Я по-прежнему думаю, что все дело в упущенной переменной — центральность/периферийность (urban/rural) — которая и должна объяснять как повышенную долю женщин в городах, так и большее количество преступлений в них.


                Убедительно подтвердить свои догадки на простеньких европейских данных мне не удалось. Попробуем на подробных американских.


                Читать дальше →
                • +18
                • 8.4k
                • 6
              • Женщины и убийства: есть ли тут взаимосвязь? [часть 1 из 2]



                  UPD Добавил R код (gist) для воспроизведения всех результатов


                  Исследование, недавно опубликованное в престижном научном журнале Human Nature, обнаружило, что преобладание женщин сопряжено с более высокой преступностью. Вывод сильно противоречит житейскому представлению о том, что где мужчины, там и преступления. Однако он находит поддержку в сравнительно молодых теориях формирования брачных рынков.


                  Несмотря на стройность использованных в исследовании методов, мне кажется, в нем упущена важная переменная, возможно, ключевая. Было бы прекрасно проверить на тех же данных, но авторы их не публикуют приложением к статье, а собрать самостоятельно — довольно большая работа. Пока решил пойти другим путем — устранить проблемную переменную из дизайна исследования.


                  Я проверил, наблюдается ли подобная закономерность в Европе на уровне стран. Заинтересованных прошу под кат.


                  Немного об этом посте не слишком хабровского формата

                  Изначально мое внимание к исследованию привлек пост в блоге демографа Бориса Денисова. В дискуссии с ним же родилась идея проверить закономерность на странах Европы. Проверил. Результаты интересные. И стал думать, где опубликовать. В очередной раз пришел к выводу, что лучше хабра варианта нет. Понимаю, что тема, вероятно, заинтересует меньшую часть аудитории сообщества. И все же я надеюсь на доброжелательное отношение и ценные комментарии — очень хочется услышать мнения "со стороны". Что касается категоризации статьи — думаю, на хабре не помешал бы хаб (или даже поток) "Академия" (писал от этом раньше в комментарии).


                  В свое оправдание могу сказать, что те, кому не интересна демография, найдут в этом посте R код, позволяющий в автоматическом режиме скачать данные о населении из двух прекрасных баз данных — Eurostat и Human Mortality Database и воспроизвести все графики, включая и карты. (Ссылка на код в конце статьи)

                  Читать дальше →
                • Развернутый комментарий к статьям «Систематизация публикаций в web»


                    Источник изображения


                    На днях Владимир Скляр (@Vladimir_Sklyar) опубликовал два материала об академическом сегменте интернета: раз и два. Начал писать комментарий… и увлекся. В итоге пишу очень развернутый комментарий.


                    Во-первых, хочу поблагодарить Владимира за любопытные материалы и поднятую тему. Мне, делающему первые шаги в академическом мире, она очень интересна и кажется важной (хотя и понимаю, что для всего хабра эта тема не самая значимая).


                    Несмотря на радость от прочтения материала, замечательный стиль и емкие обобщения (мне очень понравился раздел "В чем причина такого невнимания к этой важной составляющей научной работы?"), осталось ощущение колоссальной недораскрытости темы. На мой взгляд, Владимир затронул лишь самую верхушку айсберга. Дальнейший комментарий разделю на дополнения и уточнения.

                    Читать дальше →
                  • Рост хоккеистов: анализируем данные всех чемпионатов мира в текущем веке




                      На днях завершился очередной чемпионат мира по хоккею.


                      За просмотром матчей родилась идея. Когда в перерывах телевизионная камера показывает уходящих в раздевалку игроков, трудно не заметить, насколько они огромные. На фоне тренеров, функционеров команд, сотрудников ледовой арены, журналистов или просто фанатов они, как правило, выглядят очень внушительно.


                      Вот, к примеру, восходящие звезды финского хоккея, Патрик Лайне и Александр Барков, вместе с преданными поклонниками

                      И я задался вопросами. Действительно ли хоккеисты выше обычных людей? Как изменяется рост хоккеистов со временем в сравнении с обычными людьми? Есть ли устойчивые межстрановые различия?

                      Читать дальше →
                    • swirl: стремительное погружение в R (learning by doing)

                      • Tutorial


                      Еще каких-нибудь полтора года назад я был одним из тех, кто убежденно говорил «Нет, программирование — это точно не для меня». Не рискну сказать, что я стал программистом, но за последний год R заменил мне большинство повседневных программ для работы. Я работаю исследователем. С интересом наблюдаю, как постепенно R становится стандартом в академическом мире. В общем, в мире ширится понимание того, что с компьютером имеет смысл общаться чуть свободнее, чем на уровне программ click&drag. Так, совсем недавно Медуза писала о том, что не все прогеры девственники программирование стоит изучать гораздо более широкому кругу людей, чем всегда было принято считать.

                      В этом посте я расскажу об одном из самых коротких путей к программированию — изучении R с помощью специального пакета swirl (пакет в R — это то же, что во многих других языках называется библиотекой, расширение/дополнение исходного функционала). Пост рассчитан на читателя с нулевым знанием R, заинтересованного в изучении этого языка программирования; он поможет, как мне кажется, максимально эффективно и безболезненно сделать первые шаги в темный лес программирования.

                      Почему именно R?
                      Короткий ответ: потому что только этим я могу поделиться, других языков программирования не знаю.

                      Развернутый ответ: R — универсальный инструмент, который может пригодиться очень широкому кругу специалистов. Это полностью открытый и очень динамично развивающийся проект с кучей вдохновенных последователей по всему миру. Каждый может написать свой пакет и выложить в открытом доступе (это действительно не очень сложно). R предоставляет безграничные возможности для визуализации данных. Чтобы вдохновиться, можно заглянуть в одну из галерей (например, вот или вот). Возможности анализа данных безграничны. Только чтобы обратить внимание на самое впечатляющее, предлагаю взглянуть на этот пост.

                      На Хабре довольно много публикаций с использованием R. Есть и посты о самом языке, например шпаргалка R. Много любопытного можно вычитать из текста человека, заставшего R чуть ли не у самых истоков.

                      Для исследователя R — это просто must.

                      Читать дальше →
                    • Zotero: оптимизация хранения и использования научной литературы



                      Не буду распространяться о преимуществах использования библиографических менеджеров. На дворе 2015 год. Тема не раз обсуждалась на Хабре.

                      Здесь подробно описываются все прелести использования библиографического менеджера на примере Mendeley (это один из главных конкурентов Zotero, сравнение позже в этой статье). Здесь любопытно представлена система Citavi. Вроде бы, все в ней неплохо, но платить за софт приличные деньги, когда есть прекрасные бесплатные аналоги — развлечение на любителя. Кстати, от души рекомендую почитать комментарии к этой статье — познавательнее иных опусов. Здесь автор библиографического менеджера SciRef предлагает получить программку бесплатно.

                      Существует огромное множество различных библиографических менеджеров (см. таблицу в подвале, источник).

                      Сравнительная таблица библиографических менеджеров



                      Разумеется, при таком многообразии глупо говорить об одном идеальном решении. В этой статье я хочу рассказать вам о решении, которым пользуюсь и которое устраивает меня почти полностью. Как видно из названия статьи, это Zotero.
                      Читать дальше →
                      • +9
                      • 23.4k
                      • 4