Как стать автором

R *

Язык для статистической обработки данных

СтатьиПостыНовостиАвторыКомпании

qc-enior 16 апр 2017 в 13:05

Быстрая загрузка данных из файлов в R

3 мин

10K

Big Data * Data Mining * R * Высоконагруженные системы *

Перевод

Недавно мы писали приложение на Shiny, где нужно было использовать очень большой блок данных (dataframe). Это непосредственно влияло на время запуска приложения, поэтому пришлось рассмотреть ряд способов чтения данных из файлов в R (в нашем случае это были csv-файлы, предоставленные заказчиком) и определить лучший.

Цель этой заметки — сравнить:

read.csv из utils — стандартный способ чтения csv-файлов в R
read_csv из readr, который в RStudio заменил предыдущий метод
load и readRDS из base, и
read_feather из feather и fread из data.table.

Читать дальше →

+15

i_shutov 11 апр 2017 в 14:30

RStudio Connect — «фейслифтинг» Shiny для корпоративного применения

4 мин

5.8K

Big Data * Data Mining * R *

Прошло достаточно времени с упоминания в предыдущей публикации об использовании RStudio Connect в боевых условиях для того, чтобы поделиться результатами. Краткое резюме — «дайте два!». И подумайте про оптимизацию отдела «аналитиков». Ниже приведены подробности.

В качестве дополнительного чтения рекомендую взглянуть детальную публикацию «Data at GDS (Government Digital Service). Reproducible Analytical Pipeline» в блоге аналитической службы гос.органов UK по аналогичной теме.

Читать дальше →

+10

kxx 5 апр 2017 в 07:32

О линейной регрессии: байесовский подход к курсу рубля

9 мин

24K

Машинное обучение * Математика * Алгоритмы * R * Data Mining *

Не секрет, что курс рубля напрямую зависит от стоимости нефти (и от кое-чего еще). Этот факт позволяет строить довольно интересные модели. В своей статье о линейной регрессии я коснулся некоторых вопросов, посвященных диагностике модели, а за кадром остался такой вопрос: есть ли более эффективная, но не слишком сложная альтернатива линейной регрессии? Традиционно используемый метод наименьших квадратов прост и понятен, но есть и другие подходы ~~(не такие понятные)~~.

Читать дальше →

+32

ikashnitsky 3 апр 2017 в 15:43

R, GIS и fuzzyjoin: восстанавливаем статистические данные для регионов NUTS

12 мин

4.6K

Открытые данные * Геоинформационные сервисы * Визуализация данных * R * Data Mining *

В этом посте речь пойдет о том, как я восстанавливал демографические данные для регионов Дании, где после реформы территориального устройства 2007 года официальной гармонизации данных не проводилось. Это лишь небольшая часть гармонизации евростатовских данных, которую я выполнил в рамках своего phd проекта. Пост сперва опубликован в моем англоязычном блоге и в блоге Demotrends. Думаю, что он может быть интересен далеко не только демографам.

Что такое NUTS?

NUTS расшифровывается как Nomenclature of Territorial Units For Statistics. Это стандартизированная система административно-территориального деления, принятая странами Евросоюза. История вопроса уходит в 1970-е, когда родилась идея сделать регионы различных стран Европы сопоставимыми. В более или менее законченном и широко употребимом виде система появилась лишь на рубеже веков. Существуют три основных уровня NUTS (см. рис. 1), и наиболее распространенным в региональном анализе оказывается NUTS-2.

Рисунок 1. Иллюстрация принципа выделения регионов NUTS различного иерархического уровня

Читать дальше →

+16

i_shutov 29 мар 2017 в 06:26

«Пятый элемент» в экосистеме R. WYSIWYG интерфейс для аналитиков

2 мин

5.5K

R * Data Mining * Big Data *

Настоящая публикация, хоть и продолжает серию предыдущих, но будет совершенно краткой. И не в силу того, что материал скромный, но потому, что есть отличный первоисточник с массой текстов и видео.

Практика общения с аналитиками показала, что лаконичная консоль или лист программы в RStudio IDE как удобный инструмент начинает восприниматься людьми, воспитанными в подходе WYSIWYG, далеко не с первого дня. Продукты PowerBI\Tableau\Qlik, активно использующие этот подход, хорошо известны в российском информационном пространстве и зачастую аналитики пытаются соотнести R+Shiny с этими продуктами.

Читать дальше →

+8

tyamgin 22 мар 2017 в 11:56

История 3-го места на ML Boot Camp III

5 мин

13K

R * Машинное обучение * Программирование * Спортивное программирование *

Из песочницы

Недавно завершился контест по машинному обучению ML Boot Camp III от Mail.Ru.

Будучи новичком в machine learning мне удалось занять 3-е место. И в этой статье я постараюсь поделиться своим опытом участия.

Читать дальше →

+41

i_shutov 1 мар 2017 в 06:18

Тонкости R. Как минута час экономит

7 мин

8.7K

R * Data Mining * Big Data *

Довольно часто enterprise задачи по обработке данных затрагивают данные, сопровождаемые временной меткой. В R такие метки, обычно хранятся как класс POSIXct. Выбор методов работы с таким типом данных по принципу аналогии может привести к большому разочарованию и убеждению о крайней медлительности R. Хотя если взглянуть на эту чуть более пристально, то оказывается, что дело не совсем в R, а в руках и голове.

Ниже затрону пару кейсов, которые встретились в этом месяце и возможные варианты их решения. В ходе решения появляются весьма интересные вопросы. Заодно упомяну инструменты, которые оказываются крайне полезными для решения подобных задачек. Практика показала, что об их существовании знают немногие.

Читать дальше →

+17

i_shutov 17 фев 2017 в 09:51

R в enterprise задачах. Хитрости и трюки

7 мин

11K

Big Data * Data Mining * R *

Несмотря на то, что задачи рядового бизнеса очень часто далеки от популярной темы больших данных и машинного обучения и часто связаны с обработкой относительно малых объёмов информации [десятки мегабайт — десятки гигабайт], размазанной в произвольных представлениях по различным видам источников, применение R в качестве основного инструмента позволяет легко и элегантно автоматизировать и ускорить эти задачи.

И, естественно, после проведения анализа необходимо все это презентовать, для чего можно с успехом использовать Shiny. Далее я приведу ряд трюков и подходов, которые могут помочь в этой задачах. Уверен, что любой практикующий аналитик сможет легко добавить свои хитрости, все зависит от решаемого класса задач.

Читать дальше →

+23

ph_piter 30 янв 2017 в 07:37

Разница между статистикой и наукой о данных

8 мин

14K

Блог компании Издательский дом «Питер»Алгоритмы * R * Data Mining * Big Data *

Перевод

Здравствуйте, уважаемые читатели. Мы вновь попробуем посоветоваться с вами по поводу актуальности орейлевской новинки. На сей раз речь пойдет о статистике для Data Science.

Объем оригинала — 250 стр., дата выхода — 25 февраля.

В книге рассмотрены лаконичные кейсы с небольшим количеством графиков и примеров на языке R.

Чтобы размышлять и голосовать было интереснее — под катом найдете статью, автор которой попытался уловить и описать разницу между статистикой и Data Science

Читать дальше →

+16

Schvepsss 26 янв 2017 в 06:24

Разработка на R: тайны циклов

8 мин

21K

Блог компании MicrosoftПрограммирование * Машинное обучение * Алгоритмы * R *

Меньше недели назад в журнале Хакер вышла авторская версия материала, посвященного фичам при использовании циклов при разработке на R. По согласованию с Хакером, мы делимся полной версией первой статьи. Вы узнаете о том, как правильно писать циклы при обработке больших объемов данных.

Читать дальше →

+27

SergeyMarin 31 дек 2016 в 07:42

Школа Данных «Билайн»: с Наступающим

1 мин

7.7K

Блог компании билайн бизнесBig Data * Data Mining * R * Алгоритмы *

Итак, заканчивается 2016 год. Для нас он был очень активным. Было 6 выпусков нашего курса для аналитиков, 5 выпусков курса для менеджеров (Data-MBA). Мы запустили курс в Санкт-Петербурге и уже провели первый выпуск. В партнерстве мы также обучали студентов Высшей Школы Экономики и Российской Экономической Школы, проводили мастер-классы в Сколково, участвовали в десятках хакатонов по всей стране, консультировали ведущие компании касательно применения аналитики и монетизации данных. В этом году один из наших преподавателей стал первым в мире в рейтинге Kaggle.

Читать дальше →

+11

temujin 23 дек 2016 в 14:38

Распределение Пуассона и футбольные ставки

5 мин

107K

R * Алгоритмы * Математика * Программирование *

Если объединить статистические данные спортивных соревнований с распределением Пуассона, то можно рассчитать вероятное количество мячей, которые будут забиты во время футбольной игры. На этом основании можно понять откуда берутся букмекерские ставки, а также научиться самостоятельно их рассчитывать с помощью R.

ТМ 2.5 ТБ 2.5

+41

qc-enior 10 дек 2016 в 20:28

Отслеживание хода выполнения в R

4 мин

6.7K

R * Визуализация данных *

Перевод

Неважно, отдаем ли мы себе в этом отчет, но когда нужно подождать, мы волнуемся и сгораем от нетерпения. Особенно это касается ожидания «вслепую», т.е. когда неизвестно, сколько же еще придется мучиться. Как выяснил Брэд Аллан Майерс, считающийся изобретателем индикатора состояния в 1980-х, возможность отслеживать ход выполнения во время ожидания может значительно улучшить механизм взаимодействия пользователя с приложением (Майерс, 1985).

Типичный индикатор состояния от Simeon87 [GPL], Wikimedia Commons

Поскольку я программирую на R для исследований в биоинформатике, мой код обычно не для широкой публики, но все же важно, чтобы мои пользователи, то бишь коллеги и исследователи, были счастливы, насколько это возможно. Но отслеживание хода выполнения в R — не самая простая задача. В этой статье представлены несколько возможных решений, в том числе и мое собственное (pbmcapply).

Читать дальше →

+18

i_shutov 8 дек 2016 в 08:58

«До чего дошел прогRесс». Замена «умственного» труда механическим процессом на базе R

3 мин

10K

R * Data Mining * Big Data *

Каждый новый день зачастую подкидывает новые задачки. Не в смысле их радикальной новизны, а в смысле «еще одного типа задач», которые обычно встречаются в бизнес-окружении.

На этот раз задача оказалась предельно простая и прагматичная, но ее решение дает далеко идущие последствия.

Кейс

Суть задачи в следующем:

Читать дальше →

+15

tonytonov 30 ноя 2016 в 09:59

Низкоуровневая оптимизация и измерение производительности кода на R

8 мин

8.3K

R * Высоконагруженные системы * Программирование *

Из песочницы

За последнее десятилетие R прошёл большой путь: от нишевого (как правило, академического) инструмента до мейнстримной «большой десятки» самых популярных языков программирования. Такой интерес вызван многими причинами, среди которых и принадлежность к open source, и деятельное коммьюнити, и активно растущий сегмент применения методов machine learning / data mining в разнообразных бизнес-задачах. Приятно видеть, когда один из твоих любимых языков уверенно завоёвывает новые позиции, и когда даже далёкие от профессиональной разработки пользователи начинают интересоваться R. Но здесь есть, однако, одна большая проблема:

Какая же?

+22

Schvepsss 25 ноя 2016 в 06:26

data.table: выжимаем максимум скорости при работе с данными в языке R

9 мин

16K

Блог компании MicrosoftBig Data * Data Mining * R * Машинное обучение *

На эксклюзивных условиях представляем для вас полный вариант статьи из журнала Хакер, посвященной разработке на R. Под катом вы узнаете, как выжать максимум скорости при работе с табличными данными в языке R.

Читать дальше →

+25

kast218 24 ноя 2016 в 19:18

10 причин почему именно сейчас стоит попробовать Microsoft SQL Server

6 мин

45K

Microsoft Azure * Microsoft SQL Server * R * SQL *

Причина №1 — Microsoft SQL Server теперь работает и под Linux

16 ноября 2016 года Microsoft опубликовал первую публичную кросплатформенную версию SQL Server VNext, которая теперь работает и под Linux: Public preview of the next release of SQL Server — Bring the performance and security of SQL Server to Linux and Windows

Читать дальше →

+3

i_shutov 22 ноя 2016 в 14:24

Еще примеры использования R для решения практических бизнес-задач

6 мин

17K

Big Data * Data Mining * R *

С момента прошлой публикации пришлось примеряться к ряду различных задач, связанных тем или иным образом с обработкой данных. Задачи совершенно разные, но во всех случаях инструменты R позволили элегантно и эффективно их решить. Ниже, собственно, кейсы (картинок нет).

Читать дальше →

+14

ikashnitsky 11 ноя 2016 в 11:25

Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2]

6 мин

8.9K

Data Mining * R * Визуализация данных * Открытые данные *

R код (gist) для воспроизведения всех результатов

В первой части, подхваченный вдохновением и желанием проверить гипотезы сразу, я проанализировал взаимосвязь между соотношением полов и распространенностью убийств в странах Европы. Результаты не подтвердили моих ожиданий. Похоже, что во многом страны Европы напоминают регионы одной страны со своей периферией и своими центрами.

В следующей итерации своего скептицизма, результаты которого вы можете прочитать ниже, я проверяю свою гипотезу на данных американских графств, как и авторы исходной статьи.

Коротко о гипотезе

Если вам лень заглянуть в первую часть статьи, то вот кратко суть. Авторы опубликованного в журнале Human Nature исследования утверждают, что соотношения полов во взрослом населении влияет на распространенность тяжких преступлений (в частности, убийств): чем больше женщин, тем больше и преступлений. Я по-прежнему думаю, что все дело в упущенной переменной — центральность/периферийность (urban/rural) — которая и должна объяснять как повышенную долю женщин в городах, так и большее количество преступлений в них.

Убедительно подтвердить свои догадки на простеньких европейских данных мне не удалось. Попробуем на подробных американских.

Читать дальше →

+18

qc-enior 10 ноя 2016 в 08:56

Создание интерактивных графиков с R и Highcharts

6 мин

7.6K

Data Mining * R * Визуализация данных *

Туториал

Перевод

Иногда в попытках решить простые задачи приходят в голову великие идеи. Это особенно верно для разработчиков, которые готовы приложить массу усилий для решения простой проблемы к полному своему удовлетворению. Эта история о том, как Торстейн Хенси, основатель и СРО Highcharts искал простой инструмент для создания графиков, чтобы поместить на свою домашнюю страницу замеры глубины снега на Викафьеллет, местной горе, где у семьи был коттедж. Разочаровавшись в обычных flash-расширениях и коммерческих решениях, доступных на тот момент, он решил создать собственное и, конечно же, им поделиться.

Для создания красивых графиков в этой статье я воспользуюсь пакетом highcharter Джошуа Кунста, оболочкой для javascript-библиотеки Highcharts и Shiny.

Пожалуйста, учтите, что все продукты в этой библиотеке бесплатны для некоммерческого использования. Для коммерческих проектов и сайтов воспользуйтесь этим.

Читать дальше →

+13

1 2 ...

16

17 18 ...