Как стать автором

R *

Язык для статистической обработки данных

СтатьиПостыНовостиАвторыКомпании

selesnow 3 июн 2019 в 07:36

ООП в языке R (часть 1): S3 классы

10 мин

12K

ООП * R * Data Mining *

Туториал

R — это объектно ориентированный язык. В нём абсолютно всё является объектом, начиная от функций и заканчивая таблицами.

В свою очередь, каждый объект в R относится к какому-либо классу. На самом деле, в окружающем нас мире ситуация примерно такая же. Мы окружены объектами, и каждый объект можно отнести к классу. От класса зависит набор свойств и действий, которые с этим объектом можно произвести.

Читать дальше →

+12

demche 1 июн 2019 в 16:55

Занимательная археология: стилевое руководство R под лупой

6 мин

4.3K

R * История IT

Из песочницы

Как известно, код читают намного чаще, чем пишут. Чтобы его мог читать хоть кто-то, кроме автора, и существуют стилевые гиды. Для R таковым может быть, например, руководство Хэдли.

Стилевой гид это не просто негласный договор разработчиков – за многими из правил стоит любопытная предыстория. Почему стрелка <- лучше знака равенства =, почему старожилы R не любят нижнее подчеркивание, как рекомендуемая длина строки связана с перфокартой, и о многом другом – далее.

Читать дальше →

+22

AristarXXXX 1 июн 2019 в 10:46

Ежедневные отчёты по состоянию виртуальных машин с помощью R и PowerShell

18 мин

11K

Microsoft SQL Server * PowerShell * R * Виртуализация *

Туториал

Из песочницы

Вступление

День добрый. Уже пол года у нас работает скрипт (точнее набор скриптов), генерирующий отчёты по состоянию виртуальных машин (и не только). Решил поделиться опытом создания и самим кодом. Рассчитываю на критику и на то, что данный материал может быть кому-то полезным.

Читать дальше →

+22

m31 24 мая 2019 в 08:59

Data Science Digest (May 2019)

2 мин

3.3K

Машинное обучение * Искусственный интеллектR * Data Mining * Big Data *

Хабр, привет!

В прошлом выпуске я рассказывал, что для дайджеста запустил Telegram-канал, а сегодня хочу поделиться новостью, что также завел для него страницы в facebook, twitter, LinkedIn. Приглашаю всех присоединяться к ним.

Кроме этого сегодня мы опубликовали дайджест на Product Hunt, кто знает, что это — те в курсе, что необходимо делать ;)

А пока предлагаю свежую подборку материалов под катом.

Читать дальше →

+11

ph_piter 21 мая 2019 в 09:07

Книга «Искусство программирования на R. Погружение в большие данные»

8 мин

5.1K

Блог компании Издательский дом «Питер»Профессиональная литература * R *

Привет, Хаброжители! Многие пользователи используют R для конкретных задач — тут построить гистограмму, там провести регрессионный анализ или выполнить другие отдельные операции, связанные со статистической обработкой данных. Но эта книга написана для тех, кто хочет разрабатывать программное обеспечение на R. Навыки программирования предполагаемых читателей этой книги могут лежать в широком спектре — от профессиональной квалификации до «Я проходил курс программирования в колледже», но ключевой целью является написание кода R для конкретных целей. (Глубокое знание статистики в общем случае не обязательно.)

Несколько примеров читателей, которые могли бы извлечь пользу из этой книги:

Аналитик (допустим, работающий в больнице или в правительственном учреждении), которому приходится регулярно выдавать статистические отчеты и разрабатывать программы для этой цели.
Научный работник, занимающийся разработкой статистической методологии — новой или объединяющей существующие методы в интегрированные процедуры. Методологию нужно закодировать, чтобы она могла использоваться в сообществе исследователей.
Специалисты по маркетингу, судебному сопровождению, журналистике, издательскому делу и т. д., занимающиеся разработкой кода для построения сложных графических представлений данных.
Профессиональные программисты с опытом разработки программного обеспечения, назначенные в проекты, связанные со статистическим анализом.
Студенты, изучающие статистику и обработку данных.

Читать дальше →

+14

Alexey_mosc 7 мая 2019 в 13:32

Моя численная проверка гипотезы «Абсолютных курсов»

4 мин

3.7K

Data Mining * R *

Туториал

Привет, Хабр!

Мне показалась интересной данная публикация: Получаем абсолютные курсы из парных кросс-курсов валют и я захотел проверить возможность найти этот аааабсолютный курс валюты через численное моделирование, вообще отказавшись от линейной алгебры.

Результаты получились интересными.

Читать дальше →

+11

fokus-lop 25 апр 2019 в 12:22

10 полезных фич R, о которых вы могли не знать

5 мин

11K

Блог компании SkillboxУчебный процесс в ITПрограммирование * R *

Перевод

В R полным-полно самых разных функций. Ниже я приведу десять самых интересных из них, о которых многие могли не знать. Статья появилась после того, как я обнаружил, что мои рассказы о некоторых возможностях R, которые я использую в работе, восторженно воспринимаются знакомыми программистами. Если вы и так знаете об этом всё, то прошу прощения за потраченное время. В то же время, если есть чем поделиться — посоветуйте что-то полезное в комментариях.

Читать дальше →

+29

selesnow 23 апр 2019 в 06:35

Как ускорить работу с API на языке R с помощью параллельных вычислений, на примере API Яндекс.Директ (Часть 2)

19 мин

3.4K

Яндекс API * Параллельное программирование * R * Data Mining * Проектирование API *

Туториал

В прошлой статье я рассказал о том, что такое многопоточность, и привёл примеры её реализации на языке R при работе с API Яндекс.Директ с помощью пакетов doSNOW, doParallel и конструкции foreach.

Данная статья является продолжением, но может быть рассмотрена как автономное руководство по многопоточности в R. К её написанию меня подтолкнули комментарии полученные к первой части (тут отдельная благодарность Alexey_mosc, SatCat, Ananiev_Genrih), в которых мне привели ряд пакетов, представляющих более современный подход к реализации многопоточности в R, о них далее и пойдёт речь.

Многопоточность

Читать дальше →

+10

i_shutov 22 апр 2019 в 07:37

Швейцарский нож для обработки json

4 мин

6K

Big Data * Data Mining * R *

Как эффективно работать с json в R?

Является продолжением предыдущих публикаций.

Читать дальше →

+10

i_shutov 22 апр 2019 в 07:19

Как начать применять R в Enterprise. Пример практического подхода

2 мин

2.7K

Big Data * Data Mining * R *

Публикация по выступлению на секции R meetup @ Moscow Data Science Major (Spring 2019).
Вся презентация в pdf формате.

Почему этот вопрос актуален?

Бизнес-кейсы различны, техническая суть одинакова

Аналитика работы колл-центра
Аналитика продаж, включая прогнозы
Антифрод системы
Business process mining
Различные аудиты (технические, финансовые)
Складские и логистические задачи
Activity-based costing
Business-process monitoring
Log-based аналитика
Capacity management
Текстовая аналитика (e-mail, service-desk)
"Гибкие" дашборды и отчеты
"интеллектуальные шины" между учетными системами (1С, СКУД, SAP, ...) и исполнительными
...

Является продолжением предыдущих публикаций.

Читать дальше →

+10

m31 16 апр 2019 в 09:39

Data Science Digest (April 2019)

2 мин

3.9K

Big Data * Data Mining * R * Искусственный интеллектМашинное обучение *

Хабр, привет!

В марте я восстановил публикацию на Хабре дайджеста посвященного ML и Data Science. Сегодня я подготовил свежую подборку интересных ссылок, а также анонсирую запуск Telegram-канала дайджеста, в котором ежедневно публикую ссылки на интересные материалы, связанные с AI & ML. Приглашаю всех присоединяться к нему. А пока предлагаю свежую подборку материалов под катом.

Читать дальше →

+7

fokus-lop 5 апр 2019 в 14:33

Создаем анимированные гистограммы при помощи R

4 мин

7.9K

Блог компании SkillboxR * Обработка изображений * Программирование * Учебный процесс в IT

Перевод

Анимированные гистограммы, которые можно встроить прямо в публикацию на любом сайте, становятся все более популярными. Они отображают динамику изменений любых характеристик за определенное время и делают это наглядно. Давайте посмотрим, как их создать при помощи R и универсальных пакетов.

Читать дальше →

+29

ogurtsov 25 мар 2019 в 16:09

Quick Draw Doodle Recognition: как подружить R, C++ и нейросетки

32 мин

6.9K

Блог компании Open Data ScienceОбработка изображений * Машинное обучение * Базы данных * R *

Привет, Хабр!

Осенью прошлого года на Kaggle проходил конкурс по классификации нарисованных от руки картинок Quick Draw Doodle Recognition, в котором среди прочих поучаствовала команда R-щиков в составе Артема Клевцова, Филиппа Управителева и Андрея Огурцова. Подробно описывать соревнование не будем, это уже сделано в недавней публикации.

С фармом медалек в этот раз не сложилось, но было получено много ценного опыта, поэтому о ряде наиболее интересных и полезных на Кагле и в повседневной работе вещей хотелось бы рассказать сообществу. Среди рассмотренных тем: нелегкая жизнь без OpenCV, парсинг JSON-ов (на этих примерах рассматривается интеграция кода на С++ в скрипты или пакеты на R посредством Rcpp), параметризация скриптов и докеризация итогового решения. Весь код из сообщения в пригодном для запуска виде доступен в репозитории.

Содержание:

Эффективная загрузка данных из CSV в базу MonetDB
Подготовка батчей
Итераторы для выгрузки батчей из БД
Выбор архитектуры модели
Параметризация скриптов
Докеризация скриптов
Использование нескольких GPU в облаке Google Cloud
Вместо заключения

Читать дальше →

+48

selesnow 21 мар 2019 в 09:53

R пакет tidyr и его новые функции pivot_longer и pivot_wider

18 мин

8.9K

Data Mining * R *

Туториал

Пакет tidyr входит в ядро одной из наиболее популярных библиотек на языке R — tidyverse.
Основное назначение пакета — приведение данных к аккуратному виду.

На Хабре уже есть публикация посвящённая данному пакету, но датируюется она 2015 годом. А я хочу рассказать, о наиболее актуальных изменениях, о которых несколько дней назад сообщил его автор Хедли Викхем.

SJK: Функции gather() и spread() будут считаться устаревшими?

Hadley Wickham: В какой то мере. Мы перестанем рекомендовать использование данных функций, и исправлять в них ошибки, но они и далее буду присутствовать в пакете в текущем состоянии.

Читать дальше →

+10

m31 1 мар 2019 в 09:03

Data Science Digest

3 мин

4.8K

Big Data * Data Mining * R * Искусственный интеллектМашинное обучение *

Хабр, привет!

Очень давно я вел на Хабре дайджест посвященный AI и BigData. Сейчас хочу восстановить его и раз в месяц делать подборку интересных материалов из области Data Science.

В январе я начал опрос дата-сайентистов об их рабочих инструментах. За это время в нем уже приняло участие больше 600 человек. До 3 марта в нем еще можно принять участие, если вы это еще не сделали. Опубликовать результаты я планирую в 10-х числах марта, а пока предлагаю свежую подборку материалов под катом.

Читать дальше →

+13

shokannn 28 фев 2019 в 12:36

Кластеризация беспроводных точек доступа с использованием метода k-средних

3 мин

2.8K

R * Визуализация данных *

Туториал

Recovery Mode

Визуализация и анализ данных в настоящее время широко применяется в телекоммуникационной отрасли. В частности, анализ в значительной степени зависит от использования геопространственных данных. Возможно, это связано с тем, что телекоммуникационные сети сами по себе географически разбросаны. Соответственно, анализ таких дисперсий может дать огромную ценность.

Читать дальше →

+12

i_shutov 21 фев 2019 в 13:04

Использование вычислительных возможностей R для проверки гипотезы о равенстве средних

4 мин

4K

Big Data * Data Mining * R *

Возникла недавно потребность решить вроде бы классическую задачу мат. статистики.
Проводится испытание определенного push воздействия на группу людей. Необходимо оценить наличие эффекта. Конечно, можно делать это с помощью вероятностного подхода.

Но рассуждать с бизнесом о нулевых гипотезах и значении p-value совершенно бесполезно и контрпродуктивно.

Как можно по состоянию на февраль 2019 года сделать это максимально просто и быстро имея под руками ноутбук «средней руки»? Заметка реферативная, формул нет.

Является продолжением предыдущих публикаций.

Читать дальше →

+19

i_shutov 18 фев 2019 в 09:51

Data Science «спецназ» собственными силами

8 мин

12K

Big Data * Data Mining * R *

Практика показывает, что многие enterprise компании сталкиваются с трудностью в реализации аналитических проектов.

Все дело в том, что, в отличии от классических проектов по поставке железа или внедрению вендорских решений, укладывающихся в линейную модель исполнения, задачи, связанные с продвинутой аналитикой (data science) очень трудно формализуются в виде четкого и однозначного ТЗ в виде достаточным для передачи исполнителю. Ситуация отягощается тем, что для реализации задачи требуется интеграция массы различных внутренних ИТ систем и источников данных, часть вопросов и ответов может появиться только после того, как начинается работа с данными и вскрывается реальное положение дел, сильно отличающееся от документальной картины мира. Это все означает, что для написания грамотного ТЗ необходимо провести предварительную часть работы сопоставимую с половиной проекта, посвященную изучению и формализации реальных потребностей, анализу источников данных, их связей, структуры и пробелов. В рамках организаций сотрудников, которые способны провернуть такую масштабную работу, практически не бывает. Вот и получается, что на конкурсы выкладывают совсем сырые требования. В лучшем случае конкурсы отменяются (отправляются на доработку) после цикла уточняющих вопросов. В худшем случае — за громадный бюджет и длинные сроки получается нечто, совершенно не похожее на планы авторов требований. И остаются они у разбитого корыта.

Разумной альтернативой является создания внутри компании команды data science (DS). Если не замахиваться на строительство египетских пирамид, то команда и 2-3 грамотных специалистов может сделать весьма и весьма много. Но тут возникает другой вопрос, как подготовить этих спецов. Ниже хочу поделиться набором успешно апробированных соображений по быстрой подготовке такого «спецназа» с R в качестве оружия.

Является продолжением предыдущих публикаций.

Читать дальше →

+25

Ananiev_Genrih 2 фев 2019 в 21:15

Пилим данные с комфортом

10 мин

2.9K

Доброго времени дня.

В реальной практике довольно часто сталкиваешься с задачами, далекими от сложных ML алгоритмов, но при этом являющихся не менее важными и насущными для бизнеса.
Поговорим об одной из них.

Задача сводится к тому что бы распределить (распилить, рассплитовать — жаргон бизнеса неиссякаем) данные какой-нибудь целевой таблицы с агрегатами (совокупные значения) на таблицу более детальной гранулярности.

Например коммерческому департаменту надо разбить годовой план, согласованный на уровне брендов — детально до продукции, маркетологам разбить годовой бюджет маркетинга по территориям страны, планово-экономическому департаменту разбить общехозяйственные издержки по центрам финансовой ответственности, и т.д. и т.п.

Если вы почувствовали что задачи подобные этой уже маячат перед вами на горизонте или уже относитесь к пострадавшим от таких задач, то прошу под кат.

Читать дальше →

+7

selesnow 23 янв 2019 в 07:54

Как ускорить работу с API на языке R с помощью параллельных вычислений, на примере API Яндекс.Директ (Часть 1)

11 мин

4.7K

Яндекс API * Параллельное программирование * R * Big Data * Проектирование API *

Язык R на сегодняшний день является одним из мощнейших и многофункциональных инструментов для работы с данными, но как мы знаем практически всегда, в любой бочке мёда найдётся ложка дёгтя. Дело в том, что R по умолчанию является однопоточным.

Скорее всего достаточно длительное время вас это не будет беспокоить, и вы вряд ли будете задаваться этим вопросом. Но к примеру если вы столкнулись с задачей сбора данных из большого количества рекламных аккаунтов из API, например Яндекс.Директ, то вы значительно, как минимум в два — три раза, можете сократить время на сбор данных используя многопоточность.

Читать дальше →

+17

1 2 ...

12

13 14 ...