Comments / Profile of selesnow / Habr

Алексей Селезнёв@selesnow

Руководитель отдела аналитики в Netpeak

116

Subscribers

ProfileArticles37Posts1NewsComments54

dplyr 1.0.0 опубликован на CRAN: Видео обзор новых возможностей и произошедших в нём изменений

selesnow Jun 3 2020 at 08:19

Нашел в NEWS, ранее rowwise() присутствовала в пакете, но считалась экспериментальной функцией.

dplyr 1.0.0 опубликован на CRAN: Видео обзор новых возможностей и произошедших в нём изменений

selesnow Jun 2 2020 at 19:41

Честно говоря вроде была, но я её толком не использовал ранее, а Хедли её рассматривал в одной из статей посвященных пререлизу dplyr 1.0.0, и по этой статье был снят один из обзоров.

Язык R для пользователей Excel (бесплатный видео курс)

selesnow May 6 2020 at 06:36

Благодарю, уже исправил эту опечатку.

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

selesnow Mar 17 2020 at 10:34

Понял.

Если вы сейчас берётесь за активное изучение R, то есть пара хороших, и при этом бесплатных курсов на stepic.org.

Также могу порекомендовать книгу Хедли Викхема "Язык R в задачах науки о данных". В ней довольно подробна описана инфраструктура tidyverse. Если позволяет уровень английского, то она есть в бесплатном онлайн доступе на англ языке — https://r4ds.had.co.nz/. Перевод тоже есть, но платный.

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

selesnow Mar 17 2020 at 10:12

Спасибо за комментарий, рад, что статья оказалась для вас полезной.

А какие задачи планируете решать с помощью R, в какой сфере работаете? Академические исследования, биоинформатика, интернет — маркетинг, или ещё что-то другое?

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

selesnow Mar 17 2020 at 09:57

Спасибо за комментарий, циклы в R, да и в Python вроде тоже, довольно медленные.

Попробуйте вместо циклов в R использовать что то из семества функций apply(), sapply(), lapply(), vapply(). Или пакет purrr.

В pandas тоже есть аналоги, apply(), map(), applymap().

И в теле цикла не используйте операции вертикального объединения типа rbind() и bind_rows(), лучше результат каждой итерации добавлять в заранее определённый список, и по завершению работы цикла привести его уже с помощью того же bind_rows() в табличный вид.

Думаю такой подход ускорит ваш код.

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

selesnow Mar 17 2020 at 06:11

Спасибо за комментарий.

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

selesnow Mar 16 2020 at 11:09

Согласен, подредактирую пункт про ООП в статье.

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

selesnow Mar 16 2020 at 10:39

Спасибо.
Про S4 и R6 я отдельную публикацию планирую, просто пока руки не дошли.

Цель этой статьи была упростить миграцию между Python и К в плане синтаксиса, т.е. не столько сравнение языков и их производительности, как миграция между ними.

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

selesnow Mar 16 2020 at 09:06

Благодарю за комментарий. И отдельное спасибо за то, что напомнили про индексы, сейчас добавлю эту информацию в статью.

Работа с датами на языке R (базовые возможности, а также пакеты lubridate и timeperiodsR)

selesnow Mar 12 2020 at 10:37

Можно попробовать тестово через планировщик запустить и принтов добавить, потом глянуть лог как он отображает имена месяцев / дней и т.д..

В принципе проблему кодировки можно решить, например в начало скрипта добавить Sys.setlocale("LC_CTYPE", "russian").

Или на худой конец при сравнение кодировать через iconv().

Я не особо силён в английском, но у них вроде нет склонений, поэтому и сомневаюсь, что какими то стандартными способами это можно в R реализовать, разве что какой то API использовать русскоязычный для склонения.

Работа с датами на языке R (базовые возможности, а также пакеты lubridate и timeperiodsR)

selesnow Mar 12 2020 at 09:20

Честно говоря так сразу затрудняюсь ответить, попробую найти решение, как найду отпишусь тут.

Первое что в голову пришло просто создать справочник склонений, и просто заменять как текст.

Работа с датами на языке R (базовые возможности, а также пакеты lubridate и timeperiodsR)

selesnow Nov 27 2019 at 06:31

Спасибо, отличная идея. В ближайшее время допишу статью.

Работа с датами на языке R (базовые возможности, а также пакеты lubridate и timeperiodsR)

selesnow Nov 26 2019 at 18:38

Добрый день, подскажу:

library(lubridate)
as.numeric(as.duration("1w 2d 3h"), "hours")

[1] 219

as.duration создаёт объект класса durations. Который с помощью as.numeric легко переводится в число, равное количеству временных отрезков заданное во втором аргументе.

Работа с датами на языке R (базовые возможности, а также пакеты lubridate и timeperiodsR)

selesnow Nov 26 2019 at 10:12

Спасибо за комментарий!

timeperiodsR это мой пакет, я его в сентябре только опубликовал на CRAN.

Зачем я его написал, потому, что мне надоело копипастить часть кода для определения отчётного периода, в 90% случаев это прошлый месяц или прошлая неделя. И я решил для этого создать удобный пакет.

Потом решил, что удобно будет ещё и проверку периода с фильтрацией добавить, и дописал в пакет несколько операторов.

Если интересно вот ссылка на виньетку, на опечатки в ней прошу пока особо внимания не обращать, в следующей редакции всё исправлю.

Взаимодействие R с базами данных на примере Microsoft SQL Server и других СУБД

selesnow Jul 31 2019 at 08:36

Спасибо за комментарий.
Я думал над тем, что бы добавить в эту статью информацию про dbplyr. В любом случае, либо добавлю в сюда эту инфу, либо напишу продолжение отдельной статьёй.

Взаимодействие R с базами данных на примере Microsoft SQL Server и других СУБД

selesnow Jul 29 2019 at 08:58

Спасибо за комментарий и замечание, убрал из текста «реляционные».

ООП в языке R (часть 1): S3 классы

selesnow Jun 4 2019 at 08:18

Спасибо за дополнение и комментарий, немного позже попробую добавить эту информацию в статью.

ООП в языке R (часть 1): S3 классы

selesnow Jun 4 2019 at 06:49

Благодарю, добавлю эту инфу в статью.

Получение статистики по всем клиентам из API Яндекс Директ в разрезе дней с помощью Python

selesnow May 28 2019 at 13:17

Python вообще язык широкого назначения, т.е. он даёт возможность придумать и написать какой нибудь веб сервис например, есть такое.
А для отправки в BigQuery на R есть пакет Викхема bigrquery)