R *

Язык для статистической обработки данных

Статьи Посты Новости Авторы Компании

i_shutov 1 дек 2021 в 09:06

Забираем большие маленькие данные по REST API

6 мин

7.9K

Python*Data Mining*API*R*

Кадр из мультфильма «Смешарики: 132 серия (Пылесос)»

При проведении различной ad-hoc аналитики или же создания интеграций между DS решением и внешними системами очень часто приходится использовать REST API для получения данных. Ситуация, когда все помещается в один запрос — идеальна, но редка как единорог. Как правило, приходится тянуть большие объемы, тянуть по частям и в режиме многоходовок, возможно, с использованием курсоров. Внешняя система может лечь при большой нагрузке или же там включатся механизмы пропуска запросов (троттлинг). Вопросы «почему у меня не работает» и «как мне сделать, чтобы работало» возникают с завидной регулярностью.

Ниже приведен блочный разбор типового скрипта для получению данных из внешней системы через REST API. Его можно рассматривать как первое приближение решения задачи подобного класса.

Является продолжением серии предыдущих публикаций.

Читать дальше →

i_shutov 30 ноя 2021 в 12:38

Data Science 'по ту сторону изгороди'

14 мин

5.2K

Python*Data Mining*Big Data*R*

Кадр из мультфильма «Over the Garden Wall» (2014)

Большое количество курсов по аналитике данных и питону создает впечатление, что «два месяца курсов, пандас в руках» и ты data science специалист, готовый порвать любую прямоугольную задачу.

Однако, изначально просто счёт относился к computer science, а data science было более широким и междисциплинарным понятием. В классическом понимании data scientist — «T-shape» специалист, который оцифровывает и увязывает административные и предметные вертикали/горизонтали компаний через математические модели.

Далее немного иллюстрирующих примеров.

Является продолжением серии предыдущих публикаций.

Читать дальше →

vectorplus 27 ноя 2021 в 17:28

Войти вайти в 37 лет, личный опыт

11 мин

47K

R*Машинное обучение*Искусственный интеллектTensorFlow*Биология

Сейчас мне сорок пять, и я наконец получил нормальную фултайм позицию аналитика данных. У меня первый диплом - Провизор по специальности Фармация. Я успел поработать таксистом, разнорабочим на складе лекарственных трав, заготовщиком, владельцем цеха металлообработки и одновременно рабочим в этом цеху. Был фармацевтом за кассой, заместителем заведующей аптекой, владельцем аптеки. Никогда не думал, что буду работать в IT, хотя всегда интересовался этой темой.

В школе у нас был компьютерный класс...

+52

propulsive 19 ноя 2021 в 15:23

Вычисляем возраст Вселенной в R

3 мин

7.7K

R*Научно-популярноеАстрономия

Из песочницы

В 1929 году американский астроном Эдвин Хаббл обнаружил, что галактики удаляются друг от друга. Поделив расстояние между ними на скорость удаления, можно вычислить, как давно они были в одной точке. Это грубая оценка возраста Вселенной. Попробуем вычислить возраст Вселенной с помощью R.

selesnow 9 ноя 2021 в 11:45

Заметки по языку R | Часть 1: Построение нетипичных диаграмм, и подписи данных в ggplot2

5 мин

4.7K

Data Mining*Big Data*R*Визуализация данных*Data Engineering*

Туториал

В ноябре 2018 года я запустил телеграм канал R4marketing. Канал посвящён языку R, посты канала разделены по рубрикам, одна из таких рубрик "Заметки по R". В эту рубрику входят небольшие публикации, с интересным или полезными советами по использованию R.

Этой статьёй я начинаю серию публикаций состоящих из подборок наиболее полезных заметок канала R4marketing.

Первая статья будет посвящена визуализации данных.

acheremuhin 7 ноя 2021 в 20:59

Взглянем на квантильную регрессию

4 мин

Материал напоминает основы квантильной регрессии и посвящен обзору идеи, лежащей в основе недавно вышедшего пакета "conquer", а также его апробации при работе с реальными данными.

BogdanPetrov 11 окт 2021 в 16:50

Выбираем логин на Яндекс.Почте

7 мин

23K

Python*Математика*R*

Из песочницы

Много лет назад я зарегистрировал себе несколько трех- и четырехсимвольных адресов на Яндекс.Почте. Они оказались очень удобными, потому что их легко писать и диктовать, особенно вместе с доменом ya.ru.

Спустя время решил проверить, остались ли еще свободные короткие адреса и есть ли среди них какие-то поинтересней. Я предполагал, что сейчас уже ничего подобного не найти. Но когда начал вбивать разные варианты в форму на странице регистрации, то понял, что шансы пока есть. Не удовлетворившись парой выпавших логинов, решил комплексно изучить вопрос.

В статье вы найдете все, что вряд ли хотели знать, но теперь имеете отличную возможность узнать, о формате и количестве логинов Яндекса, а также датасет, с помощью которого сможете попробовать разобраться с «6-q» аномалией (у меня не получилось).

+11

kizill 1 окт 2021 в 13:09

Путь, который занял 100* лет: встречаем CatBoost 1.0.0

5 мин

20K

Блог компании ЯндексOpen source*R*Машинное обучение*Распределённые системы*

Всем привет. Меня зовут Станислав Кириллов, я работаю в команде, которая отвечает за развитие библиотеки машинного обучения CatBoost. Мы впервые поделились ей с сообществом четыре года назад — хотя мы привыкли строить бинарные деревья, поэтому и отсчёт лет предпочитаем вести так же. Это шутка, конечно, но «столетие» — хороший повод для выпуска первой «production ready» версии библиотеки с символичным номером 1.0.0.

Сегодня я кратко отвечу, почему мы считаем выпуск версии 1.0.0 важной вехой, и подсвечу главные изменения (и в новой версии, и в целом за год). А уже завтра выступлю с рассказом на встрече, которая будет целиком и полностью посвящена практике применения CatBoost и противостоянию нейросетей и градиентного бустинга. Если эти слова для вас что-то значат, то добро пожаловать под кат.

Читать дальше →

+58

i_shutov 17 сен 2021 в 15:54

process mining: 100 строк кода и генератор логов у нас в руках

9 мин

Python*Data Mining*R*Бизнес-модели*

Продакт-менеджерам посвящается...

Заступая на территорию proccess mining, каждый участник рано или поздно будет нуждаться в наборе логов событий, отражающих те или иные специфические моменты в процессах. Эти логи нужны как на этапе демонстрации решения, подсвечивания определенных вопросов, так и для отработки алгоритмов или же тестов на производительность. Оба рекомендуемых сценария «взять с продуктивных систем» или «взять из интернета» терпят фиаско. Как правило, это очень
малые датасеты, слабо удовлетворяющие потребностям как по наполнению, так и по объему.

Остается вариант — написать генератор правдоподобных логов самостоятельно. Тут тоже есть два варианта.

Вариант первый — превратить эту задачу в универсальный монстроподобный продукт, содержащий визуальный конструктор в нотации BPMN 2.0, всевозможные визуальные конструкторы формул и атрибутов, полноценную имитационную машину под капотом. Годы работы, миллионы на ветер, на выходе — файл с логами. КПД близок к нулю.
Вариант второй — отнестись к этой задаче как к вспомогательной и создать инструментами data science стека упрощенный генератор в 100 строк кода.

Остановимся далее на втором варианте.

Является продолжением серии предыдущих публикаций.

Читать дальше →

acheremuhin 14 сен 2021 в 20:11

Скучно, просто и ограниченно — все это изотоническая регрессия

3 мин

4.1K

Обзор пакета cir о достаточно специфическом виде регрессии - изотонической. По сути дела, это больше изотоническая интерполяция, но раз авторы сказали "регрессия" - пусть будет регрессия.

selesnow 9 сен 2021 в 10:51

Обзор R пакетов для интернет маркетинга, часть 2

5 мин

2.1K

API*R*Интернет-маркетинг*Контекстная реклама*Data Engineering*

Туториал

Первой моей публикацией на Хабре была "Обзор R пакетов для интернет маркетинга, часть 1", с тех пор прошло почти 3 года. За это время какие-то пакеты стали не актуальны, какие-то сильно изменились и конечно появились новые пакеты, которые могут значительно облегчить жизнь интернет маркетологам и веб аналитикам.

В этой статье мы рассмотрим следующую порцию R пакетов предназначенных для интернет - маркетинга.

volodya_research 29 авг 2021 в 00:07

Анализ распределения временных интервалов между покупками на R

10 мин

R*Визуализация данных*Статистика в IT

Из песочницы

В статье я провожу ресёрч интервалов между собственными банковскими тратами за последние полгода и с помощью статистических методов в R пытаюсь понять, какому распределению эти интервалы подчиняются.

Я представляю:

1. Код на R для анализа любых временных интервалов.

2. Подбор экспоненциального и степенного распределения под данные с помощью метода максимального правдоподобия (MLE). Для экспоненциального я использую fitdistr() из пакета MASS, а для степенного fit_power_law() из пакета igraph.

3. Проверку данных на соответствие подобранному распределению с помощью теста Колмогорова-Смирнова. Я использую функцию ks.test() из пакета stats.

+12

i_shutov 22 авг 2021 в 18:14

ETL в анализе данных без перерывов на кофе и курилку

18 мин

7.1K

Python*Data Mining*R*Data Engineering*

Кадр из фильма «Индиана Джонс: В поисках утраченного ковчега» (1981)

Наблюдаемая все чаще и чаще картина в задаче анализа данных вызывает удручающее впечатление. Intel, AMD и другие производители непрерывно наращивают вычислительную мощность. Гениальные математики-программисты пишут суперэффективные библиотеки и алгоритмы. И вся эта мощь гасится и распыляется рядовыми аналитиками и разработчиками. Причем начинается это все с нулевого этапа — этап подготовки и загрузки данных для анализа. Многочисленные вопросы и диалоги показывают, что в нынешних программах обучения зияют огромные дыры. Людям просто незнакомы многие концепции и инструменты, уже давно придуманные для этих задач. Для тех, кто хочет увеличить свою продуктивность, далее тезисно будут рассмотрены ряд таких подходов и инструментов в частичной привязке к реальным задачам.

В первую очередь, материал ориентирован на аналитиков, которые манипулируют разумными объемами данных, необходимых для решения практических задач. ETL из Бигдаты в котором перекачиваются сотни Тб ежесуточно живет своей отдельной жизнью.

Является продолжением серии предыдущих публикаций.

Читать дальше →

acheremuhin 1 авг 2021 в 19:47

В глубины регрессии или про пакет frm в R

4 мин

1.4K

В статье обозревается оригинальный подход к построению моделей цензурированной регрессии, если зависимая переменная лежит в интервале [0;1] с помощью пакета frm.

acheremuhin 22 июл 2021 в 20:10

Мы не идем простыми путями или о применении P-сплайнов в регрессии

5 мин

1.7K

Обзор части функционала нового пакета SOP, реализующего алгоритм построения уравнения регрессии с использованием модификаций P-сплайнов.

ip63 22 июл 2021 в 13:00

Как в Trello оценить процессные задачи и построить их визуализацию?

8 мин

5.3K

Программирование*API*R*Визуализация данных*

Туториал

Если вы задавались вопросом:
- "Как четко (или почти четко) измерить эффективность процессной работы программистов, маркетологов, аналитиков, дизайнеров и на основе этих измерений построить визуализацию?" - то эта статья будет вам интересна.

В решении задачи используем язык программирования R, графики на ggplot и Trello как инструмент таск-менеджмента в том виде в котором ранее скорее всего вы его не использовали.

Разберем подробно

i_shutov 21 июл 2021 в 12:01

Уходим с Mercurial на Git

3 мин

10K

Блог компании RUVDS.comPython*Git*R*Управление разработкой*

Туториал

Кадр из фильма «Красный шар». Режиссер Альбер Ламорис. 1956 год

Так уж случилось, что у меня остался ряд репозиториев на Mercurial, которые захостил на Bitbucket много лет назад. Проекты перешли в полуархивное состояние, поэтому заглядывал в них не так уж и часто. И тут я решил обратиться к материалам, надо было внести правку. С удивлением обнаружил, что репозиториев на битбакете нет, но есть публикация «Sunsetting Mercurial support in Bitbucket».

Не критично, локальные репозитории сохранились же (а там коммитов за 10+ лет). Попробуем переехать на github/gitlab по инструкции из статьи. И, конечно же, эти инструкции работают только с latin-1, русские буквы либо не дают переехать, либо заменяются на ?. Извечная проблема кодировок. Можно ли что-то сделать?

UPDATE по результатам комментариев.
Для «приземления» задачи рассмотрите контекст коммерческой поддержки большой инсталляции ПО, созданного в компании где вы сейчас работаете, которое n лет уже не развивается (выпустили совсем новую ветку), но обязательства по поддержке остались по проданным ранее контрактам. И периодически всплывают баги.

Является продолжением серии предыдущих публикаций.

Читать дальше →

+35

itresume 16 июл 2021 в 11:30

Большая подборка телеграмм-каналов для аналитиков

6 мин

49K

Python*SQL*Data Mining*R*Data Engineering*

Работа аналитика требует постоянного пополнения своих знаний - новые инструменты, обновления и методы создаются, как горячие пирожочки. Но перерабатывать такие объемы информации просто нереально, а узнавать что-то новенькое и полезное хочется. И что делать?

Можно, конечно, подписаться на «стоковые» группы и каналы, которые каждый день публикуют по 10-20 постов с «полезным» материалом. Но, признайтесь, это просто самообман: во-первых, столько информации в день просто невозможно пропустить через себя - это только и надо, что статьи читать, а есть же еще работа/учеба. Во-вторых, «полезность» этих статей сомнительна - не каждый пост от умного индуса можно считать полезным, увы :(

Так как же быть? Ответ прост - читать авторские каналы, где реальные специалисты делятся информацией, которую они для себя считают полезной!

Итак, мы собрали для Вас большую подборку телеграм-каналов на любой вкус - каждый найдет для себя что-то интересное. Здесь и BI, и продуктовая аналитика, и программирование, и дашборды, и хранилища данных - одним словом, есть где разгуляться аналитической душе!

Сохраняйте себе и подписывайтесь на ребят - они это точно заслужили! :)

-2

acheremuhin 9 июл 2021 в 14:43

Задача всегда проста, если знаешь ответ или к вопросу отбора признаков

4 мин

1.6K

Поверхностный обзор нового пакета FSinR.

i_shutov 5 июл 2021 в 12:01

Разработка (dev) и data science в enterprise — битва за ресурсы или эффективное сотрудничество?

9 мин

4.4K

Блог компании RUVDS.comPython*Анализ и проектирование систем*R*Управление разработкой*

В подавляющем большинстве случаев, когда речь заходит о «настоящей» разработке продукта или решения enterprise уровня, сразу появляются корпоративные архитекторы и глобальные архитектуры и шаблоны, высокоуровневые модели данных и концепты, попытки охватить всё и вся. Формируется шорт лист из языков и фреймворков, в рамках которых идет вся последующая разработка. Все «только на Java» или «только на C#» или… (впишите на свое усмотрение).
Несомненно, это является отражением предыдущего проектного опыта, лучших мировых практик, готовности подхватить новые запросы бизнеса и в общем случае такой подход оправдан. Но в каждом частном случае подобный глобализм на этапе взлета продукта, в тот момент, когда многое еще находится в состоянии неопределенности, может просто погрести под собой начинание и превратить проект в очередную неудачу. Можно ли что-то изменить, упростить и улучшить не теряя при этом в качестве?
Оказывается что это вполне возможно за счет объединения классической разработки ПО с инструментами и подходами data science (далее просто DS). Как этого можно достичь — разберем по шагам.

Материал является продолжением серии предыдущих публикаций.

Читать дальше →

+29

1 2 3 4

6 7 ...

21 22

R *

Забираем большие маленькие данные по REST API

Data Science 'по ту сторону изгороди'

Войти вайти в 37 лет, личный опыт

Вычисляем возраст Вселенной в R

Истории

Заметки по языку R | Часть 1: Построение нетипичных диаграмм, и подписи данных в ggplot2

Взглянем на квантильную регрессию

Выбираем логин на Яндекс.Почте

Путь, который занял 100* лет: встречаем CatBoost 1.0.0

process mining: 100 строк кода и генератор логов у нас в руках

Скучно, просто и ограниченно — все это изотоническая регрессия

Обзор R пакетов для интернет маркетинга, часть 2

Анализ распределения временных интервалов между покупками на R

ETL в анализе данных без перерывов на кофе и курилку

Ближайшие события

В глубины регрессии или про пакет frm в R

Мы не идем простыми путями или о применении P-сплайнов в регрессии

Как в Trello оценить процессные задачи и построить их визуализацию?

Уходим с Mercurial на Git

Большая подборка телеграмм-каналов для аналитиков

Задача всегда проста, если знаешь ответ или к вопросу отбора признаков

Разработка (dev) и data science в enterprise — битва за ресурсы или эффективное сотрудничество?

Вклад авторов

Работа