Как стать автором
Обновить
17
0
Олег @OlegUV

Аналитик

Отправить сообщение

Кластерный анализ в R

Время на прочтение3 мин
Количество просмотров6.9K

Кластерный анализ решает задачу разбиения множества на группы (кластеры) по принципу наибольшей однородности.

Подобные задачи возникают во множестве сфер деятельности, в частности это реклама и маркетинг. Ситуация, когда нужно выделить группы клиентов, максимально «похожих» друг на друга или определить локации, в которых преобладают определённые предпочтения.

Рассмотрю подобный пример и расскажу о способах решения вопроса средствами языка R.

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Комментарии1

Tidymodels: аккуратное машинное обучение в R

Время на прочтение14 мин
Количество просмотров3.1K

Последнее время пакет tidymodels активно развивается в направлении задач машинного обучения.

Несколько лет назад Мак Кун разработал пакет caret, целью которого было создать единую платформу для моделей машинного обучения, существующих в R. Caret был прекрасен во многих отношениях, но далек от идеала. Но это был прекрасный старт. В связи с этим RStudio пригласила Макса Куна для разработки “аккуратной” версии данного пакета. В итоге, мы получили tidymodels.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии2

Визуализация решает или про иллюстрацию статистических тестов

Время на прочтение4 мин
Количество просмотров2.2K

В статье представлены результаты использования пакетов ggstatsplot и ggpmisc, позволяющих визуализировать результаты проверки статистических гипотез и параметры уравнений регрессий.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

CPPN + музыка. Генерируем музыкальное видео

Время на прочтение7 мин
Количество просмотров2.6K

Привет, Хабр. Мне не удалось найти русскоязычные статьи, посвященные генерации артов с помощью архитектуры CPPN, поэтому я сам расскажу о том, что можно с ней сделать. Это позволит скрасить пару вечеров и сгенерировать себе, например, обои на рабочий стол. А может и придумать что-нибудь серьезное. 

Лично я воспользовался такой архитектурой, чтобы сгенерировать абстрактное музыкальное видео на одну из своих композиций. Плюс добавил к нему ритмических пульсаций, о чем расскажу далее.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии0

Работа с API на языке R, введение в пакет httr2

Время на прочтение7 мин
Количество просмотров3.8K

Цель этой статьи - показать вам основы httr2

httr2 - переосмысленная реализация пакета httr, т.е. интерфейс для работы с HTTP запросами на языке R.

Из статьи вы узнаете, как создавать и отправлять HTTP-запросы и работать с полученными HTTP-ответами. httr2 разработан для точного сопоставления с базовым протоколом HTTP, который я объясню по мере продвижения. Для получения дополнительных сведений я также рекомендую ознакомиться со статьёй "An overview of HTTP" от MDN.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии4

Оборачиваем API с помощью httr2

Время на прочтение26 мин
Количество просмотров1.9K

Обычное использование httr2 — это создание обёртки над каким нибудь API и предоставление его в виде R пакета, в котором каждая конечная точка API (то есть URL-адрес с параметрами) становится функцией. Эта статья поможет разобраться, как начать с очень простого API, не требующего аутентификации, а затем постепенно приводимые примеры будут усложняться. 

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

Бесплатный курс «Язык R для интернет маркетинга»

Время на прочтение3 мин
Количество просмотров4.8K

В ходе данного курса вы пройдёте путь от самых основ синтаксиса языка, а к его завершению научитесь собирать данные по API, парсить сайты, рассылать электронные письма и разрабатывать полноценных telegram ботов.

Курс не требует от вас наличия навыков программирования, и рассчитан на новичков.

Основной аудиторией курса являются интернет маркетологи и веб аналитики, которые после его прохождения смогут автоматизировать большую часть рутинных операций в своей повседневной работе.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии5

Дата саентист и циклы-циклы-циклы…

Время на прочтение14 мин
Количество просмотров6.6K


«How I Met Your Mother», season 6, ep. 7


Коля любит циклы. 
Толя любит циклы. 
Оля любит циклы. 
Все любят циклы. 

И Сережа тоже.

Один Мамба их не любит. И вот почему.


Если опустить философские рассуждения, что все на уровне процессора является циклом или goto, то можно выделить три причины:


  1. При работе с индексами цикла можно легко проглядеть и допустить ошибку. Но тут помощь приходят итераторы.
  2. Очень часто циклы вручную пишутся очень неэффективно с точки зрения манипуляций с памятью — сильная просадка по производительности. А у вложенных циклов еще и накладные на старт цикла.
  3. Нелинейная структура цикла (break, continue) не позволяют сделать хорошую оптимизацию на уровне процессора или компилятора. А это дополнительно означает, что распараллелить цикл по вычислителям будет очень трудно. В решении этого вопроса помогает функциональный подход и итераторы. Если известно о независимости вычислений значений каждого отдельного шага — надо сообщать об этом компилятору явно.

Все предыдущие публикации.

Читать дальше →
Всего голосов 6: ↑4 и ↓2+3
Комментарии14

Process Mining c bupaR

Время на прочтение3 мин
Количество просмотров2.4K

В настоящее время тема Process Mining продолжает набирать популярность, и все больше применяется при поиске новых путей повышения эффективности бизнес-процессов, в оперативном анализе пилотных проектов и конечно же в задачах аудита. При выборе инструмента для разработки в рамках данной задачи важнейшими критериями становятся доступность, производительность, наличие сообщества.

В этой статье мы рассмотрим bupaR open-source пакет для анализа бизнес-процессов на языке R. В качестве IDE использовалась RStudio.

Допустим, у нас уже есть файл (csv) журнала (лога) событий активностей пользователей в интернет-магазине. Воспользуемся пакетом readr для загрузки лога событий из данного файла и методом  activities_to_eventlog из bupaR для преобразования:

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии1

Отправляем SMS-сообщение на телефон с помощью R

Время на прочтение2 мин
Количество просмотров9K

В 2013 году я отправлял себе прогноз погоды в sms-сообщении на телефон, используя для этого скрипт на R, API одного из онлайн-сервисов погоды, утилиту sendEmail и включенную услугу "e-mail to SMS". В 2022 году оказалось, что способ отправки SMS на телефон до сих пор работает (далее пример для оператора МТС Урал).

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии12

Как выбрать правильный тип палитры для шкалы

Время на прочтение6 мин
Количество просмотров4.4K

Цвет — мощное средство визуализации данных, его неумеренное или неправильное применение губит всю работу и сбивает с толку, поэтому цвет следует подбирать тщательно, не забывая об особенностях восприятия.

О типах палитр цветов и о том, как выбрать правильную палитру, рассказываем к старту курса по анализу данных.

Читать далее
Всего голосов 6: ↑5 и ↓1+4
Комментарии2

Лущим веб с помощью R

Время на прочтение6 мин
Количество просмотров4.9K


Кадр из мультфильма «Раз горох, два горох», 1981, Союзмультфильм


Сбор исходных данных встречается во многих задачах, связанных с аналитикой. Веб тоже нередко выступает источником. Вероятность попасть на полностью готовый и причесанный источник почти близка к нулю. Всегда приходится что-то делать, чтобы эти данные получить и привести в порядок. Ободряет то, что если в браузере видна нужная информация, то тем или иным способом ее можно оттуда выцарапать. В самом худшем случае — перефотографировать.


Ниже три непридуманные истории, объединенные одной целью — достать информацию из открытого источника. Весь код написан «на салфетке», имеет сугубо иллюстративный и развлекательный характер.


Является продолжением серии предыдущих публикаций.

Читать дальше →
Всего голосов 9: ↑8 и ↓1+8
Комментарии4

Мультимодальные нейронные сети, как искусство

Время на прочтение8 мин
Количество просмотров11K

В прошлой статье, рассказывая про GPT-J-6B, я упоминал, что современные алгоритмы обработки естественного языка вызывают немалый ажиотаж даже среди людей, мало слышащих про машинное обучение. И вот, не успел ещё стихнуть шум обсуждений про возможности GPT-3 от OpenAI, как нам показали ещё одну работу их команды в области ИИ, которую назвали в честь Сальвадора Дали и робота ВАЛЛ·И – DALL-E.

Читать далее
Всего голосов 3: ↑2 и ↓1+1
Комментарии0

Рефакторинг Shiny приложений

Время на прочтение10 мин
Количество просмотров2.5K


Кадр из фильма «Формула любви», 1984


В жизненном цикле любого эксплуатируемого ПО наступает фаза, когда накопившийся набор изменений (CR) ложится неподъемным грузом на первичную архитектуру и вот тут наступает пора рефакторинга. Много книг понаписано на эту тему, есть специфика для различных языков. Ниже затронем только отдельные аспекты, которые могут оказаться полезным применительно к RStudio Shiny приложениям. Это ряд практических методов, трюков и нюансов, накопившихся при рефакторинге, как правило, чужого Shiny кода.


«Aliena nobis, nostra aliis» — Ежели один человек построил, другой завсегда разобрать сможет.


Это было в фильме, в первоисточнике несколько по-другому. Фраза Публилия Сира «Aliena nobis, nostra plus aliis placent» переводится как «Чужое нам, наше же в основном другим нравится».
Но кузнец Степан все равно дело говорит.


Является продолжением серии предыдущих публикаций.

Читать дальше →
Всего голосов 10: ↑10 и ↓0+10
Комментарии0

Заметки по языку R | Часть 2: Используем синтаксический сахар и приёмы Python в R

Время на прочтение7 мин
Количество просмотров4.5K

Заметки по языку R - это серия статей, в которых я собираю наиболее интересные публикации канала R4marketing из рубрики "#заметки_по_R".

В прошлый раз мы говорили о нетипичных визуализациях, сегодняшняя подборка состоит из описания приёмов, которые свойственны и горячо любимы пользователям Python, но большинство пользователей R о них не знают.

Для пользователей Python эта статья будет полезна тем, что они найдут реализацию своих любимых приёмов в другом языке, для пользователей R статья будет полезна тем, что они откроют для себя изящные приёмы Python, и смогут перенести их в свои R проекты.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии4

Заметки по языку R | Часть 1: Построение нетипичных диаграмм, и подписи данных в ggplot2

Время на прочтение5 мин
Количество просмотров5.2K

В ноябре 2018 года я запустил телеграм канал R4marketing. Канал посвящён языку R, посты канала разделены по рубрикам, одна из таких рубрик "Заметки по R". В эту рубрику входят небольшие публикации, с интересным или полезными советами по использованию R.

Этой статьёй я начинаю серию публикаций состоящих из подборок наиболее полезных заметок канала R4marketing.

Первая статья будет посвящена визуализации данных.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Геоаналитика с помощью Python и открытых данных: пошаговое руководство

Время на прочтение11 мин
Количество просмотров47K

Геоаналитика с помощью Python: GeoPandas, folium, Uber H3, OSM + примеры как можно определять лучшие локации для поиска помещений под открытие кофейни (и не только).

Читать далее
Всего голосов 29: ↑29 и ↓0+29
Комментарии39

process mining: 100 строк кода и генератор логов у нас в руках

Время на прочтение9 мин
Количество просмотров3.2K


Продакт-менеджерам посвящается...


Заступая на территорию proccess mining, каждый участник рано или поздно будет нуждаться в наборе логов событий, отражающих те или иные специфические моменты в процессах. Эти логи нужны как на этапе демонстрации решения, подсвечивания определенных вопросов, так и для отработки алгоритмов или же тестов на производительность. Оба рекомендуемых сценария «взять с продуктивных систем» или «взять из интернета» терпят фиаско. Как правило, это очень
малые датасеты, слабо удовлетворяющие потребностям как по наполнению, так и по объему.


Остается вариант — написать генератор правдоподобных логов самостоятельно. Тут тоже есть два варианта.


  • Вариант первый — превратить эту задачу в универсальный монстроподобный продукт, содержащий визуальный конструктор в нотации BPMN 2.0, всевозможные визуальные конструкторы формул и атрибутов, полноценную имитационную машину под капотом. Годы работы, миллионы на ветер, на выходе — файл с логами. КПД близок к нулю.
  • Вариант второй — отнестись к этой задаче как к вспомогательной и создать инструментами data science стека упрощенный генератор в 100 строк кода.

Остановимся далее на втором варианте.


Является продолжением серии предыдущих публикаций.

Читать дальше →
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Анализ распределения временных интервалов между покупками на R

Время на прочтение10 мин
Количество просмотров4.2K

В статье я провожу ресёрч интервалов между собственными банковскими тратами за последние полгода и с помощью статистических методов в R пытаюсь понять, какому распределению эти интервалы подчиняются.

Я представляю:

1. Код на R для анализа любых временных интервалов.

2. Подбор экспоненциального и степенного распределения под данные с помощью метода максимального правдоподобия (MLE). Для экспоненциального я использую fitdistr() из пакета MASS, а для степенного fit_power_law() из пакета igraph.

3. Проверку данных на соответствие подобранному распределению с помощью теста Колмогорова-Смирнова. Я использую функцию ks.test() из пакета stats.

Читать далее
Всего голосов 10: ↑9 и ↓1+12
Комментарии11

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность