R *

Язык для статистической обработки данных

СтатьиПостыНовостиАвторыКомпании

GolovinDS 21 фев 2023 в 15:40

Запуск R кода по расписанию

Простой

14 мин

2.5K

Блог компании OTUSR *

Туториал

Recovery Mode

Всем привет. Меня зовут Дмитрий Володин, я Analytics Engineer в Trafficstars. Когда‑то я, как и все, был начинающим аналитиком данных на R и передо мной на этом этапе остро встал вопрос запуска моего кода по расписанию. Ещё желательно было иметь возможность запускать откуда угодно. А уж запускать «кнопочкой play» вообще казалось мечтой.

Эта статья нацелена на начинающих аналитиков данных (не обязательно на R). Также она может быть полезна и опытным аналитикам. Особенно если плохо с коммуникацией с разработчиками и инфраструктурщиками (или их просто нет у вас в компании). Я пересказываю свой опыт, но кажется, он будет весьма полезен читателям.

+13

Abby_Baby 13 фев 2023 в 19:07

Заметки по R: находим каждый последний понедельник месяца в наборе данных

Простой

3 мин

1.4K

R *

Мнение

Периодически возникают задачи в R, которые просты по своей сути, но не очевидны для тех, кто только начинает свой путь.

Представим, что в нашей организации каждый последний понедельник месяца происходит учет товара. В эти дни нет продаж. И мы бы хотели учесть это в наших прогнозах. Стоит вопрос: как в данных "выловить" эти понедельники, не используя function.

i_shutov 24 янв 2023 в 07:09

Сжимаем временной ряд в светофор

3 мин

3.3K

Data Mining * R * Визуализация данных *

Туториал

«Мы сделаем вас счастливыми! Вы будете счастливыми!»
«Отроки во Вселенной» (1974)

Менеджеры в большинстве компаний хотят примерно одного и того же. Чтобы сложные вещи объяснялись простым языком, а все можно было свести к спидометрам, градусникам и светофорам.

Аллегория вполне понятная, пытаться объяснять что-либо — в 99% случаев процедура бессмысленная и энергозатратная. Поэтому ниже пример, как двумя экранами кода можно быстренько превратить временные ряды, которые почти всегда встречаются в больших количествах, в светофор.

Все предыдущие публикации.

Читать дальше →

KirovDoc 11 янв 2023 в 16:18

Как врач сделал себе ИИ помощника. Часть 2

3 мин

4.4K

R * Машинное обучение * Искусственный интеллектЗдоровье

Первая часть собрала хорошую "кассу" в виде рейтинга и кармы, но самое главное вызвала интерес аудитории. Последний факт стал решающим критерием для написания продолжения. Очень часто, 2-я часть хуже первой, но я все же решил рискнуть. Представлюсь снова, меня зовут Александр и я врач-гематолог. Я работаю над приложением по интерпретации общего анализа крови (ОАК) с помощью алгоритмов машинного обучения (МО). После публикации первой заметки о проекте я внимательно изучил комментарии своих читателей. Сразу скажу - практически все из них были конструктивными и понятными. Спасибо всем! Это подстегнуло перенести проект в список приоритетных и поработать над обновлением. Кому не терпится, могут сразу переходить по ссылке. Бот работает в тестовом режиме. Ниже я кратко и подробно расскажу, что изменилось.

+17

KirovDoc 3 янв 2023 в 19:47

Как врач сделал себе ИИ помощника. Часть 1

3 мин

13K

R * Искусственный интеллектЗдоровье

Из песочницы

Всем привет, меня зовут Александр и я врач-гематолог. Для справки, это тот, кто занимается болезнями крови. Мой общий стаж перевалил за 16 лет, я кандидат медицинских наук и последние пару-тройку лет интересуюсь анализом данных, machine learning и ИИ в медицине. Под "интересуюсь" я подразумеваю исследования и публикации по этим темам, а также обучение и саморазвитие.

Так как я ни разу не программист, то мой пост будет не про это. Тем не менее последние пару лет моим рабочим инструментом является R. Это не тот язык программирования, на котором можно писать крутые сайты или приложения, но кое-что он все-таки умеет. R - больше про анализ данных, чем я и занимаюсь. Сегодня я хочу кратко рассказать и показать один из моих проектов на R, который решает вполне конкретную прикладную задачу - интерпретацию общего анализа крови.

Общий анализ крови (ОАК) – самый частый и один из самых сложных анализов человека для интерпретации, что обусловлено большим числом входящих в него параметров. Как правило, именно этот анализ является скрининговым тестом как для гематологов амбулаторного приема, так и для врачей общей практики и других специальностей. Объемы выполняемых анализов исчисляются сотнями тысяч. Моя идея не нова - машинная помощь в правильной и быстрой интерпретации общего анализа крови, которая будет содействовать развитию качественной, доступной и своевременной диагностики онкогематологических заболеваний. Зачастую врач первичного звена (терапевт) не может дифференцировать изменения в ОАК, что приводит либо к гиподиагностике, либо к повышенной настороженности и излишне частому направлению на консультацию к врачу-гематологу. Ситуацию усугубляют огромные объемы анализов, выполняемые в рамках профилактических и лечебно-диагностических процессов как в государственном, так и в частном секторе здравоохранения. Расшифровка анализов онлайн - один из востребованных запросов в Интернете. Меня часто просят об этом в социальных сетях.

+71

ma_gera 29 ноя 2022 в 07:58

Мультиканальная атрибуция в EdTech: ожидание/реальность или что мы вынесли из этого опыта

5 мин

2.8K

Google API * Python * R *

Из песочницы

В какой-то момент у нас в компании стали приходить запросы от маркетологов, чтобы мы поглубже изучили взаимодействие маркетинговых каналов и попробовали мультиканальные модели атрибуции.

• Что и в какой последовательности мы делали, чтобы мультиканальная атрибуция появилась на свет

• Обзор инструментов, которые мы использовали

• Что в этом опыте оказалось полезным, а что можно было вообще не делать

В этой статье я хочу поделиться:

Al-Capona 13 ноя 2022 в 18:59

Теория квантовых состояний: из жизни в код

5 мин

R * Go * Разработка игр * Assembler * Качество кода *

Из песочницы

Recovery Mode

Расскажу вам о моём вИдении правильного программирования любых систем.

Кратко о себе: программист самоучка, примерно в 1992 году начинал с ассемблера, крякая через HIEW (Огромное СПАСИБО автору этого замечательного дизассемблера) всякие DOS-игрухи-проги, и прогая всё, что в голову взбредёт - от игр до вирей (домашних и добрых).

Подробнее о "Теории квантовых состояний" >

-2

PatientZero 7 окт 2022 в 10:35

Спросим у Google, насколько наша встреча была предначертана судьбой

17 мин

24K

Спутниковые системы навигации * Геоинформационные сервисы * Визуализация данных * R *

Перевод

Введение

Когда я познакомилась со своим бойфрендом, я иногда ощущала небольшое сожаление от того, что у нас не было умилительной киношной истории встречи, несмотря на то, что мы пять лет жили в одном и том же городе и учились в одном университете. Наша история не уникальна для многих пар в 2020 году: на спаде между двумя волнами COVID мы начали общаться онлайн, в приложении для знакомств Bumble.

Я подумала, что благодаря истории местоположений Google, втихомолку отслеживающей данные GPS, можно было бы найти ответ на вопрос о том, насколько судьбоносно пересекались наши дорожки до встречи. Насколько близко мы были к тому, чтобы воспроизвести романтическую сцену «среди десятков людей они нашли глазами друг друга»?

Читать дальше →

+84

alex_29 7 окт 2022 в 08:52

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт

8 мин

4.5K

PDFR *

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт.

Сегодня я хочу рассказать о том, как я писал отчеты на R, с чем сталкивался и как решал проблемы, которые возникали по ходу разработки. Отчеты были в формате PDF и запускались из Python в Camunda.

i_shutov 26 сен 2022 в 06:47

Важно ли DS аналитику знать про software development?

12 мин

4.4K

Data Mining * Python * R * Управление разработкой *

Cезон Data Mining

— Иван Иваныч Иванов с утра ходит без штанов!
— А Иванов Иван Иваныч одевает штаны на ночь!
«Афоня» (1975)

Множество курсов, призванных подготовить DS специалистов «за полгода», создают впечатление, что уж сертифицированным датамайнером стать достаточно просто. А что? Немного основ DS языка, немного по структуре данных, немного по различным преобразованиям данных, немного SQL, немного математики (в ML не погружаемся, только знакомимся), немного визуализации, немного HTML+JS+CSS. Специалист готов?

На практике оказывается, что маловато будет.

Все предыдущие публикации.

Читать дальше →

propulsive 21 сен 2022 в 20:02

Визуализируем в R данные мониторинга температуры процессора Raspberry PI Zero W

3 мин

3.4K

Raspberry Pi * R *

Визуализируем данные мониторинга температуры Raspberry PI в R c помощью ggplot2 и отправляем в телеграм через телеграм-бота. Все R-скрипты выполняются на самом Raspberry PI Zero W c предварительно установленным R 4.2.1 и необходимыми пакетами.

Abby_Baby 5 сен 2022 в 12:12

Логистическая регрессия с помощью tidymodels

9 мин

2.7K

Big Data * R * Машинное обучение *

Перевод

В последнее время я публикую заметки, которые демонстрируют работу с пакетом tidymodels . Я разбираю как простые, так и более сложными модели. Сегодняшняя заметка подойдет тем, кто только начинает свое знакомство с пакетом tidymodels.

NewTechAudit 28 авг 2022 в 08:35

Кластерный анализ в R

3 мин

7.9K

R * Машинное обучение *

Кластерный анализ решает задачу разбиения множества на группы (кластеры) по принципу наибольшей однородности.

Подобные задачи возникают во множестве сфер деятельности, в частности это реклама и маркетинг. Ситуация, когда нужно выделить группы клиентов, максимально «похожих» друг на друга или определить локации, в которых преобладают определённые предпочтения.

Рассмотрю подобный пример и расскажу о способах решения вопроса средствами языка R.

i_shutov 25 авг 2022 в 10:35

Jira, Jirа! Повернись к лесу задом, ко мне передом

4 мин

10K

Управление разработкой * R * Python * Data Mining * Проектирование API *

Cезон Data Mining

*Избушка, Olga Kolopetko. https://illustrators.ru/illustrations/1474142)*
Избушка, Olga Kolopetko. https://illustrators.ru/illustrations/1474142

Повсеместная цифровизация не только в телевизоре. Она теперь повсюду нас окружает, на работе и не только. Типичным представителем являются трекеры действий (системы Сервис Деск, проектные системы, документообороты и пр.). Общей болевой точкой всех этих систем являются сложная объектная и процессная модель и фокус на поддержку операционного обслуживания. Шаг влево или вправо в попытках понять всю картину целиком повергает аналитиков в уныние и порождает безуспешные проекты на многие месяцы. А вопрос этот висит в воздухе, в том или ином виде, почти ежедневно.

Ниже покажу один из возможных подходов по решению подобных задач средствами DS «за час» и «один экран кода». ИТ курсов на несколько месяцев появилось множество, но даже для начинающих подход от конца, когда показываешь решение насущной задачи, а потом раскладываешь его на кубики — куда эффективнее.

Для примера возьмем Jira, как часто используемую в среде разработчиков, обладающую богатым функционалом, длительной историей и хорошим API.

Все предыдущие публикации.

Читать дальше →

Abby_Baby 24 авг 2022 в 08:29

Tidymodels: аккуратное машинное обучение в R

14 мин

3.5K

Машинное обучение * R *

Туториал

Перевод

Последнее время пакет tidymodels активно развивается в направлении задач машинного обучения.

Несколько лет назад Мак Кун разработал пакет caret, целью которого было создать единую платформу для моделей машинного обучения, существующих в R. Caret был прекрасен во многих отношениях, но далек от идеала. Но это был прекрасный старт. В связи с этим RStudio пригласила Макса Куна для разработки “аккуратной” версии данного пакета. В итоге, мы получили tidymodels.

Abby_Baby 21 авг 2022 в 13:52

Как связать Rstudio с Github: актуально для пользователей Mac OS

2 мин

2.1K

R * GitHub *

Туториал

В данной заметке рассмотрим, как связать Rstudio с вашим аккаунтом на Github. Отмечу сразу, данная заметка подойдет тем, кто работает через операционную систему mac os.

Мы будем исходить из трех ограничений.

honyaki 19 авг 2022 в 20:47

О новом простом методе снижения высокой размерности данных

8 мин

13K

Блог компании SkillfactoryMatlab * Python * R * Математика *

Перевод

О новом методе решения проблемы оценки ковариационной матрицы в данных высокой размерности [научная работа опубликована в 2012 году] рассказываем к старту нашего флагманского курса по Data Science. Подробности — под катом:

Узнать больше

Abby_Baby 15 авг 2022 в 11:02

Оценка доверительных интервалов bootstrap на примере суперкубка #TidyTuesday

4 мин

1.4K

R *

Из песочницы

Перевод

Данная заметка - это любительский перевод статьи Julia Silge.

Это статья взята из блога Julia Silge, которая демонстрирует использование пакетов tidymodels. В сегодняшней заметке будет продемонстрирована относительно новая функция из пакета rsample - reg_intervals. Данная функция разработана для быстрого поиска доверительных интервалов bootstrap.

Данные: набор #TidyTuesday о рекламных роликах суперкубка.

KristinaMyLife 12 авг 2022 в 12:27

Используем R lang в SQL Server

4 мин

Блог компании OTUSMicrosoft SQL Server * R * Машинное обучение *

Туториал

В продолжение предыдущей статьи поговорим о том, как использовать SQL Server Machine Learning Services. В этой статье приведены варианты использования на языке R.

Для чего должна быть установлена R 4.2.1(https://cran.r-project.org/src/base/R-4/)

Также нам потребуется пакет randomForest, его можно установить в студии (меню) Пакеты -> Установить пакет .Если же у вас тоже windows и это не будет работать как и у меня, скачивайте пакет c CRAN и выбирайте Пакеты -> Установить пакеты из локальных файлов, а затем скаченный архив.

Некоторые пакеты требуют установки всех зависимостей, поэтому лучше устранить ошибки загрузки пакетов, если они у вас есть. Список ошибок и пути их решения описаны в блоге у Алексея Селезнева.

Для знакомства с возможностями SQL Server в машинном обучении используется датасет с пассажирами Титаника с Kaggle

acheremuhin 29 июл 2022 в 11:58

Визуализация решает или про иллюстрацию статистических тестов

4 мин

2.3K

R * Визуализация данных *

В статье представлены результаты использования пакетов ggstatsplot и ggpmisc, позволяющих визуализировать результаты проверки статистических гипотез и параметры уравнений регрессий.

1 2 3

5 6 ...

23 24

R *

Запуск R кода по расписанию

Заметки по R: находим каждый последний понедельник месяца в наборе данных

Сжимаем временной ряд в светофор

Как врач сделал себе ИИ помощника. Часть 2

Как врач сделал себе ИИ помощника. Часть 1

Мультиканальная атрибуция в EdTech: ожидание/реальность или что мы вынесли из этого опыта

Теория квантовых состояний: из жизни в код

Спросим у Google, насколько наша встреча была предначертана судьбой

Введение

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт

Важно ли DS аналитику знать про software development?

Визуализируем в R данные мониторинга температуры процессора Raspberry PI Zero W

Логистическая регрессия с помощью tidymodels

Кластерный анализ в R

Ближайшие события

Jira, Jirа! Повернись к лесу задом, ко мне передом

Tidymodels: аккуратное машинное обучение в R

Как связать Rstudio с Github: актуально для пользователей Mac OS

О новом простом методе снижения высокой размерности данных

Оценка доверительных интервалов bootstrap на примере суперкубка #TidyTuesday

Используем R lang в SQL Server

Визуализация решает или про иллюстрацию статистических тестов

Вклад авторов