Как стать автором
Поиск
Написать публикацию
Обновить
7.4

R *

Язык для статистической обработки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Сжимаем временной ряд в светофор

Время на прочтение3 мин
Количество просмотров3.3K


«Мы сделаем вас счастливыми! Вы будете счастливыми!»
«Отроки во Вселенной» (1974)


Менеджеры в большинстве компаний хотят примерно одного и того же. Чтобы сложные вещи объяснялись простым языком, а все можно было свести к спидометрам, градусникам и светофорам.


Аллегория вполне понятная, пытаться объяснять что-либо — в 99% случаев процедура бессмысленная и энергозатратная. Поэтому ниже пример, как двумя экранами кода можно быстренько превратить временные ряды, которые почти всегда встречаются в больших количествах, в светофор.


Все предыдущие публикации.

Читать дальше →

Как врач сделал себе ИИ помощника. Часть 2

Время на прочтение3 мин
Количество просмотров4.3K

Первая часть собрала хорошую "кассу" в виде рейтинга и кармы, но самое главное вызвала интерес аудитории. Последний факт стал решающим критерием для написания продолжения. Очень часто, 2-я часть хуже первой, но я все же решил рискнуть. Представлюсь снова, меня зовут Александр и я врач-гематолог. Я работаю над приложением по интерпретации общего анализа крови (ОАК) с помощью алгоритмов машинного обучения (МО). После публикации первой заметки о проекте я внимательно изучил комментарии своих читателей. Сразу скажу - практически все из них были конструктивными и понятными. Спасибо всем! Это подстегнуло перенести проект в список приоритетных и поработать над обновлением. Кому не терпится, могут сразу переходить по ссылке. Бот работает в тестовом режиме. Ниже я кратко и подробно расскажу, что изменилось.

Читать далее

Как врач сделал себе ИИ помощника. Часть 1

Время на прочтение3 мин
Количество просмотров13K

Всем привет, меня зовут Александр и я врач-гематолог. Для справки, это тот, кто занимается болезнями крови. Мой общий стаж перевалил за 16 лет, я кандидат медицинских наук и последние пару-тройку лет интересуюсь анализом данных, machine learning и ИИ в медицине. Под "интересуюсь" я подразумеваю исследования и публикации по этим темам, а также обучение и саморазвитие.

Так как я ни разу не программист, то мой пост будет не про это. Тем не менее последние пару лет моим рабочим инструментом является R. Это не тот язык программирования, на котором можно писать крутые сайты или приложения, но кое-что он все-таки умеет. R - больше про анализ данных, чем я и занимаюсь. Сегодня я хочу кратко рассказать и показать один из моих проектов на R, который решает вполне конкретную прикладную задачу - интерпретацию общего анализа крови.

Общий анализ крови (ОАК) – самый частый и один из самых сложных анализов человека для интерпретации, что обусловлено большим числом входящих в него параметров. Как правило, именно этот анализ является скрининговым тестом как для гематологов амбулаторного приема, так и для врачей общей практики и других специальностей. Объемы выполняемых анализов исчисляются сотнями тысяч. Моя идея не нова - машинная помощь в правильной и быстрой интерпретации общего анализа крови, которая будет содействовать развитию качественной, доступной и своевременной диагностики онкогематологических заболеваний. Зачастую врач первичного звена (терапевт) не может дифференцировать изменения в ОАК, что приводит либо к гиподиагностике, либо к повышенной настороженности и излишне частому направлению на консультацию к врачу-гематологу. Ситуацию усугубляют огромные объемы анализов, выполняемые в рамках профилактических и лечебно-диагностических процессов как в государственном, так и в частном секторе здравоохранения. Расшифровка анализов онлайн - один из востребованных запросов в Интернете. Меня часто просят об этом в социальных сетях.

Читать далее

Мультиканальная атрибуция в EdTech: ожидание/реальность или что мы вынесли из этого опыта

Время на прочтение5 мин
Количество просмотров2.7K

В какой-то момент у нас в компании стали приходить запросы от маркетологов, чтобы мы поглубже изучили взаимодействие маркетинговых каналов и попробовали мультиканальные модели атрибуции.

Что и в какой последовательности мы делали, чтобы мультиканальная атрибуция появилась на свет

Обзор инструментов, которые мы использовали

Что в этом опыте оказалось полезным, а что можно было вообще не делать

В этой статье я хочу поделиться:

Читать далее

Теория квантовых состояний: из жизни в код

Время на прочтение5 мин
Количество просмотров2.9K

Расскажу вам о моём вИдении правильного программирования любых систем.

Кратко о себе: программист самоучка, примерно в 1992 году начинал с ассемблера, крякая через HIEW (Огромное СПАСИБО автору этого замечательного дизассемблера) всякие DOS-игрухи-проги, и прогая всё, что в голову взбредёт - от игр до вирей (домашних и добрых).

Подробнее о "Теории квантовых состояний" >

Спросим у Google, насколько наша встреча была предначертана судьбой

Время на прочтение17 мин
Количество просмотров23K

Введение


Когда я познакомилась со своим бойфрендом, я иногда ощущала небольшое сожаление от того, что у нас не было умилительной киношной истории встречи, несмотря на то, что мы пять лет жили в одном и том же городе и учились в одном университете. Наша история не уникальна для многих пар в 2020 году: на спаде между двумя волнами COVID мы начали общаться онлайн, в приложении для знакомств Bumble.

Я подумала, что благодаря истории местоположений Google, втихомолку отслеживающей данные GPS, можно было бы найти ответ на вопрос о том, насколько судьбоносно пересекались наши дорожки до встречи. Насколько близко мы были к тому, чтобы воспроизвести романтическую сцену «среди десятков людей они нашли глазами друг друга»?
Читать дальше →

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт

Время на прочтение8 мин
Количество просмотров4.4K

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт.

Сегодня я хочу рассказать о том, как я писал отчеты на R, с чем сталкивался и как решал проблемы, которые возникали по ходу разработки. Отчеты были в формате PDF и запускались из Python в Camunda.

Читать далее

Важно ли DS аналитику знать про software development?

Время на прочтение12 мин
Количество просмотров4.3K


— Иван Иваныч Иванов с утра ходит без штанов!
— А Иванов Иван Иваныч одевает штаны на ночь!
«Афоня» (1975)


Множество курсов, призванных подготовить DS специалистов «за полгода», создают впечатление, что уж сертифицированным датамайнером стать достаточно просто. А что? Немного основ DS языка, немного по структуре данных, немного по различным преобразованиям данных, немного SQL, немного математики (в ML не погружаемся, только знакомимся), немного визуализации, немного HTML+JS+CSS. Специалист готов?


На практике оказывается, что маловато будет.


Все предыдущие публикации.

Читать дальше →

Визуализируем в R данные мониторинга температуры процессора Raspberry PI Zero W

Время на прочтение3 мин
Количество просмотров3.3K

Визуализируем данные мониторинга температуры Raspberry PI в R c помощью ggplot2 и отправляем в телеграм через телеграм-бота. Все R-скрипты выполняются на самом Raspberry PI Zero W c предварительно установленным R 4.2.1 и необходимыми пакетами.

Читать далее

Логистическая регрессия с помощью tidymodels

Время на прочтение9 мин
Количество просмотров2.7K

В последнее время я публикую заметки, которые демонстрируют работу с пакетом tidymodels . Я разбираю как простые, так и более сложными модели. Сегодняшняя заметка подойдет тем, кто только начинает свое знакомство с пакетом tidymodels

Читать далее

Кластерный анализ в R

Время на прочтение3 мин
Количество просмотров7.7K

Кластерный анализ решает задачу разбиения множества на группы (кластеры) по принципу наибольшей однородности.

Подобные задачи возникают во множестве сфер деятельности, в частности это реклама и маркетинг. Ситуация, когда нужно выделить группы клиентов, максимально «похожих» друг на друга или определить локации, в которых преобладают определённые предпочтения.

Рассмотрю подобный пример и расскажу о способах решения вопроса средствами языка R.

Читать далее

Jira, Jirа! Повернись к лесу задом, ко мне передом

Время на прочтение4 мин
Количество просмотров10K

*Избушка, Olga Kolopetko. https://illustrators.ru/illustrations/1474142)*
Избушка, Olga Kolopetko. https://illustrators.ru/illustrations/1474142


Повсеместная цифровизация не только в телевизоре. Она теперь повсюду нас окружает, на работе и не только. Типичным представителем являются трекеры действий (системы Сервис Деск, проектные системы, документообороты и пр.). Общей болевой точкой всех этих систем являются сложная объектная и процессная модель и фокус на поддержку операционного обслуживания. Шаг влево или вправо в попытках понять всю картину целиком повергает аналитиков в уныние и порождает безуспешные проекты на многие месяцы. А вопрос этот висит в воздухе, в том или ином виде, почти ежедневно.


Ниже покажу один из возможных подходов по решению подобных задач средствами DS «за час» и «один экран кода». ИТ курсов на несколько месяцев появилось множество, но даже для начинающих подход от конца, когда показываешь решение насущной задачи, а потом раскладываешь его на кубики — куда эффективнее.


Для примера возьмем Jira, как часто используемую в среде разработчиков, обладающую богатым функционалом, длительной историей и хорошим API.


Все предыдущие публикации.

Читать дальше →

Tidymodels: аккуратное машинное обучение в R

Время на прочтение14 мин
Количество просмотров3.4K

Последнее время пакет tidymodels активно развивается в направлении задач машинного обучения.

Несколько лет назад Мак Кун разработал пакет caret, целью которого было создать единую платформу для моделей машинного обучения, существующих в R. Caret был прекрасен во многих отношениях, но далек от идеала. Но это был прекрасный старт. В связи с этим RStudio пригласила Макса Куна для разработки “аккуратной” версии данного пакета. В итоге, мы получили tidymodels.

Читать далее

Ближайшие события

Как связать Rstudio с Github: актуально для пользователей Mac OS

Время на прочтение2 мин
Количество просмотров2.1K

В данной заметке рассмотрим, как связать Rstudio с вашим аккаунтом на Github. Отмечу сразу, данная заметка подойдет тем, кто работает через операционную систему mac os.

Мы будем исходить из трех ограничений.

Читать далее

О новом простом методе снижения высокой размерности данных

Время на прочтение8 мин
Количество просмотров12K


О новом методе решения проблемы оценки ковариационной матрицы в данных высокой размерности [научная работа опубликована в 2012 году] рассказываем к старту нашего флагманского курса по Data Science. Подробности — под катом:

Узнать больше

Оценка доверительных интервалов bootstrap на примере суперкубка #TidyTuesday

Время на прочтение4 мин
Количество просмотров1.4K

Данная заметка - это любительский перевод статьи Julia Silge.

Это статья взята из блога Julia Silge, которая демонстрирует использование пакетов tidymodels. В сегодняшней заметке будет продемонстрирована относительно новая функция из пакета rsample - reg_intervals. Данная функция разработана для быстрого поиска доверительных интервалов bootstrap.

Данные: набор #TidyTuesday о рекламных роликах суперкубка.

Читать далее

Используем R lang в SQL Server

Время на прочтение4 мин
Количество просмотров2K

В продолжение предыдущей статьи поговорим о том, как использовать SQL Server Machine Learning Services. В этой статье приведены варианты использования на языке R. 

Для чего должна быть установлена R 4.2.1(https://cran.r-project.org/src/base/R-4/) 

Также нам потребуется пакет randomForest, его можно установить в студии (меню) Пакеты -> Установить пакет .Если же у вас тоже windows и это не будет работать как и у меня, скачивайте пакет c CRAN и выбирайте Пакеты -> Установить пакеты из локальных файлов, а затем скаченный архив. 

Некоторые пакеты требуют установки всех зависимостей, поэтому лучше устранить ошибки загрузки пакетов, если они у вас есть. Список ошибок и пути их решения описаны в блоге у Алексея Селезнева.

Для знакомства с возможностями SQL Server в машинном обучении используется датасет с пассажирами Титаника с Kaggle

Читать далее

Визуализация решает или про иллюстрацию статистических тестов

Время на прочтение4 мин
Количество просмотров2.3K

В статье представлены результаты использования пакетов ggstatsplot и ggpmisc, позволяющих визуализировать результаты проверки статистических гипотез и параметры уравнений регрессий.

Читать далее

Вглядываясь в зеркала или еще раз о проблеме гетероскедастичности

Время на прочтение2 мин
Количество просмотров2.5K

Рассмотрен функционал пакета skedastic, содержащего 20+ тестов гетероскедастичности различных моделей. Описан функционал пакета и проведен простенький эксперимент по определению эффективности этих тестов.

Читать далее

Круглое катить, прямоугольное тащить. А шестигранник?

Время на прочтение6 мин
Количество просмотров5.3K


В большинстве случаев в DS предпочитают работать с прямоугольными данными и на то есть масса причин и обоснований. Очень популярна тема парсинга и развертывания вложенных json. Часто дают тестовые задания на приведение к прямоугольному виду.


Но далеко не все задачи сводятся к data.frame и не обязательно весь DS сводить к ML. Есть масса задач, оперирующих, например, с графами или их частным случаем — деревьями. Можно использовать библиотеку igraph или аналоги и не думать о деталях. А можно попробовать чуть заглянуть внутрь алгоритмов.


На примере одной задачки посмотрим на работу с деревьями с альтернативной колокольни.


Все предыдущие публикации.

Читать дальше →

Вклад авторов