Как стать автором
Обновить
8.03

R *

Язык для статистической обработки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Создание и обработка медицинской базы данных с помощью python/R

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров2.8K

Идея: в медицинском учреждении выписные эпикризы (информация из истории болезни) пациентов хранятся в общегоспитальной локальной сети.

Необходимо сформировать базу данных пациентов с перенесенным заболеванием COVID-19 (один выписной эпикриз ДО заболевания COVID-19, один выписной эпикриз во время заболевания и один ПОСЛЕ заболевания).

Telegram для контактов: @doctor_pogozhy
Всего голосов 10: ↑8 и ↓2+9
Комментарии11

Новости

Как на самом деле определять автора с помощью компьютера?

Время на прочтение15 мин
Количество просмотров2.4K

Атрибуция — определение авторства — имеет много применений как в науке, так и в приземленных задачах, например, в судебной практике. Ниже мы будем говорить о текстовой атрибуции, и иногда от того, кто автор текста, зависит судьба крупной суммы денег, иногда — карьера или свобода человека, а иногда людям просто интересно, кто же написал то или иное произведение. Так, с точки зрения науки о литературе, строго говоря, всё равно, является автором «Тихого Дона» Михаил Шолохов или Фёдор Крюков, но общественность этот вопрос волновать не перестанет, наверное, уже никогда.

Атрибуция может выглядеть по-разному. Надежнее всего такая, которая основана на документах. Если бухгалтерия в своей строгой отчетности зафиксировала выплату денег за определенный текст некоторому лицу, очень высока вероятность, что получатель денег и есть автор этого текста. Вероятность этого выше, чем при любом другом способе выяснить, кто автор.

Но у нас не всегда есть надежные документы. И даже чаще их нет. Тогда единственным способом докопаться до истины будет сам текст, и люди верят, что, опираясь только на содержащиеся в нем косвенные свидетельства, можно установить, кто его написал. Хотя вообще-то это не более чем самонадеянная гипотеза, но мифы эпохи модерна слишком сильны.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии11

Шесть причин выучить Julia в 2024 году

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров13K


В этом году Экспонента вместе со средой разработки
Engee стали информационными партнерами бесплатной Летней школы Julia. Это уникальное событие для России, ведь еще никто не проводил онлайн-курсы по этому современному и очень перспективному языку программирования. Мы уверены, что в современных политических и экономических реалиях за этим языком видится большое будущее, особенно в научной и инженерной средах, и приглашаем всех желающих принять участие в этом важном событии.

А чтобы подогреть ваш интерес, мы подготовили небольшую статью (опирались на этот материал, спасибо авторам, и добавили много тезисов на основе нашего опыта с Julia) с описанием основных причин, почему вы должны срочно заинтересоваться Julia и подать заявку на Летнюю школу. Приятного чтения!

Читать далее
Всего голосов 8: ↑4 и ↓4+2
Комментарии17

Парсим API HeadHunter с помощью R

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.7K

В данной статье мы рассмотрим, как при помощи языка R обработать запросы API hh.ru. Мы подробно разберем, как получить OAuth токен для доступа к API hh.ru, а также как использовать библиотеки tidyverse, httr2, и furrr для эффективного сбора и анализа данных. Начнем с регистрации приложения на hh.ru и получения необходимых данных для авторизации. Затем перейдем к выполнению запросов к API, получению информации о вакансиях, их фильтрации и преобразованию в удобный формат для дальнейшего анализа в R.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии3

Истории

Не ggplot2 единым: визуализация в R

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров881

Говорите про R что хотите, но когда дело касается визуализации данных, он диктует моду. Не без помощи ggplot2, конечно. Однако стоит ли ограничивать себя только им ? Да и на что способен R без него. Узнаем в этой статье.

Читать далее
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

Про обязательность поправки на множественные сравнения, которая часто игнорируется адептами Data Driven методов

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров1.5K

Когда проводится один статистический тест на значимость различий, всегда есть шанс (ошибка первого рода = 5%, на уровне значимости p=0.05) получить ложный положительный результат случайно. Эта ошибка означает, что мы можем ложно утверждать, что значимое различие существует, притом, что в реальности этой значимости нет.

Когда проводится несколько однотипных тестов подряд, каждый из них имеет 5% шанс на ложный положительный результат. Если коррекция отсутствует, то вероятность, что хотя бы один из этих тестов даст ложный положительный результат, быстро возрастает.

Предположим, что делается 20 однотипных тестов. Вероятность того, что получится ложный положительный результат равна 1 - (1 - 0.05)^2064%.

Как контролировать ошибки читать далее
Всего голосов 11: ↑9 и ↓2+11
Комментарии0

Повышенный спрос в такси или как работает сурдж: от данных до моделей

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.3K

Мы в компании MyTaxi (агрегатор такси) стремимся удовлетворить клиента и водителя. Для первых одна из важных потребностей - быстрая подача машины, а для других - увеличение количества заказов (или уменьшение времени простоя) и, следовательно, заработка. Для нас это означает малое количество отмен и всё большее число пользователей захотят использовать наш сервис.

Важный фактор, который на это влияет - цена. Она обычно складывается из стоимости подачи, километража, времени поездки и… сурджа.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии2

Библиотека dplyr в R

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.3K

Библиотека dplyr в R позволяет манипулировать данными, проводить фильтрацию, выборку, сортировку, группировку данных и многое другое.

В этой статье как раз и рассмотрим эту библиотеку.

Читать далее
Всего голосов 11: ↑7 и ↓4+7
Комментарии1

LLM как универсальная «отмычка» студента — настолько ли все хорошо?

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров4.4K

Небольшой эксперимент по применению LLM при решении задач анализа данных на R и краткие выводы по нему.

Читать далее
Всего голосов 27: ↑26 и ↓1+35
Комментарии4

Алгоритм расчёта расстояния между строками

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров6.9K

По работе стояла задача оптимизации поиска по адресам (улицы, дома и объекты). Главный критерий - нахождение адреса, если написано с ошибками или не дописан он в полной мере. Bert’ы, косинусные расстояния эмбеддингов и т.д. не подходили, так как они заточены под смысловой поиск, а в адресах смысла нет. TF-IDF c лемматизацией тоже не очень подходил для этой задачи, результаты были плохие.

Для реализации начал использовать расстояние Дамерау-Левенштейна, и в последствие, развил это до собственного алгоритма, который находит расстояние между двумя строками.

Цель данного поста описание только алгоритма.

Читать далее
Всего голосов 16: ↑16 и ↓0+16
Комментарии17

Где открыть магазин? Путешествие в геопространственный анализ и обратно

Уровень сложностиПростой
Время на прочтение21 мин
Количество просмотров3.2K

В статье расскажу поподробнее про оценку локаций для бизнеса.

Проблема классическая: ищем место для открытия нового магазина/ресторана/пиццерии.

Сразу скажу, что при помощи гео я решал очень узкий набор задач:

Оценить существующие локации с т.з. плотности населения, конкуренции, объема рынка. Найти новые точки для открытия или переезда бизнеса;

Использовать признаки близости покупателя к бизнесу/конкурентам в клиентской аналитике для предсказаний оттока и откликов на рассылки/оффлайн рекламу;

Сегодня расскажу поподробнее про оценку локаций. Все работы я производил на языке R.

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии6

Время есть отношение бытия к небытию. Немного слов про Time-to-event analysis

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.5K

Всем доброго дня!

Некоторое время назад нами была написана обзорная статья о методах анализа данных, используемых при разработке инновационных лекарств, и теперь пришло время поподробнее остановиться на отдельных пунктах этой публикации.

Сегодня мы поговорим о таком подходе как анализ выживаемости (survival analysis) или, как его еще называют, анализ времени до наступления события (time-to-event analysis, ТТЕ). Звучит немного зловеще; и действительно: лично я познакомилась с этой методикой, занимаясь оценкой эффекта различных видов терапии на выживаемость пациентов с онкологическими заболеваниями. Забегая вперед, скажу, что сфера применения ТТЕ значительно шире, поэтому ее понимание может пригодиться широкому кругу специалистов. Данная статья освящает наиболее базовые концепции TTE, однако в конце искушенный читатель найдет список более исчерпывающих трудов.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Обзор библиотеки drake в R

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров656

Drake предлагает систематический подход к построению и управлению зависимостями в проектах, автоматизируя процесс обработки данных и анализа. С помощью drake можно отслеживать изменения в коде и данных, автоматически перезапуская только те части анализа, которые были изменены.

Создатель drake, Уилл Ландау, искал способ улучшить репродуктивность исследований в R, и так родилась библиотека drake. С тех пор она претерпела множество изменений и улучшений.

Читать далее
Всего голосов 7: ↑6 и ↓1+7
Комментарии2

Ближайшие события

19 сентября
CDI Conf 2024
Москва
24 сентября
Конференция Fin.Bot 2024
МоскваОнлайн
30 сентября – 1 октября
Конференция фронтенд-разработчиков FrontendConf 2024
МоскваОнлайн

Обзор библиотеки Stan в R

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1.3K

Приветствую!

Stan - это библиотека на C++, предназначенная для байесовского моделирования и вывода. Она использует сэмплер NUTS, чтобы создавать апостериорные симуляции модели, основываясь на заданных пользователем моделях и данных. Так же Stan может использовать алгоритм оптимизации LBFGS для максимизации целевой функции, к примеру как логарифмическое правдоподобие.

Для облегчения работы с Stan из языка программирования R доступен пакет rstan, который предоставляет интерфейс R для Stan.

Сегодня мы и рассмотрим этот пакет.

Читать далее
Всего голосов 10: ↑8 и ↓2+8
Комментарии0

Параллельное выполнение в R

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.2K

Привет, Хабр!

Параллельные вычисления – подход к проектированию и выполнению программ, который позволяет ускорить обработку данных и вычисления, используя множество процессоров или ядер процессора одновременно.

В ЯП R паралельное выполнение также имеет свои варианты реализации. Рассмотрим их в статье.

Читать далее
Всего голосов 13: ↑12 и ↓1+14
Комментарии0

Топ 5 моментов при разработке бота ТГ на R, на Serverles functions Яндекса

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров964

Возьмем пример: Как создать бота в Telegram

Если вы когда нибудь читали документацию Яндекс облака, вы в курсе. Для остальных могу пояснить. Возьмите лапидарный текст, удалите из него ясность и чёткость и вы получите документацию Яндекс облака.

В статье я хочу поделиться теми моментами которые всплыли при разработке бота в телеграм, но не описаны в документации.

Читать далее
Всего голосов 7: ↑2 и ↓5-3
Комментарии0

Семантический поиск и генерация текста на R. Часть 2

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1K

В первой части говорили про использование поиска и генерации ответа с помощью языковых моделей. В этой части рассмотрим память и агентов.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Семантический поиск и генерация текста на R. Часть 1

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.4K

Для этой задачи использую LLM (Large Language Models - например, chatGPT или opensouce модели) для внутренних задач (а-ля поиск или вопрос-ответную систему по необходимым данным).

Я пишу на языке R и также увлекаюсь NLP (надеюсь, я не один такой). Но есть сложности из-за того, что основной язык для LLM - это python. Соответственно, на R мало примеров и документации, поэтому приходится больше времени тратить, чтобы “переводить” с питона, но с другой стороны прокачиваюсь от этого.

Чтобы не городить свою инфраструктуру, есть уже готовые решения, чтобы быстро и удобно подключить и использовать. Это LangChain и LlamaIndex. Я обычно использую LangChain (дальше он и будет использоваться). Не могу сказать, что лучше, просто так повелось, что использую первое. Они написаны на питоне, но с помощью библиотеки reticulate всё работает и на R.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии4

Язык программирования R для статистической обработки данных

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров6.5K

Гибадуллина Д.А  Гибадуллина Дарья Анатольевна/ Gibadullina Daria Anatolievna- студент второго курса бакалавриат Уральского филиала Финансового университета направления бизнес-информатика 

Аннотация: Язык программирования R имеет широкое применение в области статистических вычислений и анализа данных В данной статье мы рассмотрим основные возможности языка R, его синтаксис и особенности, а также примеры использования для решения задач статистического анализа данных. Также мы рассмотрим некоторые популярные пакеты и библиотеки, которые доступны для работы с данными в R. Данная статья поможет читателю ознакомиться с основами языка R и его применением в статистических вычислениях. 

Annotation: The R programming language has wide application in the field of statistical computing and data analysis. In this article, we will consider the main features of the R language, its syntax and features, as well as examples of use for solving problems of statistical data analysis. We will also look at some popular packages and libraries that are available for working with data in R. This article will help the reader to familiarize himself with the basics of the R language and its application in statistical computing. 

Ключевые слова: язык программирования, язык программирования R, синтаксис R, библиотеки R, анализ данных, статистический анализ, обработка данных на R. 

Keywords: programming language, R programming language, R syntax, R libraries, data analysis, statistical analysis, data processing in R. 

Читать далее
Всего голосов 14: ↑6 и ↓8+2
Комментарии15

Временные ряды в R

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров4K

Привет, Хабр!

Сегодня мы поговорим о временных рядах, и как мы можем работать с ними, используя ЯП R. Временные ряды позволяют понять динамику процессов, изменяющихся со временем, и предсказывать тенденции.

Читать далее
Всего голосов 9: ↑8 и ↓1+9
Комментарии0
1
23 ...

Вклад авторов

Работа

Data Scientist
76 вакансий