Как стать автором
Поиск
Написать публикацию
Обновить
7.4

R *

Язык для статистической обработки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Семантический поиск и генерация текста на R. Часть 1

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров3.1K

Для этой задачи использую LLM (Large Language Models - например, chatGPT или opensouce модели) для внутренних задач (а-ля поиск или вопрос-ответную систему по необходимым данным).

Я пишу на языке R и также увлекаюсь NLP (надеюсь, я не один такой). Но есть сложности из-за того, что основной язык для LLM - это python. Соответственно, на R мало примеров и документации, поэтому приходится больше времени тратить, чтобы “переводить” с питона, но с другой стороны прокачиваюсь от этого.

Чтобы не городить свою инфраструктуру, есть уже готовые решения, чтобы быстро и удобно подключить и использовать. Это LangChain и LlamaIndex. Я обычно использую LangChain (дальше он и будет использоваться). Не могу сказать, что лучше, просто так повелось, что использую первое. Они написаны на питоне, но с помощью библиотеки reticulate всё работает и на R.

Читать далее

Язык программирования R для статистической обработки данных

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров9.6K

Гибадуллина Д.А  Гибадуллина Дарья Анатольевна/ Gibadullina Daria Anatolievna- студент второго курса бакалавриат Уральского филиала Финансового университета направления бизнес-информатика 

Аннотация: Язык программирования R имеет широкое применение в области статистических вычислений и анализа данных В данной статье мы рассмотрим основные возможности языка R, его синтаксис и особенности, а также примеры использования для решения задач статистического анализа данных. Также мы рассмотрим некоторые популярные пакеты и библиотеки, которые доступны для работы с данными в R. Данная статья поможет читателю ознакомиться с основами языка R и его применением в статистических вычислениях. 

Annotation: The R programming language has wide application in the field of statistical computing and data analysis. In this article, we will consider the main features of the R language, its syntax and features, as well as examples of use for solving problems of statistical data analysis. We will also look at some popular packages and libraries that are available for working with data in R. This article will help the reader to familiarize himself with the basics of the R language and its application in statistical computing. 

Ключевые слова: язык программирования, язык программирования R, синтаксис R, библиотеки R, анализ данных, статистический анализ, обработка данных на R. 

Keywords: programming language, R programming language, R syntax, R libraries, data analysis, statistical analysis, data processing in R. 

Читать далее

Временные ряды в R

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров7.2K

Привет, Хабр!

Сегодня мы поговорим о временных рядах, и как мы можем работать с ними, используя ЯП R. Временные ряды позволяют понять динамику процессов, изменяющихся со временем, и предсказывать тенденции.

Читать далее

Xg предсказывает результаты матчей?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров4.1K

Для начала определим для кого эта статья? Моя цель заинтересовать не только обыкновенных зрителей, но и тех, кто уже занимается футбольной аналитикой. В статье я постараюсь показать интересные исследования об Xg.

Многие из тех, кто смотрит футбол и читает новости когда-нибудь видел метрику «xg». Что она вообще означает? Простыми словами Xg это количество ожидаемых голов. Т.е. каждый нанесённый удар по воротам имеет вероятность конвертироваться в забитый мяч, но с каждой позиции эта вероятность разная (если углубляться, то станет очевидным, что xg зависит от нескольких параметров, а не от одной позиции). К примеру, самая высокая вероятность забить мяч при исполнении пенальти. Чаще всего с пенальти дают 0.79 xg. Необходимо учитывать, что единой формулы расчёта xg нет, каждый провайдер рассчитывает её по-своему. Так например, для написания этой статьи я использовал данные с сайта https://understat.com/, но, если мы посмотрим другие источники, цифры будут отличаться.

Моя задача узнать, насколько точно Xg предсказывает количество голов в матче. Исследование будем проводить для АПЛ сезона 2022/2023. В данном исследовании мы ограничимся простыми методами анализа. Я составил таблицу из 380 матчей АПЛ.

Читать далее

Хорошая идея не пропадает зря или о пакете gMWT

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров937

В заметке кратко описан функционал пакета gMWT, который реализовывает обобщенный тест Манна-Уитни. Описано его применение для проверки гипотез о равенстве законов распределения для случая двух и трех выборок, продемонстрировано его применение для проверки гипотез о принадлежности изучаемого распределения некоторому закону.

Читать далее

Когда надоела путаница или о идее пакета familial

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1K

В заметке рассказывается о функционале достаточно простого пакета familial, реализующего весьма оригинальную идею о проверке статистических гипотез, связанных с семейством центральных параметров. Концепция данного семейства была изначально разработана Питером Хубертом в статье «Robust estimation of a location parameter».

Читать далее

Как обучить миллионы моделей прогнозирования временными сериями

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.6K

Не буду вдаваться в подробности о том, откуда берутся миллионы временных серий и почему они умудряются изменяться еженедельно. Просто возникла задача еженедельно сделать прогноз на 2-8 недель по паре миллионов временных серий. Причем не просто прогноз, а с кроссвалидацией и выбором наиболее оптимальной модели (ARIMA, нейронная сеть, и т.п.).

Имеется свыше терабайта исходных данных и достаточно сложные алгоритмы трансформации и чистки данных. Чтобы не гонять большие массивы данных по сети решено было реализовать прототип на одном сервере.

Читать далее

Статистические тесты и проверка гипотез в R

Время на прочтение15 мин
Количество просмотров13K

Современный мир насыщен данными, анализ информации становится критически важным инструментом для принятия обоснованных решений. Однако просто иметь данные не достаточно – необходимо извлечь из них ценную информацию. В этом процессе статистические тесты и проверка гипотез играют важнейшую роль. Они позволяют нам сделать выводы на основе данных, опираясь на строгие методы анализа, и тем самым способствуют принятию обоснованных решений.

Статистические тесты – это мощный инструмент, который позволяет провести объективную оценку данных и проверить гипотезы, основанные на этой информации. Они позволяют определить, насколько вероятно, что наблюдаемые различия или закономерности случайны, а не реально существующие в популяции. Статистические тесты позволяют избежать ошибок и предоставляют научно обоснованный подход к анализу данных.

Читать далее

Воспроизведение карты биома Уиттакера из журнала Nature Communications с помощью R

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.6K

Биом Уиттекера, также известный как метод классификации экосистем, делит экосистемы на поверхности земли на различные типы на основе таких факторов, как географическое распределение и условия окружающей среды.Этот метод классификации был предложен американским экологом Робертом Уиттакером (Robert Whittaker) в 1962 году, целью которого является улучшение понятий и описаний разнообразия и функций экосистем. Уиттакер использует два фактора для классификации биологических сообществ: осадки и температуру.

Читать далее

Профилирование производительности R-скриптов

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.3K

Когда мы занимаемся анализом данных, каждая миллисекунда имеет значение. Профилирование производительности - это мощный инструмент, который позволяет нам выявлять узкие места в нашем коде, те самые места, где программа затрачивает больше всего времени. Понимание этих моментов позволяет нам сосредотачиваться на оптимизации и сделать нашу работу более быстрой и эффективной.

Цель этой статьи - рассмотреть методы профилирования производительности и оптимизации для повышения эффективности R-скриптов. Мы поговорим о встроенных инструментах R, которые помогают нам профилировать код, а также о том, как правильно анализировать результаты профилирования.

Читать далее

На берегу океана или о тестах для таблиц 2*k

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров676

Сообщение посвящено простому (всего 1 функция ) пакету chisquare, который реализует статистический тест на равенство пропорций для таблиц 2*k, выдает по ней подробную информацию, а также приятно оформленные таблицы в виде графиков

Читать далее

Как биостатистика помогала в пандемию COVID-19

Время на прочтение11 мин
Количество просмотров1.4K

В этой статье расскажем о проекте, реализованном во время первой и второй волн пандемии COVID-19. Сегодня его идеолог и основной разработчик — Евгений Бакин — учится в магистратуре в ИТМО на программе Public Health Sciences (мы писали о ней в блоге). Проект реализовывался вне стен университета, но, во‑первых, он интересен сам по себе — математические методы, примененные к стандартным анализам крови, на пике заболеваемости COVID-19 немного упорядочили хаос для врачей и помогли спасти жизни людей. А во‑вторых, проект и подтолкнул специалиста в магистратуру. Пандемия имела огромные социально‑экономические последствия и повлияла на систему здравоохранения — Евгений заинтересовался более высокоуровневым взглядом на проблему.

Читать далее

Как IT-специалисты-экологи спасут планету

Время на прочтение6 мин
Количество просмотров5.3K

Всем привет! Я тот самый человек, который учится на бакалавриате по направлению "Экология и природопользование" в обычном Российском ВУЗе. И будучи человеком, которому трудно утолить жажду знаний, мне приходится часто себя ловить на мыслях об улучшении и оптимизации многих процессов, в том числе и в образовании. В целом, образовательная программа моего ВУЗа достаточно неплоха, и мы получаем от преподавателей (конечно же, не от всех) информацию из научных кругов, говорим о инновационных исследованиях и приборах, которые дают новый толчок в изучении такой многокомпонентной науки как экология.

Я думаю, не трудно догадаться, что в современных реалиях все завязано на IT, в том числе и экология. Все меньше становится природных процессов, в которых не используются информационные технологии. Честно, даже затрудняюсь привести такой пример. И вот тут возникает реальная проблема подготовки квалифицированных кадров, которые должны отвечать современным требованиям. И я тут даже не про работодателей, а про жизнь – обычную человеческую бытовуху. Мир меняется бешенными темпами — это факт. Природные процессы меняются, как и мы с вами – также стремительно и безвозвратно. Научное сообщество даже не сразу успевает эти изменения детектировать и осмыслять, поэтому вопрос поиска и подготовки специалистов на стыке нескольких наук не менее актуальная проблема чем изменение климата.

С вашего позволения я попытаюсь рассмотреть некоторые проблемы и пути решения подготовки айтишников-экологов/экологов-айтишников, а также ответить на вопрос как IT-специалисты-экологи спасут планету.

Читать далее

Ближайшие события

R — движок для биоинформатики и датасайнс

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.8K

R — это не просто язык программирования, это лингва-франка для многомиллионного сообщества статистиков, биоинформатиков, датасаентистов. Обсудим несколько знаковых инструментов в R: их историю и зачем они нужны.

Читать далее

Зачем учить R в 2023 году?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров13K

Всем привет, я Дмитрий Володин, Analytics Engineer из TrafficStars. Сегодня я хочу немного порефлексировать на тему спроса на R и целесообразности его изучения.

Текст будет выражать личный опыт и мнение, я не буду проводить аналитическую работу по сравнению средних зарплат и количества вакансий на разных языках. Скорее поделюсь своими мыслями. И постараюсь оставаться не предвзятым по максимуму.

Читать далее

Подключаемся к Notion API при помощи R

Время на прочтение5 мин
Количество просмотров5.4K

Этот небольшой пример того, как начать работу с Notion API. Вся документация находится здесь

Для начала работы с Notion API и нужно выполнить несколько шагов:

Читать далее

Элементы функционального программирования в R

Время на прочтение13 мин
Количество просмотров2.8K

"На небе только и разговоров, что о функциональном программировании."

Всем привет. Меня зовут Дмитрий Володин, я Analytics Engineer в TrafficStars. Сегодня я хочу рассказать вам о приёмах ФП в R. Исходить я постараюсь из более-менее реальных задач, а не учебных, чтобы показать, что элементам ФП вполне есть место в вашем ящике с инструментами.

Читать далее

Новое повсюду или статистические тесты эквивалентности

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2K

Классические статистические тесты – это, как правило, тесты, проверяющие гипотезу о равенстве (медианы определенному значению, средних в двух независимых группах, дисперсии во многих зависимых группах, коэффициента корреляции нулю и т.д.).

Однако существует и альтернативный подход - так называемая группа тестов эквивалентности, которая проверяет гипотезу о том, находится ли наблюдаемая разница / значение в интервале незначимости

В статье приведен обзор пакета negligible на R, который реализует данные статтесты. Обзор сопровождается примерами применения данной группы тестов на встроенных базах данных

Читать далее

Запуск R кода по расписанию

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров2.4K

Всем привет. Меня зовут Дмитрий Володин, я Analytics Engineer в Trafficstars. Когда‑то я, как и все, был начинающим аналитиком данных на R и передо мной на этом этапе остро встал вопрос запуска моего кода по расписанию. Ещё желательно было иметь возможность запускать откуда угодно. А уж запускать «кнопочкой play» вообще казалось мечтой.

Эта статья нацелена на начинающих аналитиков данных (не обязательно на R). Также она может быть полезна и опытным аналитикам. Особенно если плохо с коммуникацией с разработчиками и инфраструктурщиками (или их просто нет у вас в компании). Я пересказываю свой опыт, но кажется, он будет весьма полезен читателям.

Читать далее

Заметки по R: находим каждый последний понедельник месяца в наборе данных

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.4K

Периодически возникают задачи в R, которые просты по своей сути, но не очевидны для тех, кто только начинает свой путь.

Представим, что в нашей организации каждый последний понедельник месяца происходит учет товара. В эти дни нет продаж. И мы бы хотели учесть это в наших прогнозах. Стоит вопрос: как в данных "выловить" эти понедельники, не используя function.

Читать далее

Вклад авторов