Небольшой эксперимент по применению LLM при решении задач анализа данных на R и краткие выводы по нему.
Пользователь
Хорошая идея не пропадает зря или о пакете gMWT
В заметке кратко описан функционал пакета gMWT, который реализовывает обобщенный тест Манна-Уитни. Описано его применение для проверки гипотез о равенстве законов распределения для случая двух и трех выборок, продемонстрировано его применение для проверки гипотез о принадлежности изучаемого распределения некоторому закону.
Когда надоела путаница или о идее пакета familial
В заметке рассказывается о функционале достаточно простого пакета familial, реализующего весьма оригинальную идею о проверке статистических гипотез, связанных с семейством центральных параметров. Концепция данного семейства была изначально разработана Питером Хубертом в статье «Robust estimation of a location parameter».
На берегу океана или о тестах для таблиц 2*k
Сообщение посвящено простому (всего 1 функция ) пакету chisquare, который реализует статистический тест на равенство пропорций для таблиц 2*k, выдает по ней подробную информацию, а также приятно оформленные таблицы в виде графиков
Новое повсюду или статистические тесты эквивалентности
Классические статистические тесты – это, как правило, тесты, проверяющие гипотезу о равенстве (медианы определенному значению, средних в двух независимых группах, дисперсии во многих зависимых группах, коэффициента корреляции нулю и т.д.).
Однако существует и альтернативный подход - так называемая группа тестов эквивалентности, которая проверяет гипотезу о том, находится ли наблюдаемая разница / значение в интервале незначимости
В статье приведен обзор пакета negligible на R, который реализует данные статтесты. Обзор сопровождается примерами применения данной группы тестов на встроенных базах данных
Визуализация решает или про иллюстрацию статистических тестов
В статье представлены результаты использования пакетов ggstatsplot и ggpmisc, позволяющих визуализировать результаты проверки статистических гипотез и параметры уравнений регрессий.
Вглядываясь в зеркала или еще раз о проблеме гетероскедастичности
Рассмотрен функционал пакета skedastic, содержащего 20+ тестов гетероскедастичности различных моделей. Описан функционал пакета и проведен простенький эксперимент по определению эффективности этих тестов.
В туманности статистических гипотез, или про пакет SHT
Чуть меньше месяца назад в R появился пакет SHT, в котором реализованы несколько интересных видов статистических тестов (если точнее, там реализовано 53 теста). Данная статья – краткий обзор этих тестов и гипотез, проверяемых с их помощью/
Все статтесты разбиты на 16 групп, среди них есть и весьма экзотичные, например, тесты проверки равенства ковариационных матриц, или тест проверки одновременного равенства средних и дисперсий в двух группах. Особый интерес вызывает то, что примерно половина тестов работают и со случаями многих переменных
Регрессия и функции с неустранимыми разрывами первого рода
В заметке рассматривается функционал нового пакета BinSeqBstrap, который посвящен решению задачи определения неустранимых разрывов первого рода в задачах регрессии.
Изобретем велосипед снова или построим график комбинаций бинарных переменных
Про пакет ComplexUpset в R.
Пакет, позволяющий визуализировать интересным способом комбинацию бинарных переменных. Выглядит весьма наглядно + есть множество настроек, позволяющих модифицировтаь внешний вид графика и вполне сочетается с ggplot2.
Расширяя границы или о задаче проверки гипотезы о нормальности многомерного распределения
Путеводитель по пакету MVN, посвященному проверке гипотезы о нормальности многомерного распределения.
Допустим, у нас есть некоторое совместное распределение n переменных – и нам необходимо проверить, является ли оно нормальным. Решить эту задачу просто нам мешает один маленький факт – из нормальности многомерного распределения следует нормальность распределения каждой переменной в отдельности, но в обратную сторону это работает только при случае независимости компонентов распределения, что на практике не выполняется почти никогда. Поэтому приходится что-то изобретать.
Схема проверки статистической гипотезы о нормальности многомерного распределения идентична соответствующей для одномерного случая, только в ней используются другие тесты. В пакете применяются тесты Мардиа, Хенце-Циклера, Ройстона, Дорника-Хансена, Шекели-Риццо, разбирается применение всего этого к реальным данным.
Взглянем на квантильную регрессию
Материал напоминает основы квантильной регрессии и посвящен обзору идеи, лежащей в основе недавно вышедшего пакета "conquer", а также его апробации при работе с реальными данными.
Скучно, просто и ограниченно — все это изотоническая регрессия
Обзор пакета cir о достаточно специфическом виде регрессии - изотонической. По сути дела, это больше изотоническая интерполяция, но раз авторы сказали "регрессия" - пусть будет регрессия.
В глубины регрессии или про пакет frm в R
В статье обозревается оригинальный подход к построению моделей цензурированной регрессии, если зависимая переменная лежит в интервале [0;1] с помощью пакета frm.
Мы не идем простыми путями или о применении P-сплайнов в регрессии
Обзор части функционала нового пакета SOP, реализующего алгоритм построения уравнения регрессии с использованием модификаций P-сплайнов.
Задача всегда проста, если знаешь ответ или к вопросу отбора признаков
Поверхностный обзор нового пакета FSinR.
Модификация EM-алгоритма для решения задачи кластеризации с выбросами
Основной из проблем кластерного анализа практических данных является наличие выбросов. Большинство существующих методов кластеризации не учитывают их существование, из-за этого явно аномальные наблюдения включаются в состав каких-то кластеров, что может серьезно смещать их центры и влиять на качество классификации. Разумеется, можно сначала исходные данные проверить на выбросы, их отсеять и т.д., но тогда задача превратиться в двухэтапную, а хотелось бы, чтобы было "все и сразу".
Один из подходов к решению данной задачи (чтобы метод кластеризации автоматически отсеивал выбросы) получил название "optimally tuned robust improper maximum likelihood estimator" и был описан вот в этой статье 2017 года (http://dx.doi.org/10.1080/01621459.2015.1100996), а недавно и получил реализацию на R. Поговорим о нем.
Кластеризация смешанных (числовых и категориальных) данных в R
Основная проблема всех классических алгоритмов анализа данных – это их малая применимость к практическим задачам. Относится это и к задачам кластеризации.
В реальных (да и в научных задачах) возникает необходимость в кластеризации данных смешанного типа – например, когда половина переменных числовые, а половина переменных – категориальные.
По отдельности данные задачи решаются стандартными способами (вот, например, статья про иерархическую кластеризацию чисто категориальных данных - https://habr.com/ru/company/otus/blog/461741/), однако решение задачи кластеризации смешанных данных представляет некоторые трудности, связанные в основном со сложностью расчета величины расстояния между наблюдениями.
Минутка теории
Существующие методы предполагают расчет расстояния при Гауэра использовании функции daisy (daisy(method = "gower")) в пакете cluster.
Однако, как утверждают создатели пакета clustMixType, этот способ неприменим при обработки больших объемов данных, и в их пакете реализован иной метод
Теоретические основы реализованного метода кластеризации были разработаны еще в 1999 году в работе Z. Huang. Extensions to the k-means algorithm for clustering large data sets with categorical variables. Data Mining and Knowledge Discovery, 2:283–304, 1998. doi: 10.1023/A:1009769707641. Он получил название метода k-prototypes и основан на следующей формуле расстояния:
Проверка гипотезы равенства средних при неравной дисперсии в R
Задача определения равенства средних при условии равных дисперсий - классическая задача математической статистики, которую решают в техникумах и ВУЗах. Однако МС как наука очень похожа на болото - при попытке спрыгнуть в сторону с кочки классически решаемой задачи можно увязнуть или вовсе утонуть
Рассматриваемая задача - одна из таких. На самом деле, заботливыми математиками уже разработано порядка двух десятков разных статистических тестов для решения такого рода задач, что ставит вопрос из разряда "какой из них применять"
Для решения этой задачи была разработана процедура, позволяющая для каждого конкретного случая определить лучший статистический тест.
Информация
- В рейтинге
- Не участвует
- Откуда
- Нижегородская обл., Россия
- Дата рождения
- Зарегистрирован
- Активность