Как стать автором
Обновить
19
0
Артем Черемухин @acheremuhin

Пользователь

Хорошая идея не пропадает зря или о пакете gMWT

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 714

В заметке кратко описан функционал пакета gMWT, который реализовывает обобщенный тест Манна-Уитни. Описано его применение для проверки гипотез о равенстве законов распределения для случая двух и трех выборок, продемонстрировано его применение для проверки гипотез о принадлежности изучаемого распределения некоторому закону.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 0

Когда надоела путаница или о идее пакета familial

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 912

В заметке рассказывается о функционале достаточно простого пакета familial, реализующего весьма оригинальную идею о проверке статистических гипотез, связанных с семейством центральных параметров. Концепция данного семейства была изначально разработана Питером Хубертом в статье «Robust estimation of a location parameter».

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Комментарии 2

На берегу океана или о тестах для таблиц 2*k

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 455

Сообщение посвящено простому (всего 1 функция ) пакету chisquare, который реализует статистический тест на равенство пропорций для таблиц 2*k, выдает по ней подробную информацию, а также приятно оформленные таблицы в виде графиков

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0

Новое повсюду или статистические тесты эквивалентности

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 1.2K

Классические статистические тесты – это, как правило, тесты, проверяющие гипотезу о равенстве (медианы определенному значению, средних в двух независимых группах, дисперсии во многих зависимых группах, коэффициента корреляции нулю и т.д.).

Однако существует и альтернативный подход - так называемая группа тестов эквивалентности, которая проверяет гипотезу о том, находится ли наблюдаемая разница / значение в интервале незначимости

В статье приведен обзор пакета negligible на R, который реализует данные статтесты. Обзор сопровождается примерами применения данной группы тестов на встроенных базах данных

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 2

Визуализация решает или про иллюстрацию статистических тестов

Время на прочтение 4 мин
Количество просмотров 1.9K

В статье представлены результаты использования пакетов ggstatsplot и ggpmisc, позволяющих визуализировать результаты проверки статистических гипотез и параметры уравнений регрессий.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 0

Вглядываясь в зеркала или еще раз о проблеме гетероскедастичности

Время на прочтение 2 мин
Количество просмотров 1.6K

Рассмотрен функционал пакета skedastic, содержащего 20+ тестов гетероскедастичности различных моделей. Описан функционал пакета и проведен простенький эксперимент по определению эффективности этих тестов.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 3

В туманности статистических гипотез, или про пакет SHT

Время на прочтение 9 мин
Количество просмотров 1.1K

Чуть меньше месяца назад в R появился пакет SHT, в котором реализованы несколько интересных видов статистических тестов (если точнее, там реализовано 53 теста). Данная статья – краткий обзор этих тестов и гипотез, проверяемых с их помощью/

Все статтесты разбиты на 16 групп, среди них есть и весьма экзотичные, например, тесты проверки равенства ковариационных матриц, или тест проверки одновременного равенства средних и дисперсий в двух группах. Особый интерес вызывает то, что примерно половина тестов работают и со случаями многих переменных

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Регрессия и функции с неустранимыми разрывами первого рода

Время на прочтение 3 мин
Количество просмотров 2.7K

В заметке рассматривается функционал нового пакета BinSeqBstrap, который посвящен решению задачи определения неустранимых разрывов первого рода в задачах регрессии.

Читать далее
Всего голосов 16: ↑16 и ↓0 +16
Комментарии 4

Изобретем велосипед снова или построим график комбинаций бинарных переменных

Время на прочтение 2 мин
Количество просмотров 1.5K

Про пакет ComplexUpset в R.

Пакет, позволяющий визуализировать интересным способом комбинацию бинарных переменных. Выглядит весьма наглядно + есть множество настроек, позволяющих модифицировтаь внешний вид графика и вполне сочетается с ggplot2.

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 0

Расширяя границы или о задаче проверки гипотезы о нормальности многомерного распределения

Время на прочтение 4 мин
Количество просмотров 2.8K

Путеводитель по пакету MVN, посвященному проверке гипотезы о нормальности многомерного распределения.

Допустим, у нас есть некоторое совместное распределение n переменных – и нам необходимо проверить, является ли оно нормальным. Решить эту задачу просто нам мешает один маленький факт – из нормальности многомерного распределения следует нормальность распределения каждой переменной в отдельности, но в обратную сторону это работает только при случае независимости компонентов распределения, что на практике не выполняется почти никогда. Поэтому приходится что-то изобретать.

Схема проверки статистической гипотезы о нормальности многомерного распределения идентична соответствующей для одномерного случая, только в ней используются другие тесты. В пакете применяются тесты Мардиа, Хенце-Циклера, Ройстона, Дорника-Хансена, Шекели-Риццо, разбирается применение всего этого к реальным данным.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 3

Взглянем на квантильную регрессию

Время на прочтение 4 мин
Количество просмотров 5.1K

Материал напоминает основы квантильной регрессии и посвящен обзору идеи, лежащей в основе недавно вышедшего пакета "conquer", а также его апробации при работе с реальными данными.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 5

Скучно, просто и ограниченно — все это изотоническая регрессия

Время на прочтение 3 мин
Количество просмотров 3.6K

Обзор пакета cir о достаточно специфическом виде регрессии - изотонической. По сути дела, это больше изотоническая интерполяция, но раз авторы сказали "регрессия" - пусть будет регрессия.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 2

В глубины регрессии или про пакет frm в R

Время на прочтение 4 мин
Количество просмотров 1.4K

В статье обозревается оригинальный подход к построению моделей цензурированной регрессии, если зависимая переменная лежит в интервале [0;1] с помощью пакета frm.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 3

Мы не идем простыми путями или о применении P-сплайнов в регрессии

Время на прочтение 5 мин
Количество просмотров 1.5K

Обзор части функционала нового пакета SOP, реализующего алгоритм построения уравнения регрессии с использованием модификаций P-сплайнов.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Модификация EM-алгоритма для решения задачи кластеризации с выбросами

Время на прочтение 4 мин
Количество просмотров 1.7K

Основной из проблем кластерного анализа практических данных является наличие выбросов. Большинство существующих методов кластеризации не учитывают их существование, из-за этого явно аномальные наблюдения включаются в состав каких-то кластеров, что может серьезно смещать их центры и влиять на качество классификации. Разумеется, можно сначала исходные данные проверить на выбросы, их отсеять и т.д., но тогда задача превратиться в двухэтапную, а хотелось бы, чтобы было "все и сразу".

Один из подходов к решению данной задачи (чтобы метод кластеризации автоматически отсеивал выбросы) получил название "optimally tuned robust improper maximum likelihood estimator" и был описан вот в этой статье 2017 года (http://dx.doi.org/10.1080/01621459.2015.1100996), а недавно и получил реализацию на R. Поговорим о нем.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 2

Кластеризация смешанных (числовых и категориальных) данных в R

Время на прочтение 4 мин
Количество просмотров 3.1K

Основная проблема всех классических алгоритмов анализа данных – это их малая применимость к практическим задачам. Относится это и к задачам кластеризации.

В реальных (да и в научных задачах) возникает необходимость в кластеризации данных смешанного типа – например, когда половина переменных числовые, а половина переменных – категориальные.

По отдельности данные задачи решаются стандартными способами (вот, например, статья про иерархическую кластеризацию чисто категориальных данных - https://habr.com/ru/company/otus/blog/461741/), однако решение задачи кластеризации смешанных данных представляет некоторые трудности, связанные в основном со сложностью расчета величины расстояния между наблюдениями.

Минутка теории

Существующие методы предполагают расчет расстояния при Гауэра использовании функции daisy (daisy(method = "gower")) в пакете cluster.

Однако, как утверждают создатели пакета clustMixType, этот способ неприменим при обработки больших объемов данных, и в их пакете реализован иной метод

Теоретические основы реализованного метода кластеризации были разработаны еще в 1999 году в работе Z. Huang. Extensions to the k-means algorithm for clustering large data sets with categorical variables. Data Mining and Knowledge Discovery, 2:283–304, 1998. doi: 10.1023/A:1009769707641. Он получил название метода k-prototypes и основан на следующей формуле расстояния:

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 2

Проверка гипотезы равенства средних при неравной дисперсии в R

Время на прочтение 3 мин
Количество просмотров 3.2K

Задача определения равенства средних при условии равных дисперсий - классическая задача математической статистики, которую решают в техникумах и ВУЗах. Однако МС как наука очень похожа на болото - при попытке спрыгнуть в сторону с кочки классически решаемой задачи можно увязнуть или вовсе утонуть

Рассматриваемая задача - одна из таких. На самом деле, заботливыми математиками уже разработано порядка двух десятков разных статистических тестов для решения такого рода задач, что ставит вопрос из разряда "какой из них применять"

Для решения этой задачи была разработана процедура, позволяющая для каждого конкретного случая определить лучший статистический тест.

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 0

Информация

В рейтинге
Не участвует
Откуда
Нижегородская обл., Россия
Дата рождения
Зарегистрирован
Активность