Как стать автором
Обновить
24
0
Артем Черемухин @acheremuhin

Пользователь

Отправить сообщение

LLM как универсальная «отмычка» студента — настолько ли все хорошо?

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров4.5K

Небольшой эксперимент по применению LLM при решении задач анализа данных на R и краткие выводы по нему.

Читать далее
Всего голосов 27: ↑26 и ↓1+35
Комментарии4

Хорошая идея не пропадает зря или о пакете gMWT

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров907

В заметке кратко описан функционал пакета gMWT, который реализовывает обобщенный тест Манна-Уитни. Описано его применение для проверки гипотез о равенстве законов распределения для случая двух и трех выборок, продемонстрировано его применение для проверки гипотез о принадлежности изучаемого распределения некоторому закону.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Когда надоела путаница или о идее пакета familial

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров996

В заметке рассказывается о функционале достаточно простого пакета familial, реализующего весьма оригинальную идею о проверке статистических гипотез, связанных с семейством центральных параметров. Концепция данного семейства была изначально разработана Питером Хубертом в статье «Robust estimation of a location parameter».

Читать далее
Всего голосов 7: ↑6 и ↓1+6
Комментарии2

На берегу океана или о тестах для таблиц 2*k

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров663

Сообщение посвящено простому (всего 1 функция ) пакету chisquare, который реализует статистический тест на равенство пропорций для таблиц 2*k, выдает по ней подробную информацию, а также приятно оформленные таблицы в виде графиков

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Новое повсюду или статистические тесты эквивалентности

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.8K

Классические статистические тесты – это, как правило, тесты, проверяющие гипотезу о равенстве (медианы определенному значению, средних в двух независимых группах, дисперсии во многих зависимых группах, коэффициента корреляции нулю и т.д.).

Однако существует и альтернативный подход - так называемая группа тестов эквивалентности, которая проверяет гипотезу о том, находится ли наблюдаемая разница / значение в интервале незначимости

В статье приведен обзор пакета negligible на R, который реализует данные статтесты. Обзор сопровождается примерами применения данной группы тестов на встроенных базах данных

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии2

Визуализация решает или про иллюстрацию статистических тестов

Время на прочтение4 мин
Количество просмотров2.2K

В статье представлены результаты использования пакетов ggstatsplot и ggpmisc, позволяющих визуализировать результаты проверки статистических гипотез и параметры уравнений регрессий.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Вглядываясь в зеркала или еще раз о проблеме гетероскедастичности

Время на прочтение2 мин
Количество просмотров2.1K

Рассмотрен функционал пакета skedastic, содержащего 20+ тестов гетероскедастичности различных моделей. Описан функционал пакета и проведен простенький эксперимент по определению эффективности этих тестов.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии3

В туманности статистических гипотез, или про пакет SHT

Время на прочтение9 мин
Количество просмотров1.3K

Чуть меньше месяца назад в R появился пакет SHT, в котором реализованы несколько интересных видов статистических тестов (если точнее, там реализовано 53 теста). Данная статья – краткий обзор этих тестов и гипотез, проверяемых с их помощью/

Все статтесты разбиты на 16 групп, среди них есть и весьма экзотичные, например, тесты проверки равенства ковариационных матриц, или тест проверки одновременного равенства средних и дисперсий в двух группах. Особый интерес вызывает то, что примерно половина тестов работают и со случаями многих переменных

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Регрессия и функции с неустранимыми разрывами первого рода

Время на прочтение3 мин
Количество просмотров3.1K

В заметке рассматривается функционал нового пакета BinSeqBstrap, который посвящен решению задачи определения неустранимых разрывов первого рода в задачах регрессии.

Читать далее
Всего голосов 16: ↑16 и ↓0+16
Комментарии4

Изобретем велосипед снова или построим график комбинаций бинарных переменных

Время на прочтение2 мин
Количество просмотров1.7K

Про пакет ComplexUpset в R.

Пакет, позволяющий визуализировать интересным способом комбинацию бинарных переменных. Выглядит весьма наглядно + есть множество настроек, позволяющих модифицировтаь внешний вид графика и вполне сочетается с ggplot2.

Читать далее
Всего голосов 11: ↑11 и ↓0+11
Комментарии0

Расширяя границы или о задаче проверки гипотезы о нормальности многомерного распределения

Время на прочтение4 мин
Количество просмотров3.2K

Путеводитель по пакету MVN, посвященному проверке гипотезы о нормальности многомерного распределения.

Допустим, у нас есть некоторое совместное распределение n переменных – и нам необходимо проверить, является ли оно нормальным. Решить эту задачу просто нам мешает один маленький факт – из нормальности многомерного распределения следует нормальность распределения каждой переменной в отдельности, но в обратную сторону это работает только при случае независимости компонентов распределения, что на практике не выполняется почти никогда. Поэтому приходится что-то изобретать.

Схема проверки статистической гипотезы о нормальности многомерного распределения идентична соответствующей для одномерного случая, только в ней используются другие тесты. В пакете применяются тесты Мардиа, Хенце-Циклера, Ройстона, Дорника-Хансена, Шекели-Риццо, разбирается применение всего этого к реальным данным.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии3

Взглянем на квантильную регрессию

Время на прочтение4 мин
Количество просмотров6.8K

Материал напоминает основы квантильной регрессии и посвящен обзору идеи, лежащей в основе недавно вышедшего пакета "conquer", а также его апробации при работе с реальными данными.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии5

Скучно, просто и ограниченно — все это изотоническая регрессия

Время на прочтение3 мин
Количество просмотров4.6K

Обзор пакета cir о достаточно специфическом виде регрессии - изотонической. По сути дела, это больше изотоническая интерполяция, но раз авторы сказали "регрессия" - пусть будет регрессия.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии2

В глубины регрессии или про пакет frm в R

Время на прочтение4 мин
Количество просмотров1.5K

В статье обозревается оригинальный подход к построению моделей цензурированной регрессии, если зависимая переменная лежит в интервале [0;1] с помощью пакета frm.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии3

Мы не идем простыми путями или о применении P-сплайнов в регрессии

Время на прочтение5 мин
Количество просмотров1.9K

Обзор части функционала нового пакета SOP, реализующего алгоритм построения уравнения регрессии с использованием модификаций P-сплайнов.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Модификация EM-алгоритма для решения задачи кластеризации с выбросами

Время на прочтение4 мин
Количество просмотров2K

Основной из проблем кластерного анализа практических данных является наличие выбросов. Большинство существующих методов кластеризации не учитывают их существование, из-за этого явно аномальные наблюдения включаются в состав каких-то кластеров, что может серьезно смещать их центры и влиять на качество классификации. Разумеется, можно сначала исходные данные проверить на выбросы, их отсеять и т.д., но тогда задача превратиться в двухэтапную, а хотелось бы, чтобы было "все и сразу".

Один из подходов к решению данной задачи (чтобы метод кластеризации автоматически отсеивал выбросы) получил название "optimally tuned robust improper maximum likelihood estimator" и был описан вот в этой статье 2017 года (http://dx.doi.org/10.1080/01621459.2015.1100996), а недавно и получил реализацию на R. Поговорим о нем.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии2

Кластеризация смешанных (числовых и категориальных) данных в R

Время на прочтение4 мин
Количество просмотров4K

Основная проблема всех классических алгоритмов анализа данных – это их малая применимость к практическим задачам. Относится это и к задачам кластеризации.

В реальных (да и в научных задачах) возникает необходимость в кластеризации данных смешанного типа – например, когда половина переменных числовые, а половина переменных – категориальные.

По отдельности данные задачи решаются стандартными способами (вот, например, статья про иерархическую кластеризацию чисто категориальных данных - https://habr.com/ru/company/otus/blog/461741/), однако решение задачи кластеризации смешанных данных представляет некоторые трудности, связанные в основном со сложностью расчета величины расстояния между наблюдениями.

Минутка теории

Существующие методы предполагают расчет расстояния при Гауэра использовании функции daisy (daisy(method = "gower")) в пакете cluster.

Однако, как утверждают создатели пакета clustMixType, этот способ неприменим при обработки больших объемов данных, и в их пакете реализован иной метод

Теоретические основы реализованного метода кластеризации были разработаны еще в 1999 году в работе Z. Huang. Extensions to the k-means algorithm for clustering large data sets with categorical variables. Data Mining and Knowledge Discovery, 2:283–304, 1998. doi: 10.1023/A:1009769707641. Он получил название метода k-prototypes и основан на следующей формуле расстояния:

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии2

Проверка гипотезы равенства средних при неравной дисперсии в R

Время на прочтение3 мин
Количество просмотров4.2K

Задача определения равенства средних при условии равных дисперсий - классическая задача математической статистики, которую решают в техникумах и ВУЗах. Однако МС как наука очень похожа на болото - при попытке спрыгнуть в сторону с кочки классически решаемой задачи можно увязнуть или вовсе утонуть

Рассматриваемая задача - одна из таких. На самом деле, заботливыми математиками уже разработано порядка двух десятков разных статистических тестов для решения такого рода задач, что ставит вопрос из разряда "какой из них применять"

Для решения этой задачи была разработана процедура, позволяющая для каждого конкретного случая определить лучший статистический тест.

Читать далее
Всего голосов 10: ↑10 и ↓0+10
Комментарии0

Информация

В рейтинге
Не участвует
Откуда
Нижегородская обл., Россия
Дата рождения
Зарегистрирован
Активность