Search
Write a publication
Pull to refresh
18
0
Владимир Силкин @volodya_research

Data Science

Send message

Решаем задачи по теорверу с собеседований в Яндекс и Авито: считаем доверительный интервал для Бета-распределения

Level of difficultyMedium
Reading time4 min
Views3.9K

В данной статье я разбираю математику, лежащую в основе двух связанных технических задач. Я показываю, как из биномиального распределения рождается Бета-распределение и демонстрирую расчет доверительного интервала для последнего: через точную формулу для случая с k=0 (\alpha=1) и через нормальное приближение в общем случае.

Читать далее

Считаем размер выборки для AB-теста на основе нормального распределения (готовимся к собеседованию на Аналитика)

Level of difficultyMedium
Reading time7 min
Views2K

В этой статье мы рассмотрим ключевые аспекты расчета размера выборки для AB-тестирования, основанного на нормальном приближении. Я провожу вас через логическую цепочку планирования эксперимента, объясняя важные статистические концепции и формулы, необходимые для проведения AB-теста о равенстве средних значений численного признака. Эта информация будет особенно полезна для аналитиков, готовящихся к собеседованиям или стремящихся углубить свое понимание методологии экспериментов.⁠

Читать далее

Считаем доверительные интервалы для долей и медианы по нормальному распределению (готовимся к собесу на Аналитика)

Level of difficultyMedium
Reading time5 min
Views11K

Недавно на выходном оффере в Авито спрашивали задачку про нахождение доверительного интервала для медианы. Эта статья появилась в результате моего резерча по этому вопросу.

В данной статье я напишу алгоритм рассчета доверительных интервалов для:
— Среднего значения
— Медианы (через нормальную аппроксимацию к биномиальному распределению)
— Доли (через нормальную аппроксимацию к биномиальному распределению)

Основным научным результатом публикации является всепроникаемость нормального распределения и возможность оценить с его помощью что угодно. В задаче про нахождение доверительного интервала для медианы, нормальное распределение дало такую элегантную формулу, содержащую только корень из размера выборки, что я до сих пор не могу перестать удивляться.

Читать далее

Q-Q Plots. От чайника до профессионала за один гайд

Reading time8 min
Views52K

Как понять, что выборка данных принадлежит определенному распределению? Есть 2 метода: аналитический тест Колмогорова-Смирнова (тест Шапиро-Уилка для нормального) и графический метод при помощи графика квантиль-квантиль плот.

Чем так замечателен второй вариант? Он позволяет делать выводы, не основываясь на таких спорных показателях какp.value.

Графический метод является мощнейшим инструментом анализа, но как сказано в англоязычной статье википедии про Q-Q Plots, требует серьезных навыков для интерпретации. В данной статье я представляю дорожную карту пути к пониманию квантильных графиков.

Читать далее

Анализ распределения временных интервалов между покупками на R

Reading time10 min
Views4.5K

В статье я провожу ресёрч интервалов между собственными банковскими тратами за последние полгода и с помощью статистических методов в R пытаюсь понять, какому распределению эти интервалы подчиняются.

Я представляю:

1. Код на R для анализа любых временных интервалов.

2. Подбор экспоненциального и степенного распределения под данные с помощью метода максимального правдоподобия (MLE). Для экспоненциального я использую fitdistr() из пакета MASS, а для степенного fit_power_law() из пакета igraph.

3. Проверку данных на соответствие подобранному распределению с помощью теста Колмогорова-Смирнова. Я использую функцию ks.test() из пакета stats.

Читать далее

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Registered
Activity