Articles / Profile of jzha / Habr

Евгений Чанков @jzha

User

Profile Publications 12Comments 78Bookmarks 14

jzha Dec 26 2017 at 07:50

Рейтинги автомобильных марок: пример анализа переменных с множественным откликом

5 min

4.4K

Data Mining*R*Data visualization*

В анкетных маркетинговых исследованиях довольно часто встречаются вопросы, в которых респонденты могут выбрать несколько подходящих вариантов из списка возможных ответов (check all that apply questions). Ответы респондентов на такие вопросы задают переменные с множественным откликом (multiple-response variables). Подходящие статистического методы для работы с multiple-response переменными не являются широко известными. В этой статье мы рассмотрим анализ таких переменных на примере данных об автомобильных рейтингах.

Читать дальше →

jzha Oct 23 2016 at 23:49

Выборы-2016. Часть 2 — удивительное рядом и оно разрешено

4 min

26K

Data Mining*R*Open data*Data visualization*

В первой части статьи о выборах 2016 года шла речь о результатах в 225 избирательных округах. В этот раз рассмотрим данные о результатах голосования по участковым избирательным комиссиям (УИК), которых насчитывалось чуть менее 100 тысяч. Этот уровень детализации позволяет увидеть неожиданные явления и удивительные закономерности в результатах голосования.

Читать дальше →

+81

119

jzha Oct 23 2016 at 23:45

Выборы-2016. Часть 1 — результаты и сравнения

3 min

17K

Data Mining*R*Open data*Data visualization*

В сентябре прошли выборы в Госдуму РФ VII созыва. При голосовании вся территория России была разделена на 225 округов. В каких округах каждая из партий получила высокие (или низкие) результаты? Какие значения принимала явка избирателей и как она влияла на результаты партий? Ответы на эти вопросы и ряд других наблюдений представлены в этой публикации.

Читать дальше →

+42

jzha Sep 5 2016 at 04:09

Графические модели на основе гауссовых копул

10 min

8.5K

Data Mining*R*Open data*Data visualization*

Лог-линейные модели и их представления в виде марковских сетей позволяют показать структуру взаимосвязей между случайными величинами. Однако полученная визуализация может оказаться трудна для восприятия из-за большого числа равнозначных ребер в графе такой модели. При работе с порядковыми и бинарными переменными гауссовы копулы (Gaussian copula graphical models, сокр. GCGM) дают возможность повысить наглядность и упростить интерпретацию модели. В статье приведен краткий обзор теории и построен пример GCGM для European Social Survey данных.

Читать дальше →

+21

jzha Jun 22 2016 at 01:24

Составы команд на Евро 2016: сравнение европейских футбольных лиг

3 min

15K

R*Open data*Data visualization*

Внимание, футбол на Хабре! Вот этот пост побудил меня загрузить данные о распределении игроков команд-участниц Евро 2016 по национальным лигам, в которых они выступают. На значимый турнир в национальные сборные вызывают сильнейших на данный момент футболистов. По этой выборке мы можем сравнить между собой европейские футбольные первенства. Какие лиги самые представительные на Евро 2016 и за счет чьих сборных? Под катом графики (трафик) и немного рассуждений. Свисток, игра началась!

Читать дальше →

jzha Nov 4 2015 at 23:45

Конкурс kaggle по анализу данных анкетирования населения

4 min

8.7K

Data Mining*R*Open data*Data visualization*

На kaggle сейчас проходит конкурс USA Census по поиску интересных фактов в American Community Survey данных за 2013 год. Данные этого анкетирования выложены в свободный доступ, подробности можно найти здесь.
Kaggle выбрал для анализа два направления — персональные сведения (пол, возраст, семейное положение и т.д.) и сведения о домохозяйствах (различные характеристики жилья, доход домохозяйства, налоговые платежи и прочее). Хочу поделиться своими результатами, которые сфокусированы на различиях домохозяйств в зависимости от вида права собственности на их жилье — владение с ограничением (ипотека или заем), владение без ограничений и не владеют (аренда).

infographics: American Housing Survey Factsheets

Читать дальше →

jzha Aug 29 2015 at 10:54

Ко-кластеризация: cегментирование данных вдоль и поперёк

6 min

11K

Data Mining*R*Open data*Data visualization*

Обычно кластеризация подразумевает выделение нескольких групп объектов со схожими характеристиками внутри группы, а между группами — различными. Особенность ко-кластеризации — группирование не только объектов, но и самих характеристик этих объектов. То есть, если данные представлены в виде матрицы, то кластеризация — это перегруппировка строк или столбцов матрицы, а ко-кластеризация — перегруппировка и строк и столбцов матрицы данных.
Как и в предыдущих моих публикациях, примеры использования методов и визуализация решений показаны на данных результатов опросов. Типичная область применения алгоритмов ко-кластеризации — биоинформатика, сегментирование изображений, анализ текстов.

Читать дальше →

+10

jzha Aug 15 2015 at 00:30

Таблицы сопряженности: лог-линейные модели и Марковские сети

7 min

16K

Data Mining*R*Open data*Data visualization*

В предыдущей части публикации был рассмотрен метод факторизации неотрицательных матриц в качестве снижения размерности и визуализации таблиц сопряженности. В этой части будет проведен статистический анализ полученных диаграмм с использованием лог-линейных моделей. Напомню, примеры демонстрируются для complex survey данных — стратифицированных, кластеризованных и взвешенных выборок. Это обстоятельство предполагает применение специальных методов оценки и выбора моделей. Для визуализации полученных результатов применяются Марковские сети — удобный инструмент графического представления взаимодействия факторов лог-линейных моделей.

Читать дальше →

+20

jzha Aug 9 2015 at 23:01

Таблицы сопряженности и факторизация неотрицательных матриц

6 min

15K

Data Mining*R*Open data*Data visualization*

Факторизация неотрицательных матриц (NMF) — это представление матрицы V в виде произведения матриц W и H, в котором все элементы трех матриц неотрицательны. Это разложение используется в различных областях знаний, например, в биологии, компьютерном зрении, рекомендательных системах. В этой публикации пойдет речь о таблицах сопряженности социологических и маркетинговых данных, факторизация которых помогает понять структуру данных этих таблиц.

Читать дальше →

+12

jzha Jul 13 2015 at 18:54

Статистический анализ ассоциативных правил в результатах опросов

7 min

Data Mining*Mathematics*R*Open data*

В предыдущей части статьи был рассмотрен метод поиска ассоциативных правил в данных европейского социального исследования. Эта часть о статистическом анализе полученных правил. Ключевой момент в том, что классические статистические методы, например, критерий согласия хи-квадрат, не имеют основания быть использованными для результатов опроса. Но по каким причинам? И как проверять гипотезы? Об этом пойдет речь в этой публикации.

Читать дальше →

jzha Jul 10 2015 at 00:26

Поиск ассоциативных правил в результатах опросов

4 min

11K

Data Mining*R*Open data*

Поиск ассоциативных правил хорошо известный метод анализа данных. На Хабре уже была публикация с историей вопроса об этом методе и общими определениями. В этой статье пойдет речь об адаптации алгоритма поиска ассоциативных правил в данных полученных опросами респондентов. Результаты работы алгоритма продемонстрированы на данных европейского социального исследования (ESS).

Foto: Owen Humphreys/AP

Читать дальше →

+12

jzha Oct 28 2013 at 14:59

R: пакет ellipse для визуализации доверительных областей

1 min

4.6K

Mathematics*R*Data visualization*

From sandbox

Здравствуйте.

В последнем посте из R-хаба «Визуализация двумерного гауссиана на плоскости» был описан алгоритм построения доверительного эллипса по ковариационной матрице. Алгоритм сопровождался примером и R-скриптом.

Возможно, автору поста о «Визуализации гауссианы» mephistopheies и читателям R-хаба будет полезной следующая информация. В репозитории R есть пакет ellipse. Этот пакет содержит различные процедуры для построения эллипсов доверительных областей.

Рассмотрим пример.

Читать дальше →