Pull to refresh
18

Инженер

54
Subscribers
Send message

Анализ таблиц сопряженности средствами Python. Часть 1. Визуализация

Reading time43 min
Reach and readers12K

Категориальные данные имеет огромное значение в DataScience. Как справедливо заметили авторы в [1], мы живем в мире категорий: информация может быть сформирована в категориальном виде в самых различных областях - от диагноза болезни до результатов социологического опроса.

Частным случаем анализа категориальных данных является анализ таблиц сопряженности (contingency tables), в которые сводятся значения двух или более категориальных переменных.

Однако, прежде чем написать про статистический анализ таблиц сопряженности, остановимся на вопросах их визуализации. Казалось бы, об этом уже написано немало - есть статьи про графические возможности python, есть огромное количество информации и примеров с программным кодом. Однако, как всегда имеются нюансы - в процессе исследования возникают вопросы как с выбором средств визуализации, так и с настройкой инструментов python. В общем, есть о чем поговорить...

В данном обзоре мы рассмотрим следующие способы визуализации таблиц сопряженности.

Читать далее

Регрессионный анализ в DataScience. Часть 3. Аппроксимация

Level of difficultyMedium
Reading time72 min
Reach and readers28K

В предыдущих обзорах (https://habr.com/ru/articles/690414/, https://habr.com/ru/articles/695556/) мы рассматривали линейную регрессию. Пришло время переходить к нелинейным моделями. Однако, прежде чем рассматривать полноценный нелинейный регрессионный анализ, остановимся на аппроксимации зависимостей.

Про аппроксимацию написано так много, что, кажется, и добавить уже нечего. Однако, кое-что добавить попытаемся.

При выполнении анализа данных может возникнуть потребность оперативно построить аналитическую зависимость. Подчеркиваю - речь не идет о полноценном регрессионном анализе со всеми его этапами, проверкой гипотез и т.д., а только лишь о подборе уравнения и оценке ошибки аппроксимации. Например, мы хотим оценить характер зависимости между какими-либо показателями в датасете и принять решение о целесообразности более глубокого исследования. Подобный инструмент предоставляет нам тот же Excel - все мы помним, как добавить линию тренда на точечном графике:

Читать далее

Регрессионный анализ в DataScience. Часть 2. Преобразование Бокса-Кокса. Проверка тренда и случайности

Reading time51 min
Reach and readers20K

Обзор построения и анализа линейной регрессионной модели с использованием преобразования Бокса-Кокса

Читать далее

Проверка автокорреляции с использованием критерия Дарбина-Уотсона средствами Python

Reading time26 min
Reach and readers28K

Методический разбор для специалистов DataScience по применению критерия Дарбина-Уотсона для проверки автокорреляции средствами python

Читать далее

Регрессионный анализ в DataScience. Простая линейная регрессия. Библиотека statsmodels

Reading time50 min
Reach and readers91K

Обзор построения и анализа парной линейной регрессионной модели с использованием библиотеки statsmodels

Вперед

Проверка нормальности распределения с использованием критерия Эппса-Палли средствами Python

Reading time16 min
Reach and readers19K

Методический разбор для специалистов DataScience по применению критерия Эппса-Палли для проверки нормальности распределения средствами python

Читать далее

Information

Rating
Does not participate
Location
Россия
Registered
Activity

Specialization

Data Analyst, Data Scientist
Python
Algorithms and data structures