Обновить
18

Инженер

54
Подписчики
Отправить сообщение

Анализ таблиц сопряженности средствами Python. Часть 1. Визуализация

Время на прочтение43 мин
Охват и читатели12K

Категориальные данные имеет огромное значение в DataScience. Как справедливо заметили авторы в [1], мы живем в мире категорий: информация может быть сформирована в категориальном виде в самых различных областях - от диагноза болезни до результатов социологического опроса.

Частным случаем анализа категориальных данных является анализ таблиц сопряженности (contingency tables), в которые сводятся значения двух или более категориальных переменных.

Однако, прежде чем написать про статистический анализ таблиц сопряженности, остановимся на вопросах их визуализации. Казалось бы, об этом уже написано немало - есть статьи про графические возможности python, есть огромное количество информации и примеров с программным кодом. Однако, как всегда имеются нюансы - в процессе исследования возникают вопросы как с выбором средств визуализации, так и с настройкой инструментов python. В общем, есть о чем поговорить...

В данном обзоре мы рассмотрим следующие способы визуализации таблиц сопряженности.

Читать далее

Регрессионный анализ в DataScience. Часть 3. Аппроксимация

Уровень сложностиСредний
Время на прочтение72 мин
Охват и читатели28K

В предыдущих обзорах (https://habr.com/ru/articles/690414/, https://habr.com/ru/articles/695556/) мы рассматривали линейную регрессию. Пришло время переходить к нелинейным моделями. Однако, прежде чем рассматривать полноценный нелинейный регрессионный анализ, остановимся на аппроксимации зависимостей.

Про аппроксимацию написано так много, что, кажется, и добавить уже нечего. Однако, кое-что добавить попытаемся.

При выполнении анализа данных может возникнуть потребность оперативно построить аналитическую зависимость. Подчеркиваю - речь не идет о полноценном регрессионном анализе со всеми его этапами, проверкой гипотез и т.д., а только лишь о подборе уравнения и оценке ошибки аппроксимации. Например, мы хотим оценить характер зависимости между какими-либо показателями в датасете и принять решение о целесообразности более глубокого исследования. Подобный инструмент предоставляет нам тот же Excel - все мы помним, как добавить линию тренда на точечном графике:

Читать далее

Регрессионный анализ в DataScience. Часть 2. Преобразование Бокса-Кокса. Проверка тренда и случайности

Время на прочтение51 мин
Охват и читатели20K

Обзор построения и анализа линейной регрессионной модели с использованием преобразования Бокса-Кокса

Читать далее

Проверка автокорреляции с использованием критерия Дарбина-Уотсона средствами Python

Время на прочтение26 мин
Охват и читатели27K

Методический разбор для специалистов DataScience по применению критерия Дарбина-Уотсона для проверки автокорреляции средствами python

Читать далее

Регрессионный анализ в DataScience. Простая линейная регрессия. Библиотека statsmodels

Время на прочтение50 мин
Охват и читатели91K

Обзор построения и анализа парной линейной регрессионной модели с использованием библиотеки statsmodels

Вперед

Проверка нормальности распределения с использованием критерия Эппса-Палли средствами Python

Время на прочтение16 мин
Охват и читатели19K

Методический разбор для специалистов DataScience по применению критерия Эппса-Палли для проверки нормальности распределения средствами python

Читать далее

Расчет и анализ корреляционного отношения средствами Python

Время на прочтение21 мин
Охват и читатели34K

Расчет и анализ корреляционного отношения средствами Python.

Читать далее

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирован
Активность

Специализация

Data Analyst, Data Scientist
Python
Algorithms and data structures