EDA в Python для новичков: что почитать и где попрактиковаться / Хабр

Привет! Это команда курса «Аналитик данных». Мы подготовили подборку материалов для тех, кто делает первые шаги в мире анализа данных и хочет освоить исследовательский анализ данных с нуля.

Разведочный или исследовательский анализ данных (Exploratory Data Analysis, EDA) — это этап работы с данными, на котором аналитик изучает доступную информацию перед построением сложных аналитических моделей. Это основа работы с данными, которая помогает понять, какая информация доступна и возникнут ли трудности с будущим анализом.

Статья «Визуальная обработка пропущенных значений при предварительной обработке данных», Russian Blogs

Каждый раз, когда данные обрабатываются, необхо��имо учитывать пропущенные значения. При этом очень трудно вручную проверить пропущенное значение каждой переменной. В статье рассказывается о библиотеке missingno. Она представляет собой гибкий и простой в использовании набор гаджетов для отсутствующих визуализаций данных и утилит, который позволяет обобщать целостность набора данных.

Читать статью →

Книга «Python и анализ данных. Первичная обработка данных с применением pandas, NumPy и Jupyter», Уэс Маккини

Это практическое руководство по переформатированию, очистке и обработке данных на Python. В третьем издании, обновлённом под Python 3.10 и pandas 1.4, приведены примеры эффективного решения разных задач анализа данных. По ходу чтения вы познакомитесь с возможностями pandas, NumPy и Jupyter.

Книга подойдёт аналитикам, которые только начинают работать с Python, и программистам, ещё не знакомым с анализом данных. Дополнительные материалы и наборы данных доступны в репозитории на GitHub и на сайте издательства. Автор — Уэс Маккинни, создатель библиотеки pandas.

Купить книгу →

Статья «Разведочный анализ данных в Python: руководство для новичков», Записки преподавателя

Автор даёт определение разведочному анализу данных в целом, а затем рассказывает об основных этапах анализа и методах, которые нужно знать каждому. Он объясняет, что такое одномерный и двумерный анализ, а также делится практическим примером кодирования. Вы можете скачать набор данных и пошагово следовать по инструкции.

Читать статью →

Статья «Обработка пропусков в данных», Loginom

На практике в реальных данных очень часто встречаются пропуски. Причинами могут быть ошибки ввода данных, сокрытие информации, фрод. В результате аналитик оказывается перед выбором: игнорировать пропуски, отбросить или же заполнить пропущенные значения.

Заполнение пропусков зачастую и вполне обоснованно кажется более предпочтительным решением. Однако это не всегда так. Неудачный выбор метода заполнения пропусков может не только не улучшить, но и сильно ухудшить результаты. В данной статье рассмотрены простые методы обработки пропусков, их преимущества и недостатки.

Читать статью →

Статья «Что такое корреляция и что означает коррелировать — краткое определение, причины и простые примеры», KtoNaNovenkogo

Корреляция — это взаимосвязь между случайными величинами: когда одна величина растет или уменьшается, другая тоже изменяется. В статье автор объясняет, какие бывают типы связи, что означает коэффициент корреляции и насколько можно полагаться на него при формировании гипотез. А также объясняет, почему и��енно из-за корреляции правдиво правило любого инвестора: «не класть все яйца в одну корзину».

Читать статью →

Статья «Линейный коэффициент корреляции Пирсона», StatAnaliz

В статье рассказывается о линейном коэффициенте корреляции Пирсона — простом и наглядном способе измерить, насколько тесно связаны между собой две переменные. Автор объясняет, как на практике рассчитывать этот коэффициент, в том числе в Excel, и как через преобразование Фишера найти доверительный интервал для оценки надёжности результата.

В статье есть наглядные примеры, а также видеоролик, который поможет вместе с автором рассчитать коэффициент корреляции Пирсона с доверительными интервалами и ранговый коэффициент корреляции Спирмена.

Читать статью →

Статья «Моем датасет: руководство по очистке данных в Python», proglib

Прежде чем передать набор данных ML-модели, его нужно очистить: обработать пропуски, дубликаты, выбросы. В этой статье объясняют, как это сделать, не потеряв важную информацию. Базой экспериментов служит набор данных по ценам на жилье в России, на её основе автор разбирает главные методы и операции. Практический материал с подробными пояснениями и примерами кода.

Читать статью →

Статья A Gentle Introduction to Exploratory Data Analysis, Daniel Bourke

Автор делится личной историей о том, как неожиданный выброс в датасете вызвал сбой в системе, и это помогло на практике осознать ценность EDA. Разведочный анализ рассматривается не как одноразовый этап, а как повторяющийся процесс, который помогает лучше понять структуру данных и увидеть потенциальные проблемы.

В статье множество иллюстраций, живой язык и пошаговый разбор датасета с информацией о пассажирах «Титаника». Автор делится чек-листом EDA и пытается ответить на вопрос: «Возможно ли предсказать, кто выживет на “Титанике”, на основе данных других пассажиров?». К статье прилагается видео, где автор изучает этот же датасет.

Читать статью →

Статья A guide to Exploratory Data Analysis in Python, DataCareer

Статья служит вводным руководством для тех, кто хочет освоить основы EDA, и демонстрирует, как с помощью простых инструментов можно начать находить закономерности и получать инсайты из реальных данных. В качестве примера автор использует датасет приложений Google Play Store, а главным инструментом анализа выступает библиотека pandas.

В статье показывается, как загрузить данные, просмотреть первые строки таблицы и получить общее представление о доступных признаках. Затем рассматриваются шаги анализа: проверка качества данных, поиск пропусков, выявление ошибок и подготовка к визуализации.

Читать статью →

Задачи Data and Statistics in Python, CodeWars

Достаточно теории — теперь к практике. Это собрание задач, посвящённых базовым и продвинутым темам статистики и работе с данными на Python. Особенность платформы Codewars — соревновательный формат и сообщество: решения можно сравнивать с другими участниками, обсуждать подходы и учиться новым техникам. Можно не ограничиваться только этой коллекцией — по поиску доступны множество других задач по Python, работе с данными, статистике и смежным темам.

Перейти на сайт →

EDA в Python для новичков: что почитать и где попрактиковаться

Статья «Визуальная обработка пропущенных значений при предварительной обработке данных», Russian Blogs

Книга «Python и анализ данных. Первичная обработка данных с применением pandas, NumPy и Jupyter», Уэс Маккини

Статья «Разведочный анализ данных в Python: руководство для новичков», Записки преподавателя

Статья «Обработка пропусков в данных», Loginom

Статья «Что такое корреляция и что означает коррелировать — краткое определение, причины и простые примеры», KtoNaNovenkogo

Статья «Линейный коэффициент корреляции Пирсона», StatAnaliz

Статья «Моем датасет: руководство по очистке данных в Python», proglib

Статья A Gentle Introduction to Exploratory Data Analysis, Daniel Bourke

Статья A guide to Exploratory Data Analysis in Python, DataCareer

Задачи Data and Statistics in Python, CodeWars

Полезные ссылки

Как пройти собеседование: опыт аналитика Яндекс Лавки

Какая математика нужна аналитику данных

Библиотека аналитика: что, зачем и кому читать

Информация