Как стать автором
Обновить

Интерактив: «Анализируем вместе» часть 1/5 (декомпозиция)

Время на прочтение2 мин
Количество просмотров2.3K

Всем привет!

Запускается блок статей состоящий из 5 частей, в каждом из которых мы с Вами будем разбирать шаги анализа данных. Каждая часть будет выходить, предположительно, раз в неделю и при завершении проект будет выложен на GitHub.

Так же хотел бы заметить, что в данном блоке мы не будет настраивать среду разработки, в которой будет фиксироваться код - это необходимо сделать самостоятельно.

Дата сет (файл .CSV) “Пожары в России: данные о местах и типах природных пожаров за 2012–2021 гг.”. Этот файл в бесплатном доступе с открытой лицензией, скачать его можно здесь.

Язык программирования: Python

Среда разработки Jupyter Notebook (среда так же доступная и бесплатная), но вы можете использовать среду разработки привычную Вам.

У вас есть все необходимые вводные данные, поэтому вы можете параллельно анализировать и прокачивать свой skill !

P.s. так же в некоторых местах будут ссылки на дополнительный (бесплатный) материал с целью более детального изучения.

Блок состоит из 5 частей:

  • декомпозиция;

  • открытие файла и предобработка данных;

  • исследовательский анализ;

  • проверка гипотез;

  • создание dashboard.

В этой части мы познакомимся с понятием "декомпозиция", и подготовим план для дальнейшей работы.

Декомпозиция

Это метод разделения целого на части. Процесс основан на пути перехода от более важных до менее значимых задач. Функциональная композиция — процесс изучения и анализирования отдельных частей, составляющих сложную процедуру.

Ниже опишем план, по которому мы с Вами будем работать:

1. Изучение общей информации
2. Предобработка данных
2.1. Проверка корректности наименований колонок;
2.2. Проверка и обработка пропущенных значений;
2.3. Проверка и обработка дубликатов;
2.4. Проверка и обработка типов данных;
3. Исследовательский анализ данных
3.1. Сезонное измерение количества возгораний, группируя по типу пожаров;
3.2. Подсчет суммарного количества возгораний в одном месте;
3.3. Сезонное измерение количества возгораний, группируя по причинам возгорания (умышленное и природное)
4. Проверка гипотез
4.1. Гипотеза: "Среднее количество пожаров "неконтролируемого пала" и "контролируемого пала" одинаково"
4.2. Гипотеза: "Среднее количество пожаров "лесных" и "торфяных" одинаково"
4.3. Гипотеза: "Количество пожаров в 2012 году меньше, чем в 2021"
5. Вывод
6. Создание dashboard


Мы с Вами работаем вместе, поэтому в комментариях можете делиться Вашими успехами, а если есть неудачи, то давайте разберем их.

Ваш юный аналитик данных, Алексей!

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
Данная статья была полезна для Вас?
53.33% Да8
40% Нет6
6.67% В целом статья неплохая1
Проголосовали 15 пользователей. Воздержались 2 пользователя.
Теги:
Хабы:
Всего голосов 5: ↑0 и ↓5-5
Комментарии4

Публикации

Истории

Работа

Data Scientist
79 вакансий
Python разработчик
118 вакансий

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань