Всем привет!
Запускается блок статей состоящий из 5 частей, в каждом из которых мы с Вами будем разбирать шаги анализа данных. Каждая часть будет выходить, предположительно, раз в неделю и при завершении проект будет выложен на GitHub.
Так же хотел бы заметить, что в данном блоке мы не будет настраивать среду разработки, в которой будет фиксироваться код - это необходимо сделать самостоятельно.
Дата сет (файл .CSV) “Пожары в России: данные о местах и типах природных пожаров за 2012–2021 гг.”. Этот файл в бесплатном доступе с открытой лицензией, скачать его можно здесь.
Язык программирования: Python
Среда разработки Jupyter Notebook (среда так же доступная и бесплатная), но вы можете использовать среду разработки привычную Вам.
У вас есть все необходимые вводные данные, поэтому вы можете параллельно анализировать и прокачивать свой skill !
P.s. так же в некоторых местах будут ссылки на дополнительный (бесплатный) материал с целью более детального изучения.
Блок состоит из 5 частей:
декомпозиция;
открытие файла и предобработка данных;
исследовательский анализ;
проверка гипотез;
создание dashboard.
В этой части мы познакомимся с понятием "декомпозиция", и подготовим план для дальнейшей работы.
Декомпозиция
Это метод разделения целого на части. Процесс основан на пути перехода от более важных до менее значимых задач. Функциональная композиция — процесс изучения и анализирования отдельных частей, составляющих сложную процедуру.
Ниже опишем план, по которому мы с Вами будем работать:
1. Изучение общей информации
2. Предобработка данных
2.1. Проверка корректности наименований колонок;
2.2. Проверка и обработка пропущенных значений;
2.3. Проверка и обработка дубликатов;
2.4. Проверка и обработка типов данных;
3. Исследовательский анализ данных
3.1. Сезонное измерение количества возгораний, группируя по типу пожаров;
3.2. Подсчет суммарного количества возгораний в одном месте;
3.3. Сезонное измерение количества возгораний, группируя по причинам возгорания (умышленное и природное)
4. Проверка гипотез
4.1. Гипотеза: "Среднее количество пожаров "неконтролируемого пала" и "контролируемого пала" одинаково"
4.2. Гипотеза: "Среднее количество пожаров "лесных" и "торфяных" одинаково"
4.3. Гипотеза: "Количество пожаров в 2012 году меньше, чем в 2021"
5. Вывод
6. Создание dashboard
Мы с Вами работаем вместе, поэтому в комментариях можете делиться Вашими успехами, а если есть неудачи, то давайте разберем их.
Ваш юный аналитик данных, Алексей!