Давайте рассмотрим распространенную проблему с пропущенными данными и способы ее решения.
Иногда, когда мы анализируем данные, некоторые значения могут быть утеряны. Обычно пропущенные данные обозначаются в виде вопросительных знаков, нулей или пустых ячеек. Например, в таблице нормализованных потерь присутствует пропущенное значение, представленное как NaN.
Кстати, подписывайтесь на наши социальные сети, мы туда еженедельно публикуем топовый контент! Вот наш канал в телеграм и группа ВК.
Таблица 1: Пример набора данных о машинах
| Марка | Модель | Год выпуска | Цена | Нормализованные потери | Тип топлива |
|---------|---------|-------------|------|------------------------|-------------|
| Toyota | Corolla | 2019 | 15000| 134 | Бензин |
| Honda | Civic | 2020 | 17000| NaN | Дизель |
| Ford | Mustang | 2018 | 25000| 235 | NaN |
| Subaru | Outback | 2017 | NaN | 178 | Бензин |
| Hyundai | Elantra | 2021 | 18000| 156 | Гибрид |
| Nissan | Sentra | 2019 | 15500| 170 | Бензин |
Давайте сразу создадим датафрейм, чтобы мы дальше могли уже сразу обсуждать варианты обработки пропущенных данных на этом примере.