Autechre 5 апр 2023 в 18:12

Предварительная обработка данных с помощью библиотеки Pandas (Задача)

Простой

5 мин

13K

Python*Восстановление данных*

Из песочницы

Комментарии 13

CrazyElf 5 апр 2023 в 18:22

Я бы не стал просто переводить отрицательные числа в положительные. Сначала хорошо бы сверить данные в этих строках с другими источниками. Возможно, там проблема не только в лишнем минусе. Может эти строки лучше вообще отбросить. Или обработать как-то по-другому. Как знать.

Autechre 5 апр 2023 в 19:00

Спасибо! Обдумаю это.

IvaYan 5 апр 2023 в 20:16

Я думая, там вообще может не быть проблемы. В данных о продажах отрицательные значения могут говорить о возврате товара.

CrazyElf 5 апр 2023 в 22:07

Или так, например. В любом случае это повод сверить данные и проконсультироваться с кем-то, кто в курсе, как эти файлы заполняются и что значат эти минусы )

economist75 6 апр 2023 в 14:49

Отрицательные колво/цена/сумма в бухучете - это наверняка не ошибки ввода, а исправление ошибок (возможно методом "красного сторно" или исправительной проводкой, в т.ч. частичной, что часто бывает при пересортице).

Их нельзя удалять или лишать знака, чтобы не исказить итоги. Наиболее правильно - сгруппировать строки по всем аналитическим признакам, кроме даты. Кол-во строк в df уменьшится, останутся только положительные значения.

Если же останутся "минусы" - они будут постоянно мешать строить графики, смотреть статистики, приводить к ошибкам при расчетах std, средних итд.

CrazyElf 6 апр 2023 в 17:07

Кстати да, про сторно и всякое такое не надо забывать, всё может быть.

aborouhin 5 апр 2023 в 21:16

Именно для ручной очистки данных я привык OpenRefine использовать, инструмент конкретно под это заточен, и визуально удобнее... но Ваш подход тоже надо взять на вооружение, особенно если один раз вручную выработанную последовательность преобразований надо потом многократно применять ко всем данным из того же источника.

Ну и главный недостаток, что у Pandas, что у OpenRefine - очень сильно кушают оперативку :( Были задачи, при которых 192 Гб не хватало (а больше у меня нет). Тут уже рекомендуют смотреть в сторону Polars и Spark, как следующий раз столкнусь с десятками Гб, прилетевших на анализ, - придётся осваивать :)

Robastik 6 апр 2023 в 07:20

192 Гб не хватало

Почему бы не разделить на части? Или построчно?

CrazyElf 6 апр 2023 в 11:11

Или выкинуть не нужные текстовые колонки, наверняка там есть колонки, которые можно обрабатывать не сразу все одновременно. Или превратить тексты в вектора и опять же сэкономить память.

aborouhin 6 апр 2023 в 11:54

Ну в итоге и разделил, но задачу это усложняло. Там банковские выписки были, и куча критериев, по которым надо проверять.

economist75 6 апр 2023 в 14:56

.astype('category') уменьшит в 8-10X размер df в RAM и почти во столько же ускорит отборы/сортировки. В 32 Гб RAM поместится df на 100 млн. строк * 100 столбцов, это очень большая БД, скажем, примерно весь бухучет холдинга из Top-100 РФ за период 10 лет. В бухучете много повторяющихся сущностей, которые очень хорошо факторизуются (слова - в числа, т.е. коды).

Robastik 6 апр 2023 в 07:34

в нашем задании сказано, что после загрузки мы должны удалить строки, в которых есть ошибки

Чтобы определять что является ошибкой надо либо быть экспертом в домене, либо иметь указание в ТЗ. А при описанном подходе весьма вероятно не исключить, а приумножить ошибки.

CrazyElf 6 апр 2023 в 11:48

Люто-бешено плюсую ) Инициатива хороша, когда есть понимание, что делаешь. Гадать и додумывать не нужно, нужно спрашивать языком )

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Предварительная обработка данных с помощью библиотеки Pandas (Задача)

Комментарии 13

Публикации

Истории