V-Moskalenko 16 янв 2023 в 12:01

Лучший формат данных для хранения pandas.DataFrame

4 мин

7.4K

Блог компании Страховой Дом ВСКPython*Хранение данных*Data Engineering*

+13

Комментарии 13

7voprosov 16 янв 2023 в 12:22

Классная статья: минимум воды, понятный вывод

V-Moskalenko 19 янв 2023 в 11:26

Спасибо, очень приятно, рад что понравилась :)

lea 16 янв 2023 в 12:37

Как интерпретировать отрицательное значение расхода памяти при сохранении в csv?

MentalBlood 16 янв 2023 в 13:02

Как околонулевой расход памяти при сохранении в csv + погрешность (сборщик мусора сработал, например)

V-Moskalenko 19 янв 2023 в 11:32

Как верно отметил @MentalBloodтам околонулевой расход текстового формата и погрешность

economist75 16 янв 2023 в 13:54

Полезно. Из "итогов" как-то легко убрали неплохой вариант, который можно встретить у каждого второго датасайентиста. Pickle (со сжатием) все-таки очень близок к parquet и feather по всем параметрам, и эта троица в целом неплоха и во многом равнозначна.

Единственным заметным минусом pickle назову несовместимость версий для разных сочетаний pandas+python. То есть он плохо пригоден для архивного хранения и редкого обращения. Спустя пару лет старый pkl-файл придется открывать с приключениями.

Минусы есть и у parquet - не на каждую старую ОС или платформу легко его поставить. Но все проблемы имеют решения, в этом экосистема Python сильна, практически нет тропинок, по которым кто-то не прошел (и не оставил след на stackoverflow).

MentalBlood 16 янв 2023 в 14:04

как-то легко убрали

ACE это не шутки. Впрочем, можно подписывать получаемый файл (но это замедлит загрузку и выгрузку)

MentalBlood 16 янв 2023 в 14:04

del

CrazyElf 17 янв 2023 в 19:42

Я наверное лет 5 назад пробовал разные форматы и остановился тогда на feather в плане скорости записи и чтения. Удивительно, что с тех пор особо ничего не поменялось.

davletlinar 18 янв 2023 в 15:52

Отличная статья!

V-Moskalenko 19 янв 2023 в 11:37

Спасибо, очень приятно! :)

danSamara 19 янв 2023 в 07:19

Народ потихоньку переходит на polars. Интересно посмотреть работу с форматами у него.

V-Moskalenko 19 янв 2023 в 11:52

Код бенчмарка здесь - ссылка, вы можете попробовать перевести его на Polars, корректировки потребуются в utils.py и main.py. Правда у Polars, не все перечисленные форматы поддерживаются "из коробки".

Беглым запуском (не ручаюсь за точность) у меня получились такие данные, для Parquet и CSV:

Зарегистрируйтесь на Хабре, чтобы оставить комментарий