5 малоизвестных секретов Pandas / Комментарии / Хабр

andrewsonin 25 апр 2023 в 09:44

Есть ещё крайне удобный метод сериализации под названием to_pickle и соответствующая ему функция pd.read_pickle. По работе сталкивался с необходимостью сохранять датасеты величиной в десятки гигабайт, и подобная сериализация сокращала время сохранения и чтения с диска примерно в 100 раз, по сравнению с csv-форматом. И в качестве бонуса pickle-файлы обычно получаются значительно легче.

Надо сказать, что подобный метод можно использовать для сохранения любого питоновского объекта. Для этого можно использовать библиотеку, входящую в стандарт.

Ну и маленькая стилистическая ремарка:

Вместо медленного и плохо читаемого

"%d. date_from: %s, date_to: %s" % (i, date_from, date_to)

начиная с версии 3.6 можно использовать f-строки:

f"{i}. date_from: {date_from}, date_to: {date_to}"

Комментарии 2

Matshishkapeu 16 мар 2020 в 14:02

Для экономии места на диске вместо зипования csv можно сохранять в parquet, по моим наблюдениям сжатие и скорость чтения обычно лучше. Для работы с данными превышающими объем памяти пандас умеет загружать их небольшими кусками, альтернативно можно использовать для этих целей Dask, с максимально близким к пандасу интерфейсом. Я недавно писал об этом небольшую статью https://habr.com/ru/post/488594/

Зарегистрируйтесь на Хабре, чтобы оставить комментарий