Comments 2
Для экономии места на диске вместо зипования csv можно сохранять в parquet, по моим наблюдениям сжатие и скорость чтения обычно лучше. Для работы с данными превышающими объем памяти пандас умеет загружать их небольшими кусками, альтернативно можно использовать для этих целей Dask, с максимально близким к пандасу интерфейсом. Я недавно писал об этом небольшую статью https://habr.com/ru/post/488594/
Есть ещё крайне удобный метод сериализации под названием to_pickle и соответствующая ему функция pd.read_pickle. По работе сталкивался с необходимостью сохранять датасеты величиной в десятки гигабайт, и подобная сериализация сокращала время сохранения и чтения с диска примерно в 100 раз, по сравнению с csv-форматом. И в качестве бонуса pickle-файлы обычно получаются значительно легче.
Надо сказать, что подобный метод можно использовать для сохранения любого питоновского объекта. Для этого можно использовать библиотеку, входящую в стандарт.
Ну и маленькая стилистическая ремарка:
Вместо медленного и плохо читаемого
начиная с версии 3.6 можно использовать f-строки:
Надо сказать, что подобный метод можно использовать для сохранения любого питоновского объекта. Для этого можно использовать библиотеку, входящую в стандарт.
Ну и маленькая стилистическая ремарка:
Вместо медленного и плохо читаемого
"%d. date_from: %s, date_to: %s" % (i, date_from, date_to)
начиная с версии 3.6 можно использовать f-строки:
f"{i}. date_from: {date_from}, date_to: {date_to}"
Sign up to leave a comment.
5 малоизвестных секретов Pandas