Как стать автором
Обновить

Комментарии 5

Есть ещё прикольный формат — parquet. В нём данные хранятся колонками, а не строками. Размер где-то раза в 4 меньше, чем у CSV. Скорость чтения/записи существенно выше. Если нужна только часть колонок, то ещё быстрее.

feather тоже колоночный формат. И читать отдельные колонки также умеет.

Да и сам пакет data.table хорошо оптимизирован. Без проблем позволяет ворочать гигабайтами данных в оперативной памяти.

Есть пакет fst для быстрой сериализации данных.
Бенчмарки авторов этого пакета показывают, что fst значительно быстрее feather.
Но, вообще говоря, такое преимущество зависит от используемых данных, так как "магия" fst основана на компрессии данных.

Я сам не люблю лишних зависимостей (библиотек, например), пытаюсь обходиться собственными силами, точнее — силами R и системы.

R распознает и сам умеет читать/писать csv и прочие txt в/из зипованных/-нные, например gz. БодрЕе в результате получается в большинстве случаев, не говоря уже о месте на диске.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации