Комментарии 10
Сравнение с pandas всё же не совсем корректно. Сравнивать надо с dask. Что на счёт этого? dask на мой взгляд довольно сырой, по крайне мере мне не удалось его использовать, заткнулся на операции remove duplications / merge. dask после "remove duplications" объединял все свои партиции в одну, что сводило на нет все преимущества обработки "out of memory" и параллелизма, и если потом попытаться вновь разделить данные на партиции, он крашился. После тех экспериментов dask я больше не трогал. Интересно, как будет работать эта библиотека?
Спасибо, поигрался. Быстро, но… зачем это всё, если можно загнать все нужные данные в Postgres (или любую RDBMS) и там делать то, что Datatable никогда не сумеет?
А данные анализировать как-то надо…
Я тоже думал — вдруг оно быстрее, за счет операций в памяти? но нет, чудеса, возможно, встречаются, но это не тот случай.
С тех пор как товарищи из Яндекса выкатили Clickhouse — я всю аналитику провожу в нём.
Ничего быстрее, по моему, на данный момент нет. Пару миллиардов строк в секунду? Легко
Свежий benchmark где видно насколько pydatatable ( & pandas) отстают от оригинального R'вского data.table
https://h2oai.github.io/db-benchmark/
Обзор Python-пакета Datatable