Как стать автором
Обновить

Комментарии 10

Datatable поддерживает тип Decimal? В pandas с этим типом как-то всё не хорошо было — то суммирование по нему криво работает, то значения неявно к float приводятся, и появляются хвосты после запятой.

Сравнение с pandas всё же не совсем корректно. Сравнивать надо с dask. Что на счёт этого? dask на мой взгляд довольно сырой, по крайне мере мне не удалось его использовать, заткнулся на операции remove duplications / merge. dask после "remove duplications" объединял все свои партиции в одну, что сводило на нет все преимущества обработки "out of memory" и параллелизма, и если потом попытаться вновь разделить данные на партиции, он крашился. После тех экспериментов dask я больше не трогал. Интересно, как будет работать эта библиотека?

Спасибо, поигрался. Быстро, но… зачем это всё, если можно загнать все нужные данные в Postgres (или любую RDBMS) и там делать то, что Datatable никогда не сумеет?

Говорят, что не все умеют в SQL. Не у всех есть/есть возможность установить RDBMS.
А данные анализировать как-то надо…

Я тоже думал — вдруг оно быстрее, за счет операций в памяти? но нет, чудеса, возможно, встречаются, но это не тот случай.
Эмм… Например, сделать регрессию до параболы третьей степени?
Как у datatable с поддержкой pandas-profiling?
НЛО прилетело и опубликовало эту надпись здесь

С тех пор как товарищи из Яндекса выкатили Clickhouse — я всю аналитику провожу в нём.


Ничего быстрее, по моему, на данный момент нет. Пару миллиардов строк в секунду? Легко

Очень полезной метрикой было бы количество потребляемой памяти по отношению к загружаемому файлу. Пандас очень щедро с этим обходится и, зачастую, это приводит к падению «ядер» при работе в ноутбуках с большими файлами.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий