ru_vds 14 июн 2019 в 12:30

Обзор Python-пакета Datatable

8 мин

18K

Блог компании RUVDS.comВеб-разработка*Python*

Перевод

+39

Комментарии 10

fireSparrow 14 июн 2019 в 15:59

Datatable поддерживает тип Decimal? В pandas с этим типом как-то всё не хорошо было — то суммирование по нему криво работает, то значения неявно к float приводятся, и появляются хвосты после запятой.

iroln 14 июн 2019 в 19:13

Сравнение с pandas всё же не совсем корректно. Сравнивать надо с dask. Что на счёт этого? dask на мой взгляд довольно сырой, по крайне мере мне не удалось его использовать, заткнулся на операции remove duplications / merge. dask после "remove duplications" объединял все свои партиции в одну, что сводило на нет все преимущества обработки "out of memory" и параллелизма, и если потом попытаться вновь разделить данные на партиции, он крашился. После тех экспериментов dask я больше не трогал. Интересно, как будет работать эта библиотека?

krabdb 14 июн 2019 в 19:26

Спасибо, поигрался. Быстро, но… зачем это всё, если можно загнать все нужные данные в Postgres (или любую RDBMS) и там делать то, что Datatable никогда не сумеет?

mgremlin 14 июн 2019 в 20:37

Говорят, что не все умеют в SQL. Не у всех есть/есть возможность установить RDBMS.
А данные анализировать как-то надо…

Я тоже думал — вдруг оно быстрее, за счет операций в памяти? но нет, чудеса, возможно, встречаются, но это не тот случай.

Spiritschaser 7 июл 2019 в 14:21

Эмм… Например, сделать регрессию до параболы третьей степени?

Glycosylase 14 июн 2019 в 22:46

Как у datatable с поддержкой pandas-profiling?

НЛО прилетело и опубликовало эту надпись здесь

blind_oracle 15 июн 2019 в 01:27

С тех пор как товарищи из Яндекса выкатили Clickhouse — я всю аналитику провожу в нём.

Ничего быстрее, по моему, на данный момент нет. Пару миллиардов строк в секунду? Легко

GapCoder 15 июн 2019 в 22:12

Очень полезной метрикой было бы количество потребляемой памяти по отношению к загружаемому файлу. Пандас очень щедро с этим обходится и, зачастую, это приводит к падению «ядер» при работе в ноутбуках с большими файлами.

Ananiev_Genrih 24 дек 2019 в 12:56

Свежий benchmark где видно насколько pydatatable ( & pandas) отстают от оригинального R'вского data.table
https://h2oai.github.io/db-benchmark/

Зарегистрируйтесь на Хабре, чтобы оставить комментарий