Как стать автором
Обновить

Комментарии 4

Большое спасибо! Главное — очень вовремя, ну лично для меня, получилось.
Отлично! Спасибо за статью.
Не знаю пока как работают другие инструменты, но к dask видимо надо как-то привыкнуть, потому как многие методы из pandas дают иной результат в Dask:
df.describe(), df.shape не дают ожидаемый результат.
Какие-нибудь простые преобразования не работают c места:
df[['story_id']] = df[['story_id']].apply(dd.to_numeric,errors='coerce'):

NotImplementedError: dd.DataFrame.apply only supports axis=1
Try: df.apply(func, axis=1)
Кроме того, при считывании файла Dask не совсем его считывает. Вот статья об этом.

И интересный бенчмарк по инструментам, немного, правда устаревший.
Ситуация вообще интересная скалывается.
Мне кажетя, что в pandas сами ищут способ как им ускориться и как им внутренне оптимизироваться и процесс в самом разгаре. Они либо породят рядом с DataFrame ещё и DataFrameParallel, либо вольют в себя, что-то, что максимально идентично им по идеологии.

Но сперва свои, уже имеющиеся, типы доведут до 100% поддержки своими же методами и методы доведут до работы с этими типами при участии нескольких полей идентичных и разных типов.

В целом, моя личная ситуация позволяет мне подождать, когда Pandas сделают всё внутри себя, но если за годик в пандах ничего не изменится, то идти в Modin.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории