Comments 4
Большое спасибо! Главное — очень вовремя, ну лично для меня, получилось.
Отлично! Спасибо за статью.
Не знаю пока как работают другие инструменты, но к dask видимо надо как-то привыкнуть, потому как многие методы из pandas дают иной результат в Dask:
df.describe(), df.shape не дают ожидаемый результат.
Какие-нибудь простые преобразования не работают c места:
df[['story_id']] = df[['story_id']].apply(dd.to_numeric,errors='coerce'):
NotImplementedError: dd.DataFrame.apply only supports axis=1
Try: df.apply(func, axis=1)
Кроме того, при считывании файла Dask не совсем его считывает. Вот статья об этом.
И интересный бенчмарк по инструментам, немного, правда устаревший.
df.describe(), df.shape не дают ожидаемый результат.
Какие-нибудь простые преобразования не работают c места:
df[['story_id']] = df[['story_id']].apply(dd.to_numeric,errors='coerce'):
NotImplementedError: dd.DataFrame.apply only supports axis=1
Try: df.apply(func, axis=1)
Кроме того, при считывании файла Dask не совсем его считывает. Вот статья об этом.
И интересный бенчмарк по инструментам, немного, правда устаревший.
Ситуация вообще интересная скалывается.
Мне кажетя, что в pandas сами ищут способ как им ускориться и как им внутренне оптимизироваться и процесс в самом разгаре. Они либо породят рядом с DataFrame ещё и DataFrameParallel, либо вольют в себя, что-то, что максимально идентично им по идеологии.
Но сперва свои, уже имеющиеся, типы доведут до 100% поддержки своими же методами и методы доведут до работы с этими типами при участии нескольких полей идентичных и разных типов.
В целом, моя личная ситуация позволяет мне подождать, когда Pandas сделают всё внутри себя, но если за годик в пандах ничего не изменится, то идти в Modin.
Мне кажетя, что в pandas сами ищут способ как им ускориться и как им внутренне оптимизироваться и процесс в самом разгаре. Они либо породят рядом с DataFrame ещё и DataFrameParallel, либо вольют в себя, что-то, что максимально идентично им по идеологии.
Но сперва свои, уже имеющиеся, типы доведут до 100% поддержки своими же методами и методы доведут до работы с этими типами при участии нескольких полей идентичных и разных типов.
В целом, моя личная ситуация позволяет мне подождать, когда Pandas сделают всё внутри себя, но если за годик в пандах ничего не изменится, то идти в Modin.
Sign up to leave a comment.
6 способов значительно ускорить pandas с помощью пары строк кода. Часть 2