digitaljay 17 апр в 13:25

Ускорить Pandas в 60 раз: проверяем лайфхаки из интернета на реальном проекте и обкладываемся бенчмарками

Простой

8 мин

6.6K

Блог компании ТочкаPython*Big Data*

+28

Комментарии 12

atepaevm 17 апр в 13:50

Традиционный комментарий в поддержку polars

economist75 17 апр в 15:32

+1, и в поддержку fireducks. Однако кейс необычный, и гарантировать ускорение за счет другой живности мы не можем.

digitaljay 18 апр в 15:07

Плюсану

Но летом 2023, когда проект рефакторился, polars был еще в нестабильной нулевой мажорной версии, так что затаскивать его в продовый проект не хотелось

Cekory 17 апр в 14:27

подгрузка ретроданных для этого занимала целый год (!)

Как это могло попасть в прод?

digitaljay 18 апр в 15:10

Это было MVP внутреннего продукта для сотрудников, так что проект изначально собирали "на коленке", чисто чтобы протестить гипотезу

kkalmutskiy 17 апр в 16:23

Можно было ещё все что можно обернуть numba и переписать циклы на честные векторные операции, тогда можно было бы на порядок-два ускориться

digitaljay 18 апр в 15:12

Да, упоминала в статье, что векторные операции хорошо сказываются на скорости, но сходу их было сложно внедрить, тк это обычно требует довольно сильных изменений в коде + операции со строками, например, так сходу не векторизовать

Ananiev_Genrih 17 апр в 23:30

2025 год: ёжики плакали, кололись, упорно игнорировали polars и duckdb продолжая давиться пандасом "потому что дисклеймер"

digitaljay 18 апр в 15:13

Не, в 2025 году у нас к счатью этот проект уже не на пандасе живет)))
А вот в 2023 на момент рефакторинга пандас был не самым плохим решением

CrazyElf 19 апр в 06:06

Насчёт приколов с лишней памятью при конвертации из numpy. Надо было просто сразу и нумпаю тот же тип данных указывать, тогда не было бы расходов на переконвертацию. А вы ему никакой тип не указывали, получался опять же какой-то дефолтный тип по умолчанию.

А так вообще круто, я думал всё знаю про пандас, но узнал таки что-то новое.

Жалко ещё, что Dask совсем никто не использует, но в общем у меня с ним тоже не сложилось в своё время. А потом уже появились более удобные конкуренты.

AndreySozy 20 апр в 16:05

Если для реализации бизнес-логики достаточно реляционных операций, то такая логика должна реализовываться на SQL. И желательно в базе данных, чтобы не таскать датасеты по сети в контейнер и обратно.

economist75 23 апр в 20:47

На SQL получается многословно. Плюс это нередко прод-сервер, который легко обвалить неудачным джойном. Поэтому аналитики выгружают csv, зеркалят их в DuckDB или читают прямо огнеутками и дальше джойнят без опасений.

Роль SQL снижается в наше время. Он больше теперь для грубой выборки и партиционирования. Оконные ф-ии могут быстро приводить к деградации скорости, а множественные джойны некрасивы, в отличие от однострочников в JupyterLab в отдельно выполнимых ячейках. В 25 млн блокнотов на гитхабе лишь 1,5% содержат код на SQL.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий