Search
Write a publication
Pull to refresh
0
0
Send message

В polars нужно использовать LazyFrame. Тогда включаются оптимизирующий компилятор и остальные плюшки, аналогичные duckdb.

Если интересно, то можно начать откуда-то отсюда: https://docs.pola.rs/api/python/dev/reference/api/polars.scan_parquet.html#polars.scan_parquet

Всё равно duckdb быстрее, потому что он сейчас вообще самый быстрый, но там нет dataframe api только sql, иногда его явно недостаточно для обработки сложных данных

Delta, HUDI, Iceberg: ну да, ну да, пошли мы нафиг)

Во многих сферах бизнеса простые задачи уже давно решены, и чтоб заработать дополнительных денег, нужно решать задачи, для которых нет готовых алгоритмов, дающих нужное качество

Конечно, разработка стала гораздо более высокоуровневой, но и задачи тоже, и проще они от этого не стали

2) А ещё можно изначально не ставить еженедельное совещание по разбору и оценке новых задач

А ставить разовые встречи, когда эти новые задачи действительно накопились и стоит их разгрести, или если прилетело что-то срочное, что стоит обсудить

Код часто с ошибками и несуществующими "библиотечными" методами

Если нужно что-то сложное написать - даже с подсказками не особо справляется, нужно дорабатывать напильником

Но в целом круто, конечно, может значительно ускорить работу по рутинному гуглежу, немножко объяснить матан, задачи оптимизации и всякое такое

Раньше акцент был на создание хоть чего-нибудь полезного на основе данных. Типа возьми бигдату, посчитай затраты и эффект от рекламы, пойми, где эффективно, а где нет, урежь неэффективное и добавь бюджета эффективному. Это давало серьёзный процент снижения расходов, который окупал бигдату.

Сейчас этого уже недостаточно, сейчас на основе бигдаты принимаются решения, которые напрямую влияют на прибыль компании, на имидж и на само её существование. Поэтому требуется серьёзное улучшение в перечисленных аспектах

Information

Rating
10,171-st
Registered
Activity