Всё равно duckdb быстрее, потому что он сейчас вообще самый быстрый, но там нет dataframe api только sql, иногда его явно недостаточно для обработки сложных данных
Во многих сферах бизнеса простые задачи уже давно решены, и чтоб заработать дополнительных денег, нужно решать задачи, для которых нет готовых алгоритмов, дающих нужное качество
Конечно, разработка стала гораздо более высокоуровневой, но и задачи тоже, и проще они от этого не стали
Раньше акцент был на создание хоть чего-нибудь полезного на основе данных. Типа возьми бигдату, посчитай затраты и эффект от рекламы, пойми, где эффективно, а где нет, урежь неэффективное и добавь бюджета эффективному. Это давало серьёзный процент снижения расходов, который окупал бигдату.
Сейчас этого уже недостаточно, сейчас на основе бигдаты принимаются решения, которые напрямую влияют на прибыль компании, на имидж и на само её существование. Поэтому требуется серьёзное улучшение в перечисленных аспектах
В polars нужно использовать LazyFrame. Тогда включаются оптимизирующий компилятор и остальные плюшки, аналогичные duckdb.
Если интересно, то можно начать откуда-то отсюда: https://docs.pola.rs/api/python/dev/reference/api/polars.scan_parquet.html#polars.scan_parquet
Всё равно duckdb быстрее, потому что он сейчас вообще самый быстрый, но там нет dataframe api только sql, иногда его явно недостаточно для обработки сложных данных
Ждёт своего часа)
Delta, HUDI, Iceberg: ну да, ну да, пошли мы нафиг)
Во многих сферах бизнеса простые задачи уже давно решены, и чтоб заработать дополнительных денег, нужно решать задачи, для которых нет готовых алгоритмов, дающих нужное качество
Конечно, разработка стала гораздо более высокоуровневой, но и задачи тоже, и проще они от этого не стали
2) А ещё можно изначально не ставить еженедельное совещание по разбору и оценке новых задач
А ставить разовые встречи, когда эти новые задачи действительно накопились и стоит их разгрести, или если прилетело что-то срочное, что стоит обсудить
Код часто с ошибками и несуществующими "библиотечными" методами
Если нужно что-то сложное написать - даже с подсказками не особо справляется, нужно дорабатывать напильником
Но в целом круто, конечно, может значительно ускорить работу по рутинному гуглежу, немножко объяснить матан, задачи оптимизации и всякое такое
Раньше акцент был на создание хоть чего-нибудь полезного на основе данных. Типа возьми бигдату, посчитай затраты и эффект от рекламы, пойми, где эффективно, а где нет, урежь неэффективное и добавь бюджета эффективному. Это давало серьёзный процент снижения расходов, который окупал бигдату.
Сейчас этого уже недостаточно, сейчас на основе бигдаты принимаются решения, которые напрямую влияют на прибыль компании, на имидж и на само её существование. Поэтому требуется серьёзное улучшение в перечисленных аспектах
Убийца с++ №100501
от создателей убийцы с++ №100500