kanasero24 фев в 07:10

Работа с объемными данными в Python для начинающих

Простой

6 мин

5.9K

Python * Big Data * Data Engineering * Data Mining *

Комментарии 3

badsynt 24 фев в 07:24

Если нужно быстренько посмотреть, что там внутри гигабайтного csv файла - очень помогает baretail.exe.

artyombykov461 24 фев в 07:31

У нас в Тинькофф как-то junior принес похожий код с чанками для обработки выгрузки транзакций. Работало до первого JOIN'а с другой таблицей — тут вся экономия памяти и полетела) В проде для действительно больших объемов всё равно приходишь либо к PostgreSQL с window functions (если агрегация), либо к Apache Spark (если ETL). Pandas хорош для прототипа, но scaling у него грустный. А оптимизация типов данных — да, ОБЯЗАТЕЛЬНО, только лучше через categorical для строк, экономия памяти до 95% на реальных данных.

Ananiev_Genrih 24 фев в 15:21

Зачем вообще в 2026 году при наличии duckdb и polars говорить про оптимизации в pandas для ресурсоемких наборов данных на локальной машине?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий