Комментарии 3
Если нужно быстренько посмотреть, что там внутри гигабайтного csv файла - очень помогает baretail.exe.
У нас в Тинькофф как-то junior принес похожий код с чанками для обработки выгрузки транзакций. Работало до первого JOIN'а с другой таблицей — тут вся экономия памяти и полетела) В проде для действительно больших объемов всё равно приходишь либо к PostgreSQL с window functions (если агрегация), либо к Apache Spark (если ETL). Pandas хорош для прототипа, но scaling у него грустный. А оптимизация типов данных — да, ОБЯЗАТЕЛЬНО, только лучше через categorical для строк, экономия памяти до 95% на реальных данных.
Зачем вообще в 2026 году при наличии duckdb и polars говорить про оптимизации в pandas для ресурсоемких наборов данных на локальной машине?

Работа с объемными данными в Python для начинающих