Pull to refresh
4
0

Data scientist

Send message

Data Lake 2.0: Iceberg и Parquet в бою за миллисекунды

Level of difficultyMedium
Reading time9 min
Reach and readers3.4K

Привет, Хабр! Меня зовут Валерий Бабушкин, я CDO МТС Web Services. Если достаточно много занимаешься машинным обучением, то однажды начинаешь говорить про дата-инженерию — как герой, который много сражается со злом и в итоге сам переходит на темную сторону. Вот и моя очередь настала.

На последнем True Tech Day я рассказал, как Apache Iceberg и Apache Parquet позволяют построить современную инфраструктуру для больших данных. В этом материале я расскажу, какие задачи решает каждый инструмент, как они работают в связке, и сравню производительность Hive с Parquet-партициями против Iceberg с Parquet-таблицами.

Читать далее

Information

Rating
Does not participate
Registered
Activity