de_linch Nov 19 2024 at 11:58

Как мы попробовали Apache Iceberg в связке со Spark и что из этого вышло

Medium

5 min

5.3K

Циан corporate blogApache * Data Engineering * Big Data *

Case

Comments 10

eigrad Nov 20 2024 at 20:03

Вау! Респект что вышли из тени, но работать с Iceberg из Spark 3.1? Да и сам Iceberg кучу родовых травм успел починить по пути к актуальной 1.7.

Пробовали ли ~~выйти из заморозки~~ работать на свежей версии?)

de_linch Nov 21 2024 at 13:03

Мы начинали работу с Iceberg в 2022, на тот момент актуальные версии Spark и Iceberg. Возвращая фокус на возможную полноценную миграцию шаг с тестированием на обновлённых версиях впереди)

eigrad Nov 20 2024 at 20:43

Для онлайн запросов по Iceberg-данным у меня часто используется Clickhouse, правда у меня объемы данных в таблицах куда ходит Clickhouse - совсем небольшие, витрины с агрегатами, единицы миллионов записей. Пробовали ли поставить Clickhouse (или вообще какую-нибудь Impala/Presto/Trino) как фронтенд для feature-store?

Про Maintainance - речь же в первую очередь должна быть про "Compact data files", должен быть какой-то регулярный процесс, как бэкграунд мержи в clickhouse. А удаление старых файлов метаданных не должно повлиять на выполнение запросов примерно никак.

de_linch Nov 21 2024 at 13:05

Пробовали Trino, Clickhouse - нет

de_linch Nov 21 2024 at 13:13

В части Maintainance, я бы ещё выделил Expire Snapshots на случай интенсивных операций UPDATE или DELETE, так как со временем может накопиться множество неактуальных файлов, влияющих на производительность, а эта настройка позволяет от них избавиться

eigrad Nov 20 2024 at 20:47

Ещё стоит спросить яндексоидов не надо ли вам включить эту штуку при работе с их S3 - https://iceberg.apache.org/docs/1.7.0/aws/?h=write.object+storage.enabled#object-store-file-layout.

de_linch Nov 21 2024 at 13:24

Учитывая множество таблиц в одном бакете, хорошая наводка, проверим

lestvt Nov 21 2024 at 07:25

метастор какой используется?

ивенты напрямую в кафку пишутся, не через микросервисы?

de_linch Nov 21 2024 at 13:26

Hive 3.1.0, через микросервисы

Ninil Feb 9 at 18:35

Шел 2025 год. Люди сравнивают Iceberg и Hive. Даже не с Delta, а с Hive!
Плохие "инженеры данных в команде дата-платформы Циан", если им приходят идеи таких сравнений.