Comments 10
Вау! Респект что вышли из тени, но работать с Iceberg из Spark 3.1? Да и сам Iceberg кучу родовых травм успел починить по пути к актуальной 1.7.
Пробовали ли выйти из заморозки работать на свежей версии?)
Для онлайн запросов по Iceberg-данным у меня часто используется Clickhouse, правда у меня объемы данных в таблицах куда ходит Clickhouse - совсем небольшие, витрины с агрегатами, единицы миллионов записей. Пробовали ли поставить Clickhouse (или вообще какую-нибудь Impala/Presto/Trino) как фронтенд для feature-store?
Про Maintainance - речь же в первую очередь должна быть про "Compact data files", должен быть какой-то регулярный процесс, как бэкграунд мержи в clickhouse. А удаление старых файлов метаданных не должно повлиять на выполнение запросов примерно никак.
Ещё стоит спросить яндексоидов не надо ли вам включить эту штуку при работе с их S3 - https://iceberg.apache.org/docs/1.7.0/aws/?h=write.object+storage.enabled#object-store-file-layout.
метастор какой используется?
ивенты напрямую в кафку пишутся, не через микросервисы?
Шел 2025 год. Люди сравнивают Iceberg и Hive. Даже не с Delta, а с Hive!
Плохие "инженеры данных в команде дата-платформы Циан", если им приходят идеи таких сравнений.
Как мы попробовали Apache Iceberg в связке со Spark и что из этого вышло