Search
Write a publication
Pull to refresh

Comments 10

Вау! Респект что вышли из тени, но работать с Iceberg из Spark 3.1? Да и сам Iceberg кучу родовых травм успел починить по пути к актуальной 1.7.

Пробовали ли выйти из заморозки работать на свежей версии?)

Мы начинали работу с Iceberg в 2022, на тот момент актуальные версии Spark и Iceberg. Возвращая фокус на возможную полноценную миграцию шаг с тестированием на обновлённых версиях впереди)

Для онлайн запросов по Iceberg-данным у меня часто используется Clickhouse, правда у меня объемы данных в таблицах куда ходит Clickhouse - совсем небольшие, витрины с агрегатами, единицы миллионов записей. Пробовали ли поставить Clickhouse (или вообще какую-нибудь Impala/Presto/Trino) как фронтенд для feature-store?

Про Maintainance - речь же в первую очередь должна быть про "Compact data files", должен быть какой-то регулярный процесс, как бэкграунд мержи в clickhouse. А удаление старых файлов метаданных не должно повлиять на выполнение запросов примерно никак.

В части Maintainance, я бы ещё выделил Expire Snapshots на случай интенсивных операций UPDATE или DELETE, так как со временем может накопиться множество неактуальных файлов, влияющих на производительность, а эта настройка позволяет от них избавиться

Учитывая множество таблиц в одном бакете, хорошая наводка, проверим

метастор какой используется?

ивенты напрямую в кафку пишутся, не через микросервисы?

Шел 2025 год. Люди сравнивают Iceberg и Hive. Даже не с Delta, а с Hive!
Плохие "инженеры данных в команде дата-платформы Циан", если им приходят идеи таких сравнений.

Sign up to leave a comment.