Sergei-Shaikin Mar 4 2024 at 10:48

Паркет устарел. Пора менять

Medium

12 min

83K

Data Engineering *

From sandbox

Comments 15

LifeHackMan Mar 4 2024 at 15:51

Delta, HUDI, Iceberg: ну да, ну да, пошли мы нафиг)

Sergei-Shaikin Mar 4 2024 at 15:59

Для сравнения надо мерить производительность. Но те бенчмарки которые я видел были по какой-то причине сделаны между карбондатой на втором спарке и айсбергом на третьем. И айсберг был на единицы процентов быстрее. Если бы был бенчмарк объективнее, то я бы не был так уверен. А вообще по популярности этих продуктов можно судить по табличке от апреля 2021 года.

Attal Mar 4 2024 at 16:02

Одни плюсы, и что... совсем ни одного минуса?

Sergei-Shaikin Mar 4 2024 at 16:18

Ну почему же нет минусов. Продукт не так широко известен, соотвественно нет такого количества документации.

mitgard Mar 4 2024 at 18:16

Это пока не минусы. В целом странно, что он так малоизвестен, хотя старше того же худи

Sergei-Shaikin Mar 5 2024 at 06:50

Худи вырос из Убера,а Карбондата из Хуавей. Она более известна на китайском и индийском рынках

sshikov Mar 4 2024 at 18:48

Вот это и странно. Как правило, если есть специализация - должны быть минусы в тех областях, на которых продукт не специализируется. А попытки сделать что-то универсальное как правило имеют минусы повсюду :) А тут... документация, хм.

ciuafm Mar 4 2024 at 21:51

Очевидным недостатком является избыточное количество операций как цпу так и ИО при простых сценариях использования.

Sergei-Shaikin Mar 5 2024 at 06:48

Ну на простые сценарии Карбондата и не рассчитывается. Целевой размер скорее стремится к петабайтам. А то что ресурсоемкая, наверное соглашусь, но индексы иначе не построишь.

sshikov Mar 5 2024 at 16:12

Не, ну сжатие и индексы - это даром не дается, очевидно. Вы же не считаете тот факт, что типичная реляционная СУБД строит/достраивает индексы при каждой операции обновления, недостатком? Это скорее фича, особенность, с учетом которой надо выбирать инструмент. Желательно чтобы эта фича отключалась, очевидно, и настраивалась.

Sergei-Shaikin Mar 6 2024 at 08:58

Сжатие данных и индексы могут быть настроены под индивидуальные нужды или даже отключены. И вариантов для тонкой настройки и экспериментов предостаточно. Но так как у каждой организации свои особенности использования, то большинство стандартных настроек зачастую требуют доработки. А это в свою очередь упирается в знания и умения того, кто это будет настраивать...

EvgenyVilkov Mar 5 2024 at 17:51

Мне кажется у автора очень слабое представление о возможностях паркет.

В Паркете есть storage индексы, страничные индексы, поддержка z standard compression. Acid расширение вам даёт худы, айсберг, или дельта-лейк над паркетом.

Из моей реальной практики флинк в паркет + айсберг удавалось добиться 40.000 изменений в секунду при онлайн вставке данных.

EvgenyVilkov Mar 5 2024 at 17:53

В целом, когда выбираете формат данных нужно смотреть не на его фичи А понимать каким движком и для каких задач вы собираетесь его использовать. И какие возможности движок поддерживает на конкретном формате. А то потом выяснится что заявленная эволюция данных доступна не для всех dml операции

Sergei-Shaikin Mar 6 2024 at 07:30

Полностью согласен, все отталкивается от задач. Универсальных инструментов не существует. Но ограничения есть, без них не может не быть. На текущий момент полностью поддерживается Спарк через CarbonSpark connector. А вот в частности для Presto/Trino не поддерживаются материализованные представления, так как в логике СarbonData нужо изменять план запроса, а это не работает в Presto.

EvgenyVilkov Mar 6 2024 at 07:53

Если я хочу иметь возможность работать с Trino, Impala и Spark одновременно, то я свой паркет (в котором и двухуровневые индексы и возможонсть сортровать данные и общепринятые табличные расширения вроде iceberg\hudi тоже давно есть) на карбон не променяю.