Как в PayPal разработали Dione — Open-source-библиотеку индексирования данных для HDFS и Spark / Комментарии / Хабр

sshikov 24 мар 2022 в 08:23

Сама идея очевидна и не нова, и даже простое хранение данных в колоночном формате типа паркета уже позволяет вычитывать только ключ вместо всей строки, и это уже дает приличное преимущество при выборке.

Но индекс, который не обновляется при добавлении и обновлении данных, будет работать ровно до этого обновления. Судя по тексту, обновление индексов реализовано. Но самое важное опущено — это время этого обновления, то, насколько оно эффективно. А также то, является ли оно атомарным, потому что таблицы в Hive, в общем случае, не транзакционны.

>Этот процесс занимает около одной секунды
Хм. А данных-то при этом сколько?

И судя опять же только по тексту, построение индекса — это тот самый фуллскан, как минимум — на добавленные/изменившиеся данные, то есть это может быть совсем даже не быстро. А если изменившиеся данные не сосредоточены в одной партиции — то просто фуллскан всей таблицы. Так что, данных по производительности де факто ноль, потому что приведенные циферки не указывают объема данных, и потому правильно интерпретированы быть не могут.

Без циферок по производительности — пока в значительной степени маркетинговый текст. И еще не хватает данных о том, какие версии (например Spark, Hive) поддерживаются.