Comments 1
Сама идея очевидна и не нова, и даже простое хранение данных в колоночном формате типа паркета уже позволяет вычитывать только ключ вместо всей строки, и это уже дает приличное преимущество при выборке.
Но индекс, который не обновляется при добавлении и обновлении данных, будет работать ровно до этого обновления. Судя по тексту, обновление индексов реализовано. Но самое важное опущено — это время этого обновления, то, насколько оно эффективно. А также то, является ли оно атомарным, потому что таблицы в Hive, в общем случае, не транзакционны.
>Этот процесс занимает около одной секунды
Хм. А данных-то при этом сколько?
И судя опять же только по тексту, построение индекса — это тот самый фуллскан, как минимум — на добавленные/изменившиеся данные, то есть это может быть совсем даже не быстро. А если изменившиеся данные не сосредоточены в одной партиции — то просто фуллскан всей таблицы. Так что, данных по производительности де факто ноль, потому что приведенные циферки не указывают объема данных, и потому правильно интерпретированы быть не могут.
Без циферок по производительности — пока в значительной степени маркетинговый текст. И еще не хватает данных о том, какие версии (например Spark, Hive) поддерживаются.
Но индекс, который не обновляется при добавлении и обновлении данных, будет работать ровно до этого обновления. Судя по тексту, обновление индексов реализовано. Но самое важное опущено — это время этого обновления, то, насколько оно эффективно. А также то, является ли оно атомарным, потому что таблицы в Hive, в общем случае, не транзакционны.
>Этот процесс занимает около одной секунды
Хм. А данных-то при этом сколько?
И судя опять же только по тексту, построение индекса — это тот самый фуллскан, как минимум — на добавленные/изменившиеся данные, то есть это может быть совсем даже не быстро. А если изменившиеся данные не сосредоточены в одной партиции — то просто фуллскан всей таблицы. Так что, данных по производительности де факто ноль, потому что приведенные циферки не указывают объема данных, и потому правильно интерпретированы быть не могут.
Без циферок по производительности — пока в значительной степени маркетинговый текст. И еще не хватает данных о том, какие версии (например Spark, Hive) поддерживаются.
+1
Sign up to leave a comment.
Как в PayPal разработали Dione — Open-source-библиотеку индексирования данных для HDFS и Spark