Как стать автором
Обновить

Комментарии 11

Проблема не в медленной вертике в режиме eon, проблема в данных, что они лежат в стороне на s3...

Может не хватает более агрессивного кеширования. Если бы на графиках было видна полка хоть где-то :(

А в чем легендарность sort merge join?

Позволяет дешево реализовать моделирование data vault. Дешево в смысле не убивать расчетами кластер типа попытки реализации волта, например, на спарке :)

В спарке же тоже есть SMJ (хотя broadcast варианта вроде нет), да и вообще в любой СУБД. А если соединение не по отсортированному ключу то hash join и побыстрее будет, не?

Hash join более прожорливый по ресурсам просто потому что надо посчитать хеш для всех строк, а для сорт мерж не надо :)

Не буду сейчас меряться, просто это один из мифов про вертику :) как человек, работающий с ней каждый день, некоторые запросы гораздо быстрее сделать в спарке, чем дождаться вертику...

а некоторые еще быстрее сделать в Impala чем в спарке и вертике :) причем местами на порядок

А местами нет. Вся проблема стероидов, никогда не знаешь где лажанет. А с политикой вендоров делать несовместимые обновления, так и вовсе грудью на минное поле )

дешево? Вы просто платите за операции обновления тройную цену чтобы потом быстро выполнять операции join.

В кликзаузе тоже платим, но и этого не получаем )

Так CH вообще штука сугубо специфическая не про join ни разу :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории