Комментарии 13
С нетерпением жду Алексея и КликХаус в очередном издании The Architecture of Open Source Applications: https://www.aosabook.org/en/index.html
Мне кажется, что КликХаус более чем достойный пример для книги.
Алексей упоминал, что Метрика была третьей в мире в веб-аналитике. Если первый—это Google Analytics, то кто тогда второй?
Есть такие данные: https://w3techs.com/technologies/overview/traffic_analysis
Вот, все же, до сих пор не понимаю, почему раз в КХ все работает столь быстро, в нем столь убоги джойны. Broadcast join вообще отсутствует как таковой.
Почему все проприетарные конкуренты (BigQuery, Redshift, Vertica) с похожими принципами и подходами вопрос решили, а Clickhouse way — городить велосипеды из костылей с применением внешних in-memory кешей и смотрящего на них словаря просто, чтобы, например, посчитать
group by account_id, когда факты льются с кукой, а связка кука-> account может прийти после записи факта.
Как говорится, пулл-реквесты приветствуются, исторически сложилось, и другое. Проект развивается, 5 лет назад джойнов не было совсем.
Я вот уже долгое время не сотрудник компании, так что могу только поделиться ощущениями.
По мне, задача звучит как улучшение, то есть уже существуют пути решения проблемы. А раз так, то и приоритет не самый высокий.
Но всё меняется, как только приносят PR, где оно реализовано. А принимаются изменения в КХ очень охотно, так что стесняться и бояться этого не стоит.
На сколько я помню Алексей не хотел добавлять join потому что это медленно а clickhouse не тормозит. Если выбрать между join и скоростью я бы тоже выбрал второе.
«Представь, что ты нашел решение, про которое можешь сказать: оно лучшее в мире» — интервью с создателем ClickHouse