Спасибо за статью, очень масштабно и вдохновляюще.
Несколько уточняющих вопросов.
Чтобы выдерживать такую нагрузку, у нас работает более 20 кластеров Trino
Мотивация в нескольких кластерах понятна. Подскажите - по какому критерию делите кластера? Характер нагрузки (ETL/ad-hoc/...) или как-то иначе (по "заказчикам", например)?
весь наш ETL изначально жил внутри SQL-движка. Поэтому при миграции для нас естественным и понятным было повторить тот же подход в Trino.
Расскажите, пожалуйста, чуть подробнее про пайплайн, который выбрали:
Какой оркестратор выбрали и как управляете зависимостями расчетов (графами)?
По какому пути описания ETL пошли: пользователи готовят "голые" sql или dbt-trino модели / его аналоги?
Спасибо за статью, очень масштабно и вдохновляюще.
Несколько уточняющих вопросов.
Мотивация в нескольких кластерах понятна. Подскажите - по какому критерию делите кластера? Характер нагрузки (ETL/ad-hoc/...) или как-то иначе (по "заказчикам", например)?
Расскажите, пожалуйста, чуть подробнее про пайплайн, который выбрали:
Какой оркестратор выбрали и как управляете зависимостями расчетов (графами)?
По какому пути описания ETL пошли: пользователи готовят "голые" sql или dbt-trino модели / его аналоги?