Для массовых ad-hoc запросов подходят несколько решений по убыванию удобности: spark-connect с динамической аллокацией экзекьюторов (с шардированием если нужно), локальный спарк (в докере), выделенный сервер с поднятым spark shell.
Дельта таблицы позволяют делать time-travel также, за счет чего можно получать ретроспективные выборки. На мой взгляд, цель данной статьи не столько осветить детали имплементации решения, сколько продемонстрировать, что для не самых нагруженных пайплайнов гринплам в облаке, это как из пушки по воробьям.
P.S. Я похоже не в ту ветку ответ написал, прошу понять и простить! не особо часто использую хабр.
Пример в статье демонстрационный. Он показывает, что перед тем, как обратиться с вопросом, может быть проделана предварительная работа. В большинстве случаев в процессе поиска решения, оно найдется. Если же найти решение не получится, то работа облегчит ответ на вопрос, так как самые простые гипотезы уже были проверены.
В приведенном случае все несколько упрощено и можно предположить, что для базы данных установлен автоматический пайплайн, который позволяет безопасно и эффективно добавлять индексы без прямого ручного вмешательства в прод.
Здравствуйте! В нашем случае было бы некорректно сказать, что мы сэкономили на девопсах. На тот момент мы как раз были в процессе найма ещё людей с такими навыками, но как вы знаете, найм не происходит мгновенно. Поэтому пришлось решать задачу своими силами, про что собственно и написано.
Для массовых ad-hoc запросов подходят несколько решений по убыванию удобности: spark-connect с динамической аллокацией экзекьюторов (с шардированием если нужно), локальный спарк (в докере), выделенный сервер с поднятым spark shell.
Дельта таблицы позволяют делать time-travel также, за счет чего можно получать ретроспективные выборки. На мой взгляд, цель данной статьи не столько осветить детали имплементации решения, сколько продемонстрировать, что для не самых нагруженных пайплайнов гринплам в облаке, это как из пушки по воробьям.
P.S. Я похоже не в ту ветку ответ написал, прошу понять и простить! не особо часто использую хабр.
Пример в статье демонстрационный. Он показывает, что перед тем, как обратиться с вопросом, может быть проделана предварительная работа. В большинстве случаев в процессе поиска решения, оно найдется. Если же найти решение не получится, то работа облегчит ответ на вопрос, так как самые простые гипотезы уже были проверены.
В приведенном случае все несколько упрощено и можно предположить, что для базы данных установлен автоматический пайплайн, который позволяет безопасно и эффективно добавлять индексы без прямого ручного вмешательства в прод.
Здравствуйте! В нашем случае было бы некорректно сказать, что мы сэкономили на девопсах. На тот момент мы как раз были в процессе найма ещё людей с такими навыками, но как вы знаете, найм не происходит мгновенно. Поэтому пришлось решать задачу своими силами, про что собственно и написано.
Спасибо! Размерность это была попытка перевести cardinality на русский. Кардинальность звучит ближе к оригиналу, да)
Здравствуйте! Не сталкивался раньше со statsd-exporter'ом. Раскройте чуть подробнее, пожалуйста, как именно предлагается его использовать?
Прочитал доку по диагонали и сложилось впечатление, что для того, чтобы пробрасывать метрики из Influx в Prometheus.