конечно можно, но нужно тогда понимать, что запускаете и в манифесте и знать где и как подложить файлики с драйвером для подключения к какому-нибудь клику Да и в целом, чтобы знать Jenkins нужно быть devops'ом. А среди дата-инженеров и разработчиков небольшое количество желающих быть девопсами. Это больше про оптимизацию процесса при работе.
Правильно про экспертизу. У клиентов она не всегда бывает и построить что-то подобное подвязав спрятав под капот не получается. yarn, кстати, хорошая штука если бы не шёл вместе с hadoop и работал без него. Загрузка через бакет позволяет настроить пайп однократно и больше не вспоминать об этом. Пока не сломается. А airflow как раз позволяет это отслеживать. Не нужно что-то своё для оркестрации придумывать.
SparkConnect нормально пока мало кто может использовать. Мы много раз сталкивались с тем, что клиенты просто не знают что это такое и как его использовать. Пытаются пользоваться как классическим спарком, запускать джобы и ожидать закрытия сессии. Так что сам Livy может и не сильно современный нынче, но всё ещё может быть использован. Подход вполне рабочий
Соглашусь, но когда думаешь о разработке своего, смотришь на задачи, прикидываешь архитектуру и т.д. внезапно понимаешь, что придумал уже имеющееся на рынке и просто берёшь готовое. Да, может немного сложновато будет въехать в чужой и opensource код для доработок, но это экономит уйму времени на первом этапе.
конечно можно, но нужно тогда понимать, что запускаете и в манифесте
и знать где и как подложить файлики с драйвером для подключения к какому-нибудь клику
Да и в целом, чтобы знать Jenkins нужно быть devops'ом. А среди дата-инженеров и разработчиков небольшое количество желающих быть девопсами.
Это больше про оптимизацию процесса при работе.
это для наглядности сделано, можно уже самому это спрятать отдельно и переиспользовать только там, где нужно. Но мы решили не прятать.
Правильно про экспертизу. У клиентов она не всегда бывает и построить что-то подобное подвязав спрятав под капот не получается. yarn, кстати, хорошая штука если бы не шёл вместе с hadoop и работал без него.
Загрузка через бакет позволяет настроить пайп однократно и больше не вспоминать об этом. Пока не сломается. А airflow как раз позволяет это отслеживать. Не нужно что-то своё для оркестрации придумывать.
SparkConnect нормально пока мало кто может использовать. Мы много раз сталкивались с тем, что клиенты просто не знают что это такое и как его использовать. Пытаются пользоваться как классическим спарком, запускать джобы и ожидать закрытия сессии. Так что сам Livy может и не сильно современный нынче, но всё ещё может быть использован. Подход вполне рабочий
Возможно в каких-то старых версиях это было невозможно. Но вот документация, где коннектор с Kafka описывается. Может вам поможет:
https://docs.open-metadata.org/latest/connectors/messaging/kafka
Соглашусь, но когда думаешь о разработке своего, смотришь на задачи, прикидываешь архитектуру и т.д. внезапно понимаешь, что придумал уже имеющееся на рынке и просто берёшь готовое. Да, может немного сложновато будет въехать в чужой и opensource код для доработок, но это экономит уйму времени на первом этапе.