Обновить
4
0
Юрий Орлов@YO_N

TeamLead, разработчик, MLOps строитель

Отправить сообщение

конечно можно, но нужно тогда понимать, что запускаете и в манифесте
и знать где и как подложить файлики с драйвером для подключения к какому-нибудь клику
Да и в целом, чтобы знать Jenkins нужно быть devops'ом. А среди дата-инженеров и разработчиков небольшое количество желающих быть девопсами.
Это больше про оптимизацию процесса при работе.

это для наглядности сделано, можно уже самому это спрятать отдельно и переиспользовать только там, где нужно. Но мы решили не прятать.

Правильно про экспертизу. У клиентов она не всегда бывает и построить что-то подобное подвязав спрятав под капот не получается. yarn, кстати, хорошая штука если бы не шёл вместе с hadoop и работал без него.
Загрузка через бакет позволяет настроить пайп однократно и больше не вспоминать об этом. Пока не сломается. А airflow как раз позволяет это отслеживать. Не нужно что-то своё для оркестрации придумывать.

SparkConnect нормально пока мало кто может использовать. Мы много раз сталкивались с тем, что клиенты просто не знают что это такое и как его использовать. Пытаются пользоваться как классическим спарком, запускать джобы и ожидать закрытия сессии. Так что сам Livy может и не сильно современный нынче, но всё ещё может быть использован. Подход вполне рабочий

Возможно в каких-то старых версиях это было невозможно. Но вот документация, где коннектор с Kafka описывается. Может вам поможет:
https://docs.open-metadata.org/latest/connectors/messaging/kafka

Соглашусь, но когда думаешь о разработке своего, смотришь на задачи, прикидываешь архитектуру и т.д. внезапно понимаешь, что придумал уже имеющееся на рынке и просто берёшь готовое. Да, может немного сложновато будет въехать в чужой и opensource код для доработок, но это экономит уйму времени на первом этапе.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность

Специализация

Бэкенд разработчик, Веб-разработчик