Комментарии / Профиль YO

Юрий Орлов@YO_N

TeamLead, разработчик, MLOps строитель

Простой Python, автоматический Spark: минус Kubernetes, плюс продуктивность

YO_N 20 ноя 2025 в 12:10

конечно можно, но нужно тогда понимать, что запускаете и в манифесте
и знать где и как подложить файлики с драйвером для подключения к какому-нибудь клику
Да и в целом, чтобы знать Jenkins нужно быть devops'ом. А среди дата-инженеров и разработчиков небольшое количество желающих быть девопсами.
Это больше про оптимизацию процесса при работе.

Простой Python, автоматический Spark: минус Kubernetes, плюс продуктивность

YO_N 19 ноя 2025 в 12:13

это для наглядности сделано, можно уже самому это спрятать отдельно и переиспользовать только там, где нужно. Но мы решили не прятать.

Простой Python, автоматический Spark: минус Kubernetes, плюс продуктивность

YO_N 19 ноя 2025 в 12:11

Правильно про экспертизу. У клиентов она не всегда бывает и построить что-то подобное подвязав спрятав под капот не получается. yarn, кстати, хорошая штука если бы не шёл вместе с hadoop и работал без него.
Загрузка через бакет позволяет настроить пайп однократно и больше не вспоминать об этом. Пока не сломается. А airflow как раз позволяет это отслеживать. Не нужно что-то своё для оркестрации придумывать.

SparkConnect нормально пока мало кто может использовать. Мы много раз сталкивались с тем, что клиенты просто не знают что это такое и как его использовать. Пытаются пользоваться как классическим спарком, запускать джобы и ожидать закрытия сессии. Так что сам Livy может и не сильно современный нынче, но всё ещё может быть использован. Подход вполне рабочий

Data catalog: от истории до сравнения решений

YO_N 22 ноя 2024 в 15:00

Возможно в каких-то старых версиях это было невозможно. Но вот документация, где коннектор с Kafka описывается. Может вам поможет:
https://docs.open-metadata.org/latest/connectors/messaging/kafka

Data catalog: от истории до сравнения решений

YO_N 21 ноя 2024 в 08:07

Соглашусь, но когда думаешь о разработке своего, смотришь на задачи, прикидываешь архитектуру и т.д. внезапно понимаешь, что придумал уже имеющееся на рынке и просто берёшь готовое. Да, может немного сложновато будет въехать в чужой и opensource код для доработок, но это экономит уйму времени на первом этапе.

Информация

Специализация