Как стать автором
Обновить

Комментарии 11

многова-то для джуниора

По вашему мнению, что из перечисленного не относится к знаниям, достаточным для джуна?

весь линукс смело можно пропустить, теорию инмона/кимбола джуниору тоже смысла читать нет

Что касается линукса, то мнения встречаются разные. Поэтому я не так много включил в пункты для изучения, буквально то, что можно освоить за один-два подхода. Часто бывает так, что вещи, связанные с терминалом, постоянно приходится гуглить и учиться заново)
С инмоном/кимбаллом примерно всё тоже самое, nice to have. Часто затрагивают эту тему в курсах, часто спрашивают на собесах.

И на первом же собесе можно будет смело так и отвечать, когда вопрос соответствующий прилетит )

А вообще, к слову, джун ДЕ - это какая-то мета-вакансия.
Обычно +middle-senior.

Можно попробовать, но какой будет вывод по итогам собеса - непонятно)

Вакансии именно джунов тоже есть, хотя, конечно, и не так часто попадаются как middle-senior.

я на собесах дата-инженеров ни про линукс, ни про методологии не спрашиваю. Даже middle девелоперов. Мидлам хорошобы уметь ETL делать обычный. А от джунов и того не требуется, хотя бы SQL знать нормально

p.s. за методологии проектирования может поговорить хорошо если каждый пятый сеньер.

Да, хороший материал! Местами тоже есть моменты для джуна может не такие необходимые, но всё равно полезные.

Данные полюбил на предыдущем рабочем месте и теперь пытаюсь вкатиться в ДЕ в новой для себя стране.

Местные, кого ни спрошу, как правило сходятся во мнении, что для старта мне нужен SQL+Python+Airflow+Spark. Буду идти по этому пути, но есть вопросы.

На одном из пройденных курсов имел возможность познакомиться с Pentaho Data Integration. Что из связки Airflow+Spark он заменяет?

И нужно ли учить отдельно Spark и отдельно PySpark - никак не могу для себя уяснить?

Airflow + Spark это связка оркестратора и вычислительного движка. Сам по себе Airflow обычно не обрабатывает данные, а только запускает по определенным правилам те или иные задачи (можно назвать его cron-ом на стероидах), например, как в рассматриваемом примере, запускает Spark джобы, которые уже непосредственно занимаются вычислениями. Pentaho DI же является именно ETL тулом, который позволяет c помощью собственного графического интерфейса построить пайплайн, работа с данными в котором будет самой же Pentaho-й и выполняться. Одну и ту же задачу можно решить разными путями, а использовать Pentaho или Airflow+Spark - вопрос выбора инструментов под конкретные задачи.

При изучении Spark-a главнее всего понять как этот фреймворк работает под капотом и каким образом обращается с данными, а на каком языке общаться с ним и писать под него джобы (Python, Scala и пр.), по моему мнению, на старте не так уж важно, можно выбрать любой вариант.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий