Комментарии 11
многова-то для джуниора
По вашему мнению, что из перечисленного не относится к знаниям, достаточным для джуна?
весь линукс смело можно пропустить, теорию инмона/кимбола джуниору тоже смысла читать нет
Что касается линукса, то мнения встречаются разные. Поэтому я не так много включил в пункты для изучения, буквально то, что можно освоить за один-два подхода. Часто бывает так, что вещи, связанные с терминалом, постоянно приходится гуглить и учиться заново)
С инмоном/кимбаллом примерно всё тоже самое, nice to have. Часто затрагивают эту тему в курсах, часто спрашивают на собесах.
И на первом же собесе можно будет смело так и отвечать, когда вопрос соответствующий прилетит )
А вообще, к слову, джун ДЕ - это какая-то мета-вакансия.
Обычно +middle-senior.
Можно попробовать, но какой будет вывод по итогам собеса - непонятно)
Вакансии именно джунов тоже есть, хотя, конечно, и не так часто попадаются как middle-senior.
я на собесах дата-инженеров ни про линукс, ни про методологии не спрашиваю. Даже middle девелоперов. Мидлам хорошобы уметь ETL делать обычный. А от джунов и того не требуется, хотя бы SQL знать нормально
p.s. за методологии проектирования может поговорить хорошо если каждый пятый сеньер.
вот тут товарищ доступно объясняет что нужно джуну дата инженеру:
Данные полюбил на предыдущем рабочем месте и теперь пытаюсь вкатиться в ДЕ в новой для себя стране.
Местные, кого ни спрошу, как правило сходятся во мнении, что для старта мне нужен SQL+Python+Airflow+Spark. Буду идти по этому пути, но есть вопросы.
На одном из пройденных курсов имел возможность познакомиться с Pentaho Data Integration. Что из связки Airflow+Spark он заменяет?
И нужно ли учить отдельно Spark и отдельно PySpark - никак не могу для себя уяснить?
Airflow + Spark это связка оркестратора и вычислительного движка. Сам по себе Airflow обычно не обрабатывает данные, а только запускает по определенным правилам те или иные задачи (можно назвать его cron-ом на стероидах), например, как в рассматриваемом примере, запускает Spark джобы, которые уже непосредственно занимаются вычислениями. Pentaho DI же является именно ETL тулом, который позволяет c помощью собственного графического интерфейса построить пайплайн, работа с данными в котором будет самой же Pentaho-й и выполняться. Одну и ту же задачу можно решить разными путями, а использовать Pentaho или Airflow+Spark - вопрос выбора инструментов под конкретные задачи.
При изучении Spark-a главнее всего понять как этот фреймворк работает под капотом и каким образом обращается с данными, а на каком языке общаться с ним и писать под него джобы (Python, Scala и пр.), по моему мнению, на старте не так уж важно, можно выбрать любой вариант.
Что должен знать дата-инженер. Роадмап для джуниора