12 онлайн-курсов по Data Engineering
По данным Statista, к 2025 году объём рынка big data вырастет до 175 зетабайт против 41 в 2019 (график). Чтобы получить работу в этой сфере, нужно понимать, как работать с большими данными, хранящимися в облаке. Cloud4Y подготовил список из 12 платных и бесплатных курсов по инжинирингу данных, которые расширят ваши знания в этой сфере и могут стать хорошей отправной точкой на пути к облачным сертификациям.
Предисловие
Что такое специалист по обработке данных (data engineer)? Это человек, который отвечает за создание и поддержку архитектуры данных в Data Science-проекте. В его обязанности может входить обеспечение бесперебойного потока данных между сервером и приложением, интеграция нового ПО для управления данными, совершенствование основополагающих процессов данных и создание конвейеров данных.
Есть огромное количество технологий и инструментов, которыми должен владеть data engineer, чтобы работать с облачными вычислениями, хранилищами данных, ETL (extraction, transformation, loading) и пр. Причём количество требуемых навыков всё время растёт, поэтому дата-инженеру необходимо регулярно пополнять свой багаж знаний. В нашем списке есть курсы для новичков и опытных специалистов. Выбирайте, что подходит именно вам.
1. Data Engineering Nanodegree Certification (Udacity)
Вы научитесь проектировать модели данных, создавать хранилища данных и озера данных, автоматизировать конвейеры данных и работать с массивами датасетов. В конце программы вы проверите свои новые навыки, завершив проект Capstone.
Продолжительность: 5 месяцев, 5 часов в неделю
Язык: английский
Цена: $1695
Уровень: начальный
2. Become a Data Engineer Certification (Coursera)
Учат с азов. Вы можете поэтапно развиваться, используя лекции и практические проекты для работы над своими навыками. К концу обучения вы будете готовы работать с ML и большими данными. Рекомендуется знать Python хотя бы на минимальном уровне.
Продолжительность: 8 месяцев, 10 часов в неделю
Язык: английский
Цена:?
Уровень: начальный
3. Become a Data Engineer: Mastering the Concepts (LinkedIn Learning)
Вы разовьёте навыки проектирования данных и навыки DevOps, научитесь создавать приложения для Big Data, создавать конвейеры данных, обрабатывать приложения в реальном времени с использованием Hazelcast и базы данных Hadoop.
Продолжительность: зависит от вас
Язык: английский
Цена: первый месяц — бесплатно
Уровень: начальный
4. Data Engineering Courses (edX)
Здесь собрана серия программ, которые знакомят вас с data engineering и учат разработке аналитических решений. Курсы делятся на категории в зависимости от уровня сложности, так что вы можете выбрать один в соответствии с вашим уровнем опыта. В процессе обучения вы научитесь использовать Spark, Hadoop, Azure и управлять корпоративными данными.
Продолжительность: зависит от вас
Язык: английский
Цена: зависит от выбранного курса
Уровень: начальный, средний, продвинутый
5. Data Engineer (DataQuest)
Этот курс стоит выбрать, если у вас есть опыт работы с Python и вы хотите углубить свои знания и построить карьеру специалиста по обработке данных. Вы научитесь строить конвейеры данных, используя Python и pandas, загружать большие наборы данных в БД Postgres после очистки, преобразования и проверки.
Продолжительность: зависит от вас
Язык: английский
Цена: зависит от формы подписки
Уровень: начальный, средний
6. Data Engineering with Google Cloud (Coursera)
Этот курс поможет вам приобрести навыки, необходимые для построения карьеры в области работы с большими данными. Например, работа с BigQuery, Spark. Вы получите знания, которые пригодятся для подготовки к признанной в отрасли сертификации Google Cloud Professional Data Engineer.
Продолжительность: 4 месяца
Язык: английский
Цена: пока бесплатно
Уровень: начальный, средний
7. Data Engineering, Big Data on Google Cloud Platform (Coursera)
Интересный курс, дающий практические знания о системах обработки данных в GCP. Во время занятий вы узнаете, как спроектировать системы, прежде чем приступить к процессу разработки. Помимо этого, вы также будете анализировать как структурированные, так и неструктурированные данные, применять автоматическое масштабирование и применять методы ML для извлечения информации.
Продолжительность: 3 месяца
Язык: английский
Цена: пока бесплатно
Уровень: начальный, средний
8. UC San Diego: Big Data Specialization (Coursera)
Курс основан на использовании инфраструктуры Hadoop и Spark и применении этих методов обработки больших данных в процессе ML. Вы познакомитесь с основами использования Hadoop с MapReduce, Spark, Pig и Hive. Узнаете, как можно строить прогнозные модели и использовать аналитику графов для моделирования проблем. Отметим, что для этого курса не требуется опыт программирования.
Продолжительность: 8 месяцев по 10 часов в неделю
Язык: английский
Цена: пока бесплатно
Уровень: начальный
9. Taming Big Data With Apache Spark and Python (Udemy)
Вы узнаете, как использовать потоковую структуру и фреймы данных в Spark3, получите представление о том, как использовать сервис Elastic MapReduce от Amazon для работы с вашим кластером в Hadoop. Научитесь определять проблемы при анализе больших данных и поймёте, как библиотеки GraphX работают с сетевым анализом и как вы можете использовать MLlib.
Продолжительность: зависит от вас
Язык: английский
Цена: от 800 рублей до $149,99 (как повезёт)
Уровень: начальный, средний
10. PG Program in Big Data Engineering (upGrad)
Этот курс даст вам представление о том, как работает Aadhaar, как Facebook персонализирует ленту новостей и как вообще можно использовать Data Engineering. Ключевыми темами станут обработка данных (в том числе обработка в реальном времени), MapReduce, аналитика больших данных.
Продолжительность: 11 месяцев
Язык: английский
Цена: в районе $3000
Уровень: начальный
11. Профессия Data Scientist (Skillbox)
Вы научитесь программировать на Python, изучите фреймворки для обучения нейронных сетей Tensorflow и Keras. Освоите базы данных MongoDB, PostgreSQL, SQLite3, научитесь работать с библиотеками Pandas, NumPy и Matpotlib.
Продолжительность: 300 часов обучения
Язык: русский
Цена: первые полгода бесплатно, затем 3900 рублей в месяц
Уровень: начальный
12. Data Engineer 7.0 (New Professions Lab)
Вас ожидает глубокое изучение Kafka, HDFS, ClickHouse, Spark, Airflow, lambda-архитектуры и kappa-архитектуры. Вы научитесь подключать инструменты друг к другу, формируя пайплайны, получая baseline-решение. Для учёбы требуется минимальное знание Python 3.
Продолжительность: 21 занятие, 7 недель
Язык: русский
Цена: 60 000 рублей
Уровень: средний
Если у вас есть желание добавить в список ещё один хороший курс, можете отписаться в комментариях или в ЛС. Мы дополним пост.
Что ещё полезного можно почитать в блоге Cloud4Y
→ Какова геометрия Вселенной?
→ Пасхалки на топографических картах Швейцарии
→ Упрощенная и очень короткая история развития «облаков»
→ Как «сломался» банк
→ Компьютерные бренды 90-х, ч.3, заключительная
Подписывайтесь на наш Telegram-канал, чтобы не пропустить очередную статью. Пишем не чаще двух раз в неделю и только по делу. Также напоминаем, что 21 мая в 15:00 (мск) мы проведём вебинар на тему «Информационная безопасность бизнеса при работе на удалёнке». Если вы хотите понимать, как защитить чувствительную и корпоративную информацию при работе сотрудников из дома — регистрируйтесь!