
Без рекомендуемого трехлетнего практического опыта
*Примечание: статья посвящена сертификационному экзамену Google Cloud Professional Data Engineer, который был актуален до 29 марта 2019 г. После этого произошли некоторые изменения — они описаны в разделе «Дополнительно»*

Толстовка Google: есть. Серьезное выражение лица: есть. Фото из видеоверсии этой статьи на Ютубе.
Хотите заполучить новенькую толстовку, как у меня на фото?
Или, может, вас интересует сертификат Google Cloud Professional Data Engineer и вы пытаетесь понять, как его получить?
За последние несколько месяцев я прошел несколько курсов и параллельно работал с Google Cloud — для подготовки к экзамену Professional Data Engineer. Затем я пошел на экзамен и сдал его. Через несколько недель прибыла толстовка — но сертификат пришел быстрее.
В этой статье будут приведены некоторые сведения, которые могут оказаться полезны, и шаги, которые я предпринял для получения сертификата Google Cloud Professional Data Engineer.
Переведено в Alconost
Зачем нужно получать сертификат Google Cloud Professional Data Engineer?
Данные окружают нас, они повсюду. Поэтому сегодня востребованы специалисты, которые знают как создавать системы, способные обрабатывать и использовать данные. А Google Cloud предоставляет инфраструктуру для построения этих систем.
Если у вас уже есть навыки использования Google Cloud, как продемонстрировать их будущему работодателю или клиенту? Сделать это можно двумя способами: имея портфолио проектов или пройдя сертификацию.
Сертификат говорит потенциальным клиентам и работодателям, что у вас есть определенные навыки и что вы приложили усилия, чтобы получить их официальное подтверждение.
Об этом говорится и в официальном описании экзамена.
Продемонстрируйте свое умение проектировать и создавать системы обработки данных и модели машинного обучения на платформе Google Cloud.
Если соответствующих навыков у вас еще нет, то при изучении учебных материалов для сертификации вы узнаете всё необходимое о том, как с помощью Google Cloud создавать системы обработки данных высочайшего уровня.
Кому нужно получать сертификат Google Cloud Professional Data Engineer?
Вы видели цифры — сфера облачных технологий растет, они с нами надолго. Если вы не знакомы со статистикой, просто поверьте: «облака» сейчас на подъеме.
Если вы уже работаете специалистом по обработке или анализу данных, инженером по машинному обучению или хотите перейти в сферу обработки данных, то сертификация Google Cloud Professional Data Engineer — то, что вам нужно.
Умение пользоваться облачными технологиями становится обязательным требованием для всех специалистов, работающих с данными.
Нужен ли сертификат, чтобы быть профессионалом в обработке, анализе данных или машинном обучении?
Нет.
Можно использовать Google Cloud для работы с решениями по обработке данных, не имея сертификата.
Сертификат — лишь один из способов подтверждения имеющихся у вас навыков.
Сколько это стоит?
Стоимость прохождения экзамена — 200 долларов США. Если вы его завалите, придется платить снова.
Кроме того, придется потратиться на подготовительные курсы и пользование самой платформой.
Затраты на работу с платформой — это плата за использование сервисов Google Cloud. Если вы ее активный пользователь, вам об этом хорошо известно. Если вы новичок и только начинаете изучать учебные материалы, описанные в этой статье, можно создать учетную запись Google Cloud и сделать всё необходимое, уложившись в 300 долларов, которые Google зачисляет на счет при регистрации.
К стоимости курсов мы перейдем буквально через мгновение.
Сколько действует сертификат?
Два года. По истечении этого срока экзамен нужно сдавать снова.
А поскольку Google Cloud постоянно развивается, вполне вероятно, что изменятся и требования к сертификации (такое случилось как раз тогда, когда я начал писать статью).
Что нужно для подготовки к экзамену?
Для сертификации профессионального уровня Google рекомендует иметь более трех лет опыта работы в отрасли и более года в разработке и управлении решениями с использованием GCP.
У меня ничего из этого не было.
Соответствующий опыт был около шести месяцев в каждом случае.
Чтобы восполнить пробел, я воспользовался несколькими обучающими интернет-ресурсами.
Какие курсы я прошел?
Если ваш случай похож на мой и вы не соответствуете рекомендуемым требованиям, то для повышения собственного уровня можно пройти некоторые курсы из приведенных далее.
Именно их я использовал при подготовке к сертификации. Они перечислены в порядке прохождения.
По каждому я указал стоимость, сроки и полезность для сдачи сертификационного экзамена.

Некоторые из классных обучающих интернет-ресурсов, использованные мной для повышения собственных навыков перед экзаменом — по порядку: A Cloud Guru, Linux Academy, Coursera.
Data Engineering on Google Cloud Platform Specialization (Cousera)
Стоимость: 49 $ в месяц (после 7-дневного бесплатного пробного периода).
Время: 1–2 месяца, более 10 часов в неделю.
Полезность: 8 из 10.
Курс Data Engineering on Google Cloud Platform Specilization на платформе Coursera разработан в сотрудничестве с Google Cloud.
Он разбит на пять вложенных курсов, каждый из которых — это около 10 часов учебного времени в неделю.
Если вы не знакомы с обработкой данных в Google Cloud, эта специализация как раз даст вам необходимые навыки. Вам предстоит выполнить ряд практических упражнений, используя итеративную платформу под названием QwikLabs. Перед этим будут лекции использующих Google Cloud специалистов о том, как применять различные сервисы, такие как Google BigQuery, Cloud Dataproc, Dataflow и Bigtable.
A Cloud Guru Introduction to Google Cloud Platform
Стоимость: бесплатно.
Время: 1 неделя, 4–6 часов.
Полезность: 4 из 10.
Низкая оценка полезности не означает, что курс в целом бесполезен — это совсем не так. Единственная причина, по которой оценка такая низкая, состоит в том, что он не ориентирован на сертификацию Professional Data Engineer (что можно понять из названия).
Я прошел его, чтобы освежить знания после прохождения специализации Coursera, поскольку я использовал Google Cloud в некоторых ограниченных случаях.
Если вы ранее работали с другим поставщиком облачных услуг или никогда не использовали Google Cloud, возможно, этот курс вам будет полезен: это отличное введение в платформу Google Cloud в целом.
Linux Academy Google Certified Professional Data Engineer
Стоимость: 49 $ в месяц (после 7-дневного бесплатного пробного периода).
Время: 1–4 недели, более 4 часов в неделю.
Полезность: 10 из 10.
Сдав экзамен и поразмышляв о пройденных курсах, я могу сказать, что наиболее полезным был именно Linux Academy Google Certified Professional Data Engineer.
Видеоуроки, а также электронная книга Data Dossier (отличный бесплатный учебный ресурс, предоставляемый вместе с курсом) и тренировочные экзамены делают этот курс одним из лучших когда-либо пройденных мной.
Я даже рекомендовал его в качестве справочного материала в заметках в Слаке для команды после экзамена.
Заметки в Слаке
- Кое-какие вопросы на экзамене не освещались ни в курсе Linux Academy, ни в A Cloud Guru, ни в экзаменах Google Cloud Practice (чего следовало ожидать).
- В одном вопросе был граф из точек данных. Спрашивалось, каким уравнением их можно сгруппировать (например, cos(X) или X²+Y²).
- Обязательно знать различия между Dataflow, Dataproc, Datastore, Bigtable, BigQuery, Pub/Sub и понимать, как их можно использовать.
- Два конкретных примера на экзамене — такие же, как были на тренировочных, хотя во время экзамена я не читал их вообще (самих вопросов оказалось достаточно для ответа).
- Полезно знать базовый синтаксис SQL-запросов, особенно для вопросов по BigQuery.
- Тренировочные экзамены в курсах Linux Academy и GCP очень похожи по стилю на вопросы в экзамене — их стоит пройти несколько раз, чтобы найти собственные слабые места.
- Нужно помнить, что Dataproc работает с Hadoop, Spark, Hive и Pigs.
- Dataflow работает с Apache Beam.
- Cloud Spanner — это БД, изначально разработанная для облака, она совместима с ACID и работает в любой точке мира.
- Полезно знать названия «старичков» — эквивалентов реляционных и нереляционных баз данных (например, MongoDB, Cassandra).
- Роли IAM у сервисов немного различаются, однако неплохо было бы понимать, как разделить для пользователей возможности видеть данные и проектировать рабочие процессы (например, в роли Dataflow Worker можно проектировать рабочие процессы, но нельзя видеть данные).
Пока что этого, пожалуй, достаточно. Каждый экзамен будет проходить по-своему. Курс Linux Academy даст 80% необходимых знаний.
Одноминутные видео о сервисах Google Cloud
Стоимость: бесплатно.
Время: 1–2 часа.
Полезность: 5 из 10.
Эти видео рекомендовались на форумах A Cloud Guru. Многие из них не связаны с сертификацией Professional Data Engineer, поэтому я просто выбрал те, название сервисов в которых показалось мне знаком��м.
При прохождении курса некоторые сервисы могут показаться сложными, поэтому было приятно посмотреть, как конкретный сервис описывался всего за минуту.
Preparing for the Cloud Professional Data Engineer Exam
Стоимость: 49 $ за сертификат или бесплатно (без сертификата).
Время: 1–2 недели, более шести часов в неделю.
Полезность: не оценивалась.
Я нашел этот ресурс за день до назначенной даты экзамена. Пройти его времени не хватило — отсюда и отсутствие оценки полезности.
Однако просмотрев обзорную страницу курса, могу сказать, что это отличный ресурс, на котором можно повторить всё, что вы узнали о Data Engineering в Google Cloud, и найти свои слабые места.
Я рассказал об этом курсе одному из коллег, который готовится к сертификации.
Google Data Engineering Cheatsheet, автор Maverick Lin
Стоимость: бесплатно.
Время: неизвестно.
Полезность: не оценивалась.
Еще один ресурс, на который я наткнулся после экзамена. Выглядит он всеобъемлюще, но изложение довольно краткое. Кроме того, он бесплатный. К нему можно обращаться между тренировочными экзаменами и даже после сертификации — чтобы освежить знания.
Что я делал после курсов?
Приближаясь к завершению курсов, я забронировал экзамен с уведомлением за неделю.
Наличие крайнего срока — отличная мотивация для того, чтобы провести ревизию усвоенного.
Я несколько раз прошел тренировочные экзамены Linux Academy и Google Cloud, пока не начал стабильно набирать более 95%.

Первая сдача тренировочного экзамена Linux Academy с результатом более 90%.
Тесты для каждой из платформ похожи; я записывал и разбирал вопросы, в которых постоянно ошибался — это помогло устранить слабые места.
Во время собственно экзамена темой была разработка систем обработки данных в Google Cloud на двух примерах (с 29 марта 2019 г. содержание экзамена изменилось). Весь экзамен были вопросы с несколькими вариантами ответа.
Прохождение экзамена заняло два часа, он показался мне примерно на 20% сложнее, чем знакомые мне тренировочные экзамены.
Тем не менее, последние — очень ценный ресурс.
Что бы я изменил, если бы сдавал экзамен снова?
Больше тренировочных экзаменов. Больше практических знаний.
Конечно, всегда можно подготовиться еще чуточку лучше.
В рекомендуемых требованиях указано более трех лет опыта использования GCP, чего у меня не было — поэтому пришлось иметь дело с тем, что было.
Дополнительно
Экзамен обновился 29 марта. Материалы в статье по-прежнему дадут хорошую основу для подготовки, однако важно отметить некоторые изменения.
Разделы экзамена Google Cloud Professional Data Engineer (версия 1)
- Проектирование систем обработки данных.
- Построение и поддержка структур данных и баз данных.
- Анализ данных и подключение машинного обучения.
- Моделирование бизнес-процессов для анализа и оптимизации.
- Обеспечение надежности.
- Визуализация данных и поддержка принятия решений.
- Проектирование с упором на безопасность и соответствие требованиям.
Разделы экзамена Google Cloud Professional Data Engineer (версия 2)
- Проектирование систем обработки данных.
- Построение и эксплуатация систем обработки данных.
- Эксплуатация моделей машинного обучения (большинство изменений произошло здесь) [НОВОЕ].
- Обеспечение качества решений.
В версии 2 разделы 1, 2, 4 и 6 версии 1 объединены в разделы 1 и 2, разделы 5 и 7 — в раздел 4. Раздел 3 в версии 2 был расширен и теперь охватывает все новые возможности машинного обучения в Google Cloud.
Эти изменения произошли совсем недавно, поэтому многие учебные материалы обновиться не успели.
Однако если воспользоваться материалами из статьи, этого должно быть достаточно, чтобы покрыть 70% нужных знаний. Я бы также самостоятельно ознакомился со следующими темами (они появились во второй версии экзамена):
- API машинного обучения Google (ML).
- Ядро машинного обучения Google Cloud.
- TPU для Google Cloud (оборудование, разработанное компанией Google специально для машинного обучения).
- Глоссарий Google с терминами машинного обучения.
Как можно видеть, обновление экзамена связано в первую очередь с возможностями машинного обучения в Google Cloud.
Дополнение от 29.04.2019. Я получил сообщение от преподавателя курса Linux Academy (Matthew Ulasien).
Просто для справки: мы планируем обновить курс Data Engineer в Linux Academy и отразить в нем новые цели — где-то с середины или конца мая.
После экзамена
Пройдя экзамен, вы получите результат «сдано» или «не сдано». На тренировочных экзаменах советуют стремиться к минимум 70%, поэтому я нацелился на 90%.
После успешной сдачи экзамена вам на электронную почту придет код активации вместе с официальным сертификатом Google Cloud Professional Data Engineer. Поздравляю!
Код активации можно использовать в эксклюзивном магазине Google Cloud Professional Data Engineer, в котором можно неплохо поживиться: там есть футболки, рюкзаки и толстовки (к моменту сдачи чего-то может не быть в наличии). Я выбрал толстовку.
Получив сертификат, можно демонстрировать свои навыки (официально) и вернуться к работе, которая получается у вас лучше всего, — построению систем.
Увидимся через два года — на повторной сертификации.
P. S. Большое спасибо замечательным преподавателям вышеуказанных курсов и Максу Келсену за предоставление ресурсов и времени для обучения и подготовки к экзамену.
О переводчике
Перевод статьи выполнен в Alconost.
Alconost занимается локализацией игр, приложений и сайтов на 70 языков. Переводчики-носители языка, лингвистическое тестирование, облачная платформа с API, непрерывная локализация, менеджеры проектов 24/7, любые форматы строковых ресурсов.
Мы также делаем рекламные и обучающие видеоролики — для сайтов, продающие, имиджевые, рекламные, обучающие, тизеры, эксплейнеры, трейлеры для Google Play и App Store.
→ Подробнее