Можно получить два-три десятка Data Science-сертификатов, но по-настоящему стоящих программ сертификации из сферы науки о данных, по моему мнению, не так уж и много. Я хочу рассказать о нескольких таких программах, поддерживаемых авторитетными организациями. Эти программы я оцениваю по разным признакам. В частности — по объёму рассматриваемых в их рамках тем, по их «весу» в глазах потенциального работодателя, по репутации организации, реализующей программу. В последние несколько лет я являюсь и специалистом по анализу данных, и дата-сайентистом. Всё это время у меня формировалось понимание того, что сильнее всего влияет на успех человека в сфере Data Science (DS).
Здесь я рассмотрю ведущие программы Data Science-сертификации, входящие в список, собранный ресурсом Indeed. Из этого списка я выбрал четыре, которые кажутся мне наиболее достойными. Им и посвящён этот материал.
→ Google Certified Professional Data Engineer
Возможно, эта программа сертификации, которую я рассматриваю первой, кого-то удивит, так как она относится к сфере, отличной от Data Science. Но, несмотря на это, я уверен в том, что навыки и обязанности дата-инженера похожи на те, что характерны для дата-сайентистов. Ещё я думаю, что прохождение подобной сертификации может стать конкурентным преимуществом на рынке труда, так как дата-сайентист, получивший подобный сертификат, сможет эффективно работать не только в сфере науки о данных, но и в сфере инжиниринга данных.
Вот некоторые темы, знание которых проверяется на экзамене:
В целом, наличие у работника такого сертификата скажет работодателю о том, что перед ним — всесторонне подготовленный дата-сайентист. Я изучал Data Science на различных образовательных платформах и могу сказать, что в рамках данной программы сертификации проверяются знания и навыки, которым мало где учат. В результате такой сертификат позволит вам представить себя на рынке труда в выгодном свете. И, наконец, данный сертификат выдаёт компания Google, а она более чем известна в IT-индустрии.
Общие сведения об экзамене:
→ Google Data Machine Learning Engineer
Это — ещё одна программа сертификации, которую тоже нельзя назвать программой, нацеленной исключительно на Data Science. Она, скорее, направлена на достаточно узкую тему, находящуюся в пределах науки о данных. Речь идёт о машинном обучении. Многие дата-сайентисты могут настолько привыкнуть к работе в Jupyter Notebook (ведь именно этому учат на большинстве DS-курсов), что необходимость вывода моделей в продакшн, необходимость их развёртывания на веб-сайте или в мобильной среде может вызвать у них серьёзные сложности. Поэтому тем, кто работает в сфере Data Science, весьма полезно будет ознакомиться и с вопросами практического применения моделей, что расширит их кругозор и сделает их работу эффективнее.
Вот темы, которые поднимаются на экзамене:
В целом — эта сертификация похожа на классические сертификации из сферы Data Science. Её прохождение, определённо, продемонстрирует работодателю, да и самому сотруднику, то, что сотрудник умеет не только создавать модели, но и разворачивать их в продакшн-окружениях.
Общие сведения об экзамене:
→ IBM Data Science Professional Certificate
Это — уже не просто программа сертификации. Тут речь идёт о наборе учебных курсов, на которых можно изучить то, что проверяется во время прохождения испытаний. Эта программа сертификации, в отличие от предыдущих, ориентирована исключительно на саму науку о данных. А это, безусловно, именно та тема, которая нам особенно интересна. Ещё одной ценной особенностью этой программы является тот факт, что она подготовлена IBM, а пройти её можно на платформе Coursera. Обе эти компании известны и имеют хорошую репутацию.
Вот — 10 курсов, которые входят в состав учебной программы:
Как видите, в этих курсах большое внимание уделяется Python. Я предпочитаю пользоваться именно этим языком, но кто-то, возможно, выберет R. Поэтому, если вы из их числа, и R нужен вам для работы, вам лучше будет поискать учебную программу, где используется именно этот язык.
Общие сведения о программе учебных курсов:
→ Microsoft Certified Azure Data Scientist Associate
Как видите, в этом обзоре представлены программы сертификации от ведущих игроков IT-рынка. В их число входит и Microsoft. Если поучиться, поработать, пройти тестирование в любой из подобных компаний — это может пойти на пользу карьере дата-сайентиста. Представленная здесь программа напоминает смесь тех программ, о которых мы говорили выше. Это, с одной стороны, сертификация, но с другой — перед сертификацией тут же можно и подучиться, либо самостоятельно и бесплатно, либо — с инструктором и за деньги.
Вот темы, которые поднимаются на экзамене:
Я полагаю, что эта сертификация, в хорошем смысле, является самой простой из рассмотренных здесь. Она хорошо охватывает основные вопросы создания и использования моделей машинного обучения. И, несмотря на то, что в её названии есть слова «Data Scientist», она в значительной мере ориентирована на машинное обучение.
В итоге скажу, что если вы сможете пройти все вышеописанные программы сертификации — полагаю, что вы будете более чем готовы к работе дата-сайентиста. Эти сертификации направлены на проверку знаний по популярным платформам и инструментам, а также — на проверку навыков, связанных с практическим использованием моделей. В частности, речь идёт о работе с бизнес-задачами, об анализе данных, о моделировании, о создании и развёртывании моделей. Конечно, если вы попробуете найти работу в компании, проводящей сертификацию, наличие сертификата повысит ваши шансы на успех. Подбирая себе программу сертификации учитывайте то, что те, о которых шла тут речь, я, руководствуясь собственным видением ситуации, выбрал из списка программ с ресурса Indeed. Есть ещё множество подобных программ. Вам, вполне возможно, подойдёт что-то совсем другое.
Как вы посоветовали бы учиться и сертифицироваться тому, кто хочет работать в сфере Data Science?
Здесь я рассмотрю ведущие программы Data Science-сертификации, входящие в список, собранный ресурсом Indeed. Из этого списка я выбрал четыре, которые кажутся мне наиболее достойными. Им и посвящён этот материал.
Google Certified Professional Data Engineer
→ Google Certified Professional Data Engineer
Возможно, эта программа сертификации, которую я рассматриваю первой, кого-то удивит, так как она относится к сфере, отличной от Data Science. Но, несмотря на это, я уверен в том, что навыки и обязанности дата-инженера похожи на те, что характерны для дата-сайентистов. Ещё я думаю, что прохождение подобной сертификации может стать конкурентным преимуществом на рынке труда, так как дата-сайентист, получивший подобный сертификат, сможет эффективно работать не только в сфере науки о данных, но и в сфере инжиниринга данных.
Вот некоторые темы, знание которых проверяется на экзамене:
- Проектирование систем обработки данных.
- Технологии хранения данных, построение конвейеров данных. Специализированные инструменты — BigQuery, Dataflow, Apache Spark и Cloud Composer. Миграция хранилищ данных.
- Создание и ввод в эксплуатацию систем обработки данных.
- Инструменты наподобие Cloud Bigtable и Cloud SQL, анализ стоимости и производительности различных решений, очистка данных, трансформация и интеграция источников данных.
- Ввод в эксплуатацию моделей машинного обучения.
- Использование предварительно построенных моделей, вроде Vision API и AutoML Vision, применение DialogFlow. Переобучение моделей с помощью AI Platform Prediction. Использование GPU, особенности задач регрессии и классификации, особенности обучения с учителем и без учителя, способы оценки качества моделей.
- Обеспечение качества решений.
- Безопасность, соответствие требованиям, связанным с шифрованием данных, переносимость приложений, использование Data Loss Prevention API и Cloud Monitoring.
В целом, наличие у работника такого сертификата скажет работодателю о том, что перед ним — всесторонне подготовленный дата-сайентист. Я изучал Data Science на различных образовательных платформах и могу сказать, что в рамках данной программы сертификации проверяются знания и навыки, которым мало где учат. В результате такой сертификат позволит вам представить себя на рынке труда в выгодном свете. И, наконец, данный сертификат выдаёт компания Google, а она более чем известна в IT-индустрии.
Общие сведения об экзамене:
- Длительность: 2 часа.
- Стоимость: $200.
- Язык: английский или японский.
- Тип вопросов: вопросы с несколькими вариантами ответа.
- Способ проведения: онлайн-экзамен или обычный экзамен с контролем хода экзамена.
- Рекомендации: опыт работы с Google Cloud.
Google Data Machine Learning Engineer
→ Google Data Machine Learning Engineer
Это — ещё одна программа сертификации, которую тоже нельзя назвать программой, нацеленной исключительно на Data Science. Она, скорее, направлена на достаточно узкую тему, находящуюся в пределах науки о данных. Речь идёт о машинном обучении. Многие дата-сайентисты могут настолько привыкнуть к работе в Jupyter Notebook (ведь именно этому учат на большинстве DS-курсов), что необходимость вывода моделей в продакшн, необходимость их развёртывания на веб-сайте или в мобильной среде может вызвать у них серьёзные сложности. Поэтому тем, кто работает в сфере Data Science, весьма полезно будет ознакомиться и с вопросами практического применения моделей, что расширит их кругозор и сделает их работу эффективнее.
Вот темы, которые поднимаются на экзамене:
- Формулировка задач машинного обучения.
- Преобразование задач бизнеса в задачи машинного обучения с использованием инструментов наподобие AutoML. Определение типа задачи (например — задача классификации или кластеризации), выявление ключевых метрик качества модели.
- Разработка архитектурных решений в сфере машинного обучения.
- Масштабирование решений с использованием инструментов наподобие Kubeflow, конструирование признаков, автоматизация, оркестрация, мониторинг.
- Проектирование систем для подготовки и обработки данных.
- Разведочный анализ данных, визуализация данных и получение статистических сведений о них, очистка и проверка наборов данных, создание учебных наборов данных, работа с отсутствующими значениями, со значениями, значительно отличающимися от других, с утечками данных.
- Разработка моделей машинного обучения.
- Использование различных форматов данных для обучения моделей, в том числе — CSV, JSON, Apache Parquet. Применение баз данных. Знание специфических концепций наподобие настройки гиперпараметров и распределённого обучения моделей.
- Автоматизация и оркестрация конвейеров машинного обучения.
- Проектирование обучающих конвейеров, использование платформ наподобие Cloud Compose и Apache Airflow.
- Мониторинг, оптимизация и поддержка решений в сфере машинного обучения.
- Стратегии логирования моделей, переобучение моделей, оптимизация производительности моделей, оптимизация конвейеров машинного обучения.
В целом — эта сертификация похожа на классические сертификации из сферы Data Science. Её прохождение, определённо, продемонстрирует работодателю, да и самому сотруднику, то, что сотрудник умеет не только создавать модели, но и разворачивать их в продакшн-окружениях.
Общие сведения об экзамене:
- Длительность: 2 часа.
- Стоимость: $200.
- Язык: английский.
- Тип вопросов: вопросы с несколькими вариантами ответа.
- Способ проведения: онлайн-экзамен или обычный экзамен с контролем хода экзамена.
IBM Data Science Professional Certificate
→ IBM Data Science Professional Certificate
Это — уже не просто программа сертификации. Тут речь идёт о наборе учебных курсов, на которых можно изучить то, что проверяется во время прохождения испытаний. Эта программа сертификации, в отличие от предыдущих, ориентирована исключительно на саму науку о данных. А это, безусловно, именно та тема, которая нам особенно интересна. Ещё одной ценной особенностью этой программы является тот факт, что она подготовлена IBM, а пройти её можно на платформе Coursera. Обе эти компании известны и имеют хорошую репутацию.
Вот — 10 курсов, которые входят в состав учебной программы:
- Что такое наука о данных?
- Инструменты науки о данных.
- Методология науки о данных.
- Использование Python в рамках науки о данных для искусственного интеллекта и разработки.
- Python-проект из сферы науки о данных.
- Применение баз данных и SQL с использованием Python для целей науки о данных.
- Анализ данных с использованием Python.
- Визуализация данных с использованием Python.
- Машинное обучение с использованием Python.
- Заключительный курс по теме «Прикладная наука о данных».
Как видите, в этих курсах большое внимание уделяется Python. Я предпочитаю пользоваться именно этим языком, но кто-то, возможно, выберет R. Поэтому, если вы из их числа, и R нужен вам для работы, вам лучше будет поискать учебную программу, где используется именно этот язык.
Общие сведения о программе учебных курсов:
- Способ проведения курсов: полностью дистанционно.
- Уровень слушателей: начальный.
- Расписание занятий: гибкое.
- Длительность: обычно — 11 месяцев (это долго, но речь идёт не только о сертификации, но и об обучении).
- Язык: английский — с субтитрами на английском, арабском, французском, португальском (европейский вариант), итальянском, вьетнамском, немецком, русском, испанском, персидском, турецком.
Microsoft Certified Azure Data Scientist Associate
→ Microsoft Certified Azure Data Scientist Associate
Как видите, в этом обзоре представлены программы сертификации от ведущих игроков IT-рынка. В их число входит и Microsoft. Если поучиться, поработать, пройти тестирование в любой из подобных компаний — это может пойти на пользу карьере дата-сайентиста. Представленная здесь программа напоминает смесь тех программ, о которых мы говорили выше. Это, с одной стороны, сертификация, но с другой — перед сертификацией тут же можно и подучиться, либо самостоятельно и бесплатно, либо — с инструктором и за деньги.
Вот темы, которые поднимаются на экзамене:
- Управление ресурсами Azure для машинного обучения.
- Создание рабочей области Azure Machine Learning, управление данными, возможность выполнять вычисления для экспериментов, безопасность, управление доступом, настройка окружения разработки.
- Выполнение экспериментов и обучение моделей.
- Создание моделей с помощью визуальных средств, запуск скриптов обучения моделей, создание метрик, работа с моделями.
- Развёртывание решений машинного обучения и ввод их в эксплуатацию.
- Выбор модели развёртывания, развёртывание моделей как сервисов, управление моделями, создание конвейеров, публикация конвейеров в виде веб-сервисов, применение практик MLOps.
- Реализация ответственного машинного обучения.
- Использование средств интерпретации моделей, оценка справедливости моделей, учёт соображений приватности при работе с моделями.
Я полагаю, что эта сертификация, в хорошем смысле, является самой простой из рассмотренных здесь. Она хорошо охватывает основные вопросы создания и использования моделей машинного обучения. И, несмотря на то, что в её названии есть слова «Data Scientist», она в значительной мере ориентирована на машинное обучение.
Итоги
В итоге скажу, что если вы сможете пройти все вышеописанные программы сертификации — полагаю, что вы будете более чем готовы к работе дата-сайентиста. Эти сертификации направлены на проверку знаний по популярным платформам и инструментам, а также — на проверку навыков, связанных с практическим использованием моделей. В частности, речь идёт о работе с бизнес-задачами, об анализе данных, о моделировании, о создании и развёртывании моделей. Конечно, если вы попробуете найти работу в компании, проводящей сертификацию, наличие сертификата повысит ваши шансы на успех. Подбирая себе программу сертификации учитывайте то, что те, о которых шла тут речь, я, руководствуясь собственным видением ситуации, выбрал из списка программ с ресурса Indeed. Есть ещё множество подобных программ. Вам, вполне возможно, подойдёт что-то совсем другое.
Как вы посоветовали бы учиться и сертифицироваться тому, кто хочет работать в сфере Data Science?