Как стать автором
Обновить
2788.7
RUVDS.com
VDS/VPS-хостинг. Скидка 15% по коду HABR15

Data Science: лучшие учебные курсы и программы сертификации

Время на прочтение7 мин
Количество просмотров23K
Автор оригинала: Matt Przybyla
Можно получить два-три десятка Data Science-сертификатов, но по-настоящему стоящих программ сертификации из сферы науки о данных, по моему мнению, не так уж и много. Я хочу рассказать о нескольких таких программах, поддерживаемых авторитетными организациями. Эти программы я оцениваю по разным признакам. В частности — по объёму рассматриваемых в их рамках тем, по их «весу» в глазах потенциального работодателя, по репутации организации, реализующей программу. В последние несколько лет я являюсь и специалистом по анализу данных, и дата-сайентистом. Всё это время у меня формировалось понимание того, что сильнее всего влияет на успех человека в сфере Data Science (DS).



Здесь я рассмотрю ведущие программы Data Science-сертификации, входящие в список, собранный ресурсом Indeed. Из этого списка я выбрал четыре, которые кажутся мне наиболее достойными. Им и посвящён этот материал.

Google Certified Professional Data Engineer



Google Certified Professional Data Engineer

Возможно, эта программа сертификации, которую я рассматриваю первой, кого-то удивит, так как она относится к сфере, отличной от Data Science. Но, несмотря на это, я уверен в том, что навыки и обязанности дата-инженера похожи на те, что характерны для дата-сайентистов. Ещё я думаю, что прохождение подобной сертификации может стать конкурентным преимуществом на рынке труда, так как дата-сайентист, получивший подобный сертификат, сможет эффективно работать не только в сфере науки о данных, но и в сфере инжиниринга данных.

Вот некоторые темы, знание которых проверяется на экзамене:

  • Проектирование систем обработки данных.

    • Технологии хранения данных, построение конвейеров данных. Специализированные инструменты — BigQuery, Dataflow, Apache Spark и Cloud Composer. Миграция хранилищ данных.
  • Создание и ввод в эксплуатацию систем обработки данных.

    • Инструменты наподобие Cloud Bigtable и Cloud SQL, анализ стоимости и производительности различных решений, очистка данных, трансформация и интеграция источников данных.
  • Ввод в эксплуатацию моделей машинного обучения.

    • Использование предварительно построенных моделей, вроде Vision API и AutoML Vision, применение DialogFlow. Переобучение моделей с помощью AI Platform Prediction. Использование GPU, особенности задач регрессии и классификации, особенности обучения с учителем и без учителя, способы оценки качества моделей.
  • Обеспечение качества решений.

    • Безопасность, соответствие требованиям, связанным с шифрованием данных, переносимость приложений, использование Data Loss Prevention API и Cloud Monitoring.

В целом, наличие у работника такого сертификата скажет работодателю о том, что перед ним — всесторонне подготовленный дата-сайентист. Я изучал Data Science на различных образовательных платформах и могу сказать, что в рамках данной программы сертификации проверяются знания и навыки, которым мало где учат. В результате такой сертификат позволит вам представить себя на рынке труда в выгодном свете. И, наконец, данный сертификат выдаёт компания Google, а она более чем известна в IT-индустрии.

Общие сведения об экзамене:

  • Длительность: 2 часа.
  • Стоимость: $200.
  • Язык: английский или японский.
  • Тип вопросов: вопросы с несколькими вариантами ответа.
  • Способ проведения: онлайн-экзамен или обычный экзамен с контролем хода экзамена.
  • Рекомендации: опыт работы с Google Cloud.

Google Data Machine Learning Engineer



Google Data Machine Learning Engineer

Это — ещё одна программа сертификации, которую тоже нельзя назвать программой, нацеленной исключительно на Data Science. Она, скорее, направлена на достаточно узкую тему, находящуюся в пределах науки о данных. Речь идёт о машинном обучении. Многие дата-сайентисты могут настолько привыкнуть к работе в Jupyter Notebook (ведь именно этому учат на большинстве DS-курсов), что необходимость вывода моделей в продакшн, необходимость их развёртывания на веб-сайте или в мобильной среде может вызвать у них серьёзные сложности. Поэтому тем, кто работает в сфере Data Science, весьма полезно будет ознакомиться и с вопросами практического применения моделей, что расширит их кругозор и сделает их работу эффективнее.

Вот темы, которые поднимаются на экзамене:

  • Формулировка задач машинного обучения.

    • Преобразование задач бизнеса в задачи машинного обучения с использованием инструментов наподобие AutoML. Определение типа задачи (например — задача классификации или кластеризации), выявление ключевых метрик качества модели.
  • Разработка архитектурных решений в сфере машинного обучения.

    • Масштабирование решений с использованием инструментов наподобие Kubeflow, конструирование признаков, автоматизация, оркестрация, мониторинг.
  • Проектирование систем для подготовки и обработки данных.

    • Разведочный анализ данных, визуализация данных и получение статистических сведений о них, очистка и проверка наборов данных, создание учебных наборов данных, работа с отсутствующими значениями, со значениями, значительно отличающимися от других, с утечками данных.
  • Разработка моделей машинного обучения.

    • Использование различных форматов данных для обучения моделей, в том числе — CSV, JSON, Apache Parquet. Применение баз данных. Знание специфических концепций наподобие настройки гиперпараметров и распределённого обучения моделей.
  • Автоматизация и оркестрация конвейеров машинного обучения.

    • Проектирование обучающих конвейеров, использование платформ наподобие Cloud Compose и Apache Airflow.
  • Мониторинг, оптимизация и поддержка решений в сфере машинного обучения.

    • Стратегии логирования моделей, переобучение моделей, оптимизация производительности моделей, оптимизация конвейеров машинного обучения.

В целом — эта сертификация похожа на классические сертификации из сферы Data Science. Её прохождение, определённо, продемонстрирует работодателю, да и самому сотруднику, то, что сотрудник умеет не только создавать модели, но и разворачивать их в продакшн-окружениях.

Общие сведения об экзамене:

  • Длительность: 2 часа.
  • Стоимость: $200.
  • Язык: английский.
  • Тип вопросов: вопросы с несколькими вариантами ответа.
  • Способ проведения: онлайн-экзамен или обычный экзамен с контролем хода экзамена.

IBM Data Science Professional Certificate



IBM Data Science Professional Certificate

Это — уже не просто программа сертификации. Тут речь идёт о наборе учебных курсов, на которых можно изучить то, что проверяется во время прохождения испытаний. Эта программа сертификации, в отличие от предыдущих, ориентирована исключительно на саму науку о данных. А это, безусловно, именно та тема, которая нам особенно интересна. Ещё одной ценной особенностью этой программы является тот факт, что она подготовлена IBM, а пройти её можно на платформе Coursera. Обе эти компании известны и имеют хорошую репутацию.

Вот — 10 курсов, которые входят в состав учебной программы:

  • Что такое наука о данных?
  • Инструменты науки о данных.
  • Методология науки о данных.
  • Использование Python в рамках науки о данных для искусственного интеллекта и разработки.
  • Python-проект из сферы науки о данных.
  • Применение баз данных и SQL с использованием Python для целей науки о данных.
  • Анализ данных с использованием Python.
  • Визуализация данных с использованием Python.
  • Машинное обучение с использованием Python.
  • Заключительный курс по теме «Прикладная наука о данных».

Как видите, в этих курсах большое внимание уделяется Python. Я предпочитаю пользоваться именно этим языком, но кто-то, возможно, выберет R. Поэтому, если вы из их числа, и R нужен вам для работы, вам лучше будет поискать учебную программу, где используется именно этот язык.

Общие сведения о программе учебных курсов:

  • Способ проведения курсов: полностью дистанционно.
  • Уровень слушателей: начальный.
  • Расписание занятий: гибкое.
  • Длительность: обычно — 11 месяцев (это долго, но речь идёт не только о сертификации, но и об обучении).
  • Язык: английский — с субтитрами на английском, арабском, французском, португальском (европейский вариант), итальянском, вьетнамском, немецком, русском, испанском, персидском, турецком.

Microsoft Certified Azure Data Scientist Associate



Microsoft Certified Azure Data Scientist Associate

Как видите, в этом обзоре представлены программы сертификации от ведущих игроков IT-рынка. В их число входит и Microsoft. Если поучиться, поработать, пройти тестирование в любой из подобных компаний — это может пойти на пользу карьере дата-сайентиста. Представленная здесь программа напоминает смесь тех программ, о которых мы говорили выше. Это, с одной стороны, сертификация, но с другой — перед сертификацией тут же можно и подучиться, либо самостоятельно и бесплатно, либо — с инструктором и за деньги.

Вот темы, которые поднимаются на экзамене:

  • Управление ресурсами Azure для машинного обучения.

    • Создание рабочей области Azure Machine Learning, управление данными, возможность выполнять вычисления для экспериментов, безопасность, управление доступом, настройка окружения разработки.
  • Выполнение экспериментов и обучение моделей.

    • Создание моделей с помощью визуальных средств, запуск скриптов обучения моделей, создание метрик, работа с моделями.
  • Развёртывание решений машинного обучения и ввод их в эксплуатацию.

    • Выбор модели развёртывания, развёртывание моделей как сервисов, управление моделями, создание конвейеров, публикация конвейеров в виде веб-сервисов, применение практик MLOps.
  • Реализация ответственного машинного обучения.

    • Использование средств интерпретации моделей, оценка справедливости моделей, учёт соображений приватности при работе с моделями.

Я полагаю, что эта сертификация, в хорошем смысле, является самой простой из рассмотренных здесь. Она хорошо охватывает основные вопросы создания и использования моделей машинного обучения. И, несмотря на то, что в её названии есть слова «Data Scientist», она в значительной мере ориентирована на машинное обучение.

Итоги


В итоге скажу, что если вы сможете пройти все вышеописанные программы сертификации — полагаю, что вы будете более чем готовы к работе дата-сайентиста. Эти сертификации направлены на проверку знаний по популярным платформам и инструментам, а также — на проверку навыков, связанных с практическим использованием моделей. В частности, речь идёт о работе с бизнес-задачами, об анализе данных, о моделировании, о создании и развёртывании моделей. Конечно, если вы попробуете найти работу в компании, проводящей сертификацию, наличие сертификата повысит ваши шансы на успех. Подбирая себе программу сертификации учитывайте то, что те, о которых шла тут речь, я, руководствуясь собственным видением ситуации, выбрал из списка программ с ресурса Indeed. Есть ещё множество подобных программ. Вам, вполне возможно, подойдёт что-то совсем другое.

Как вы посоветовали бы учиться и сертифицироваться тому, кто хочет работать в сфере Data Science?

Теги:
Хабы:
+30
Комментарии2

Публикации

Информация

Сайт
ruvds.com
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
ruvds