honyaki 15 июл 2021 в 16:55

Почему дата-сайентиста невозможно заменить программой

4 мин

3.5K

Блог компании SkillfactoryУправление проектами*Карьера в IT-индустрииЧитальный зал

Перевод

С ростом популярности и востребованности науки о данных ведется много обсуждений о том, что все можно автоматизировать: сравнение моделей, визуализацию, очистку данных. К старту флагманского курса о Data Science делимся мнением Senior Data Scientist в Favor Delivery, в которой он рассуждает, почему дата-сайентиста пока нельзя заменить машиной и именно специалисты представляют главную ценность.

Человек ставит проблемы

Изучая науку о данных, люди сосредотачиваются на программировании, разработке моделей, но главенствующая причина, почему руководить процессом должен человек заключается в том, как наука о данных должна работать в бизнесе и в продукте.

Важный шаг формирования бизнеса — постановка проблемы. Автоматизация не обнаружит проблему, не определит её чётко. Она может облегчить поиск решения, но, чтобы видеть дыры, чувствовать, что исправить, нужно понимать бизнес и подходить к делу творчески.

Поэтому проблемы должен ставить человек:

Автоматизация не понимает проблем, она не знает, что человеку [на этапе развития бизнеса] не рекомендуются продукты, исходя из его истории; автоматизация упустит проблему, решение которой — система рекомендаций.
Автоматизация не расставит приоритеты, она не умеет самостоятельно оценивать труд, время, деньги, затронутые приложения и многое другое.
Автоматизация не встречается с менеджерами по продуктам и не понимает болевые точки бизнеса.

Причины необходимости автоматизации трудно придумать.

Дата-сайентист исследует данные

Автоматизированное машинное обучение (AutoML) не начнёт с постановки проблемы и не знает, какие источники данных искать; оно объединяет данные, даёт конечный набор, но не обнаружит исходные данные до их подготовки.

Сравним AutoML и человека:

AutoML нужны данные, их собирает дата-сайентист.
Дата-сайентист изучает ресурсы, источники и платформы, чтобы найти информацию и создать модель.
AutoML будет сложно отправлять электронные письма компаниям и вообще знать, что искать: информацию о трафике, о потребителях или что-то иное.

Дата-сайентист создаёт признаки

Инженерия признаков (feature engineering) автоматизируется, однако этот термин взаимозаменяют и путают с feature creation — созданием признаков. Для целей статьи будем работать с термином feature creation. Воспользоваться преимуществами AutoML можно, но, чтобы понять, какие признаки создавать, нужно понимать бизнес, продукт и потребителей.

Ключевые моменты:

Дата-сайентисты знают, что два признака можно объединить, умножить или разделить: clicks и user представляются как clicks per user.
Специалисты понимают, что признаки нужно группировать, когда это имеет смысл.

Возможно, AutoML попытается создать признак clicks per house: в него заложено, что делить признаки один на другой важно, но также AutoML может создать бессмысленный признак из-за непонимания бизнеса и отрасли.

В сравнении с признаком выше специалист в Data Science создал бы такой признак, как clicks per user grouped by zipcode, и он будет работать, а не просто лежать в модели; зная, что этот признак наиболее важен, вы создадите направленную на определённые характеристики маркетинговую кампанию.

Дата-сайентист понимает индустрию

Этот пример повторяет другие: Data Science нужен человек, который понимает бизнес:

В автоматическом режиме достаточно сложно узнать, какие типы моделей Data Science следует задействовать в зависимости от отрасли.
Отрасли сильно отличаются друг от друга: алгоритм рекомендаций в здравоохранении может оказаться не столь полезным, как внутри киносервиса.

Дата-сайентист внедряет модель в продукт или в бизнес

Примеры выше сосредоточены вокруг первых этапов проекта Data Science, но последний посвящён завершающей стадии. Предположим, у вас есть лучшая автоматизированная платформа выбора модели с потрясающей точностью… но что она будет делать? Чтобы ответить на этот вопрос, необходим специалист в Data Science.

Автоматизация может зайти очень далеко, поэтому специалист знает, куда поместить результаты — в приложение, на сайт и т. д.
Дата-сайентисты должны знать, с какой частотой обучать модель, показывать результаты или делать прогнозы — во многих случаях это обсуждается, когда изучаются данные и определяются задачи.
Специалисты понимают, как эффективнее обобщить сложные результаты для заинтересованных сторон. Даже если результаты хорошо обобщены AutoML, отвечая на вопросы клиентов, заинтересованных сторон и руководства человек, например специалист в Data Science, окажется полезнее.

Итоги

Работа в середине процесса автоматизируется, а платформы для автоматизации невероятно полезны, но именно вы нужны, чтобы начать работу и закончить её. Я считаю, что должности в области науки о данных не будут сокращаться; напротив, со временем они будут обновляться.

Если вам интересно решать проблемы бизнеса с помощью данных, хотите научиться выявлять закономерности в них и создавать модели для решения конкретных задач в крупных технологических компаниях, обратите внимание на наш флагманский курс о Data Science. Или же узнайте, как прокачаться и в других востребованных специальностях:

Data и Machine Learning

Python, веб-разработка

Мобильная разработка

Java и C#

От основ — в глубину

А также:

Курс по DevOps

Хабы: