С ростом популярности и востребованности науки о данных ведется много обсуждений о том, что все можно автоматизировать: сравнение моделей, визуализацию, очистку данных. К старту флагманского курса о Data Science делимся мнением Senior Data Scientist в Favor Delivery, в которой он рассуждает, почему дата-сайентиста пока нельзя заменить машиной и именно специалисты представляют главную ценность.
Человек ставит проблемы
Изучая науку о данных, люди сосредотачиваются на программировании, разработке моделей, но главенствующая причина, почему руководить процессом должен человек заключается в том, как наука о данных должна работать в бизнесе и в продукте.
Важный шаг формирования бизнеса — постановка проблемы. Автоматизация не обнаружит проблему, не определит её чётко. Она может облегчить поиск решения, но, чтобы видеть дыры, чувствовать, что исправить, нужно понимать бизнес и подходить к делу творчески.
Поэтому проблемы должен ставить человек:
Автоматизация не понимает проблем, она не знает, что человеку [на этапе развития бизнеса] не рекомендуются продукты, исходя из его истории; автоматизация упустит проблему, решение которой — система рекомендаций.
Автоматизация не расставит приоритеты, она не умеет самостоятельно оценивать труд, время, деньги, затронутые приложения и многое другое.
Автоматизация не встречается с менеджерами по продуктам и не понимает болевые точки бизнеса.
Причины необходимости автоматизации трудно придумать.
Дата-сайентист исследует данные
Автоматизированное машинное обучение (AutoML) не начнёт с постановки проблемы и не знает, какие источники данных искать; оно объединяет данные, даёт конечный набор, но не обнаружит исходные данные до их подготовки.
Сравним AutoML и человека:
AutoML нужны данные, их собирает дата-сайентист.
Дата-сайентист изучает ресурсы, источники и платформы, чтобы найти информацию и создать модель.
AutoML будет сложно отправлять электронные письма компаниям и вообще знать, что искать: информацию о трафике, о потребителях или что-то иное.
Дата-сайентист создаёт признаки
Инженерия признаков (feature engineering) автоматизируется, однако этот термин взаимозаменяют и путают с feature creation — созданием признаков. Для целей статьи будем работать с термином feature creation. Воспользоваться преимуществами AutoML можно, но, чтобы понять, какие признаки создавать, нужно понимать бизнес, продукт и потребителей.
Ключевые моменты:
Дата-сайентисты знают, что два признака можно объединить, умножить или разделить: clicks и user представляются как clicks per user.
Специалисты понимают, что признаки нужно группировать, когда это имеет смысл.
Возможно, AutoML попытается создать признак clicks per house: в него заложено, что делить признаки один на другой важно, но также AutoML может создать бессмысленный признак из-за непонимания бизнеса и отрасли.
В сравнении с признаком выше специалист в Data Science создал бы такой признак, как clicks per user grouped by zipcode, и он будет работать, а не просто лежать в модели; зная, что этот признак наиболее важен, вы создадите направленную на определённые характеристики маркетинговую кампанию.
Дата-сайентист понимает индустрию
Этот пример повторяет другие: Data Science нужен человек, который понимает бизнес:
В автоматическом режиме достаточно сложно узнать, какие типы моделей Data Science следует задействовать в зависимости от отрасли.
Отрасли сильно отличаются друг от друга: алгоритм рекомендаций в здравоохранении может оказаться не столь полезным, как внутри киносервиса.
Дата-сайентист внедряет модель в продукт или в бизнес
Примеры выше сосредоточены вокруг первых этапов проекта Data Science, но последний посвящён завершающей стадии. Предположим, у вас есть лучшая автоматизированная платформа выбора модели с потрясающей точностью… но что она будет делать? Чтобы ответить на этот вопрос, необходим специалист в Data Science.
Автоматизация может зайти очень далеко, поэтому специалист знает, куда поместить результаты — в приложение, на сайт и т. д.
Дата-сайентисты должны знать, с какой частотой обучать модель, показывать результаты или делать прогнозы — во многих случаях это обсуждается, когда изучаются данные и определяются задачи.
Специалисты понимают, как эффективнее обобщить сложные результаты для заинтересованных сторон. Даже если результаты хорошо обобщены AutoML, отвечая на вопросы клиентов, заинтересованных сторон и руководства человек, например специалист в Data Science, окажется полезнее.
Итоги
Работа в середине процесса автоматизируется, а платформы для автоматизации невероятно полезны, но именно вы нужны, чтобы начать работу и закончить её. Я считаю, что должности в области науки о данных не будут сокращаться; напротив, со временем они будут обновляться.
Если вам интересно решать проблемы бизнеса с помощью данных, хотите научиться выявлять закономерности в них и создавать модели для решения конкретных задач в крупных технологических компаниях, обратите внимание на наш флагманский курс о Data Science. Или же узнайте, как прокачаться и в других востребованных специальностях:
Data и Machine Learning
Python, веб-разработка
Мобильная разработка
Java и C#
От основ — в глубину
А также: