Как стать автором
Обновить

Разница между Data Scientist и подростком в спорткаре

Время на прочтение6 мин
Количество просмотров6.5K


В последнее время появилось множество курсов, как академических, так и частных, которые ставят перед собой целью обучить анализу данных и готовят специалистов, способных решать бизнес-задачи с применением машинного обучения. Если посмотреть внимательно на программы этих курсов — все они примерно одинаковые, отличие только в форматах обучения (онлайн-офлайн) и в преподавателях.

Школа Данных начала делать такие курсы еще в 2015 году. Причем, начали делать по такому же сценарию. Мы пересмотрели большое кол-во программ различных академических курсов по машинному обучения, опираясь на опыт, выбрали только то, что реально нужно для решения практических задач и сделали большое кол-во Jupyter-тетрадок, в которых на пальцах старались разобрать математику и машинное обучение.

Мы старались обучить в первую очередь технологиям машинного обучения, методам обработки текстов, нейронным сетям, анализу сетевых структур, рекомендательным системам и другим областям анализа данных. И вроде отзывы учеников были хорошие, но все равно чего-то не хватало.

Учитывая, что основной деятельностью у нас все же является разработка реальных задач в рамках Студии Данных, учеников, в первую очередь, мы готовили для себя. Мы быстро поняли, что на практике знание методов анализа данных и машинного обучения — это, как говорят математики, «условие необходимое, но недостаточное». Именно поэтому мы очень быстро обновили программу наших занятий с учетом реальной потребности.

Коротко, выводы, к которым мы пришли (и на основе которых теперь строим наше обучение):

  • Технологии машинного обучения и нейросетей переоценены
  • Методы машинного обучения канибализируют культуру аналитического мышления
  • Для достижения экономического эффекта проектов, подразумевающих анализ данных, важнее soft-скиллы, нежели глубокие знания ML
  • Профессия Data Scientist'а — сильно переоценена, универсальных специалистов больше не будет

В следующих абзацах пойдет речь о всех этих проблемах.

Большинство задач в крупных компаниях, которые сейчас пытаются решать с помощью современных методов анализа данных и нейросетей — решаются уже давно. Банки — самые успешные кейсы в управлении рисков. В телекомах — это CRM/CBM, где вся бизнес-модель завязана на увеличение LTV абонентов. Аналогично работает и ритейл — есть несколько задач (прогноз РТО, управление запасами, промо-акции), которые обеспечивают core-бизнес.

Есть производственные компании, в которых основные задачи — повышение стабильности режима, сокращение потерь и предиктивное тех.обслуживание с одной стороны и управление складскими остатками и маркетинг с другой стороны.

Задачи эти не новые, решают их аналитики уже давно. Причем, аналитики, которые разбираются в предметной области. Более того, в большинстве случаев есть немалое количество вендоров, которые для отдельных задач, вроде управления ценообразованием (в случае розницы), либо APC-систем (в случае производства) — де-факто являются стандартами. Причем, как правило, алгоритмы оптимизации в том числе и машинное обучение в таких системах уже заложены.

Сделать тут что-то принципиально новое и на этом заработать — крайне сложно. Как говорится «яблоки, что упали с дерева» уже собрали. Остается искать только новые бизнес-кейсы, в которых аналитика дает экономический эффект. Такие примеры действительно есть — и их становится все больше.

Однако, найти такие примеры и увидеть там эффект от аналитики не просто. Для этого нужно уметь глубоко разобраться в предметной области конкретного процесса (описания которого, часто просто нет). Понять, какие данные вообще в принципе нужны, понять, на чем конкретно здесь делается бизнес. Понять, нужна ли тут аналитика вообще, нужны ли какие-то предсказательные алгоритмы (чаще — нет), нужно ли менять бизнес-процесс (чаще да), есть ли операционные рычаги (какой смысл предсказывать останов оборудования, если способов его избежать все равно нет?).

Так вот — в процессе реализации такого цифрового продукта возникает много вопросов, которые требуют аналитического подхода, определенной культуры работы с данными, умения ставить гипотезы, задавать себе вопросы, мыслить в терминах собственника бизнеса. Факт состоит в том, что этому не учат в Школах Анализа Данных, этому не учат на Coursera. Да, современные курсы готовят, наверное, хороших инженеров и математиков, однако — аналитиков — нет, не готовят.

Более того — знание методов машинного обучения и нейронных сетей скорее убивает культуру аналитического мышления. Большинство современных Data Scientist'ов — это как дети за спорткаром — считают себя уникальными (знают много умных слов про xgboost, нейросети и пр.), водить не умеют (а зачем, если машина сама все сделает за тебя), а едут быстро только потому что много лошадиных сил (сильное железо, хотя и тут скорее переобучились).

В результате, получается примерно следующая картина: приходят какие-то умные дорогие люди, почти не задают никаких вопросов, говоря о том, что данные и так обо всем расскажут. Забирают какие-то данные, потом приходят — говорят, что построили какую-то модель, называют точность в процентах и все. Как только начинаешь челенджить — говорят непонятными словами, давят интеллектом, но толку от них нет.

Этим и обьясняется, что сейчас среди подрядчиков по цифровой трансформации или анализу данных — доминируют в основном консалтинговые компании управленческого консалтинга (не IT). Потому что у них есть культура аналитики, культура бизнес-мышления, они всегда снимают головную боль, предлагают решения. Они не ограничиваются построением модели машинного обучения, они делают настоящую аналитику, которая помогает принять решение.

Другая тенденция, которая сейчас происходит в мире — это то, что даже если Data Scientist более менее успешный — он не может быть универсалом. Во многих компаниях изначально созданная централизованная структура, занимающаяся анализом данных стала распределенной. У центрального офиса осталась только роль обеспечения инфраструктуры, а вся продуктовая часть, реальные цифровые продукты делаются уже непосредственно в бизнес-единицах. В этой структуре, соответственно, Data Scientist (при условии, что он «правильный») становится экспертом в предметной области — на него передается функционал, который до него поддерживали до этого «старые» аналитики, которые работали до него. Ему же, в случае успеха, передают в руки и операционные рычаги.

В итоге — все больше и больше наблюдается тенденция давать успешным аналитикам операционные рычаги в руки и повышается их ответственность. Но только в одной предметной области. Мы прогнозируем (что подтверждается по рынку крупными компаниями), что не будет больше универсальных аналитиков — хайп закончился, пора отвечать за результат. Те, кто могут решать бизнес-проблемы с помощью аналитики — перейдут в продуктовую часть, а те, кто умеет обучать xgboost — уйдут обратно в академию, либо читать лекции по машинному обучению.

Именно поэтому, мы полностью пересмотрели наши курсы (в том числе потому, что многих из выпускников берем к себе в Студию Данных) и теперь:

0. Начнем с того, что на входе мы видим в каждом из студентов наших будущих сотрудников, которые будут плыть с нами в одной лодке и участвовать в крупных проектах. Поэтому, мы заинтересованы в том, чтобы студент за эти 3.5 месяца подготовился максимально качественно. Всегда можно успеть пройти очередной курс на Coursera, если будет потребность разобраться в деталях конкретного алгоритма. Однако, получить опыт реальных кейсов — куда сложнее. И именно поэтому:

1. Обучение построено по кейс-методу. Мы берем реальную задачу, сначала анализируем бизнес-модель, юнит-экономику, понимаем, какого качества, исходя из реальных цифр мы должны в этой задаче достичь. Оцениваем потенциальный экономический эффект. И только после этого начинаем разбираться с технической частью, постепенно погружаясь в аналитические методы, в машинное обучение и нейросети. И что важно — делаем это только в случае, если в этой задаче реально это нужно

2. Мы работаем с каждым студентом индивидуально. Несмотря на то, что мы стараемся набирать группу однородную, понимаем, что люди разные — у каждого свой индивидуальный план обучения и свои домашние задания. На наш взгляд — это глупость, когда пару десятков человек решают одну и ту же задачу. Это не эффективно даже с точки зрения здравого смысла. Все студенты получают ответы преподавателя в чате, студент никогда не будет брошен один на один с задачей.

Единственное, о чем мы заранее всех предупреждаем на входе — это то, что обучение будет требовать существенного времени, постоянно надо будет делать домашние задания, погружаться в детали, часто — тратить на обучение выходные.

Мы понимаем, что это не массовая история. Студия Данных успешно существует уже несколько лет в том числе потому, что в нее сложно попасть. Мы прекрасно понимаем, что в текущих реалиях проще вырастить аналитика, нежели брать после курсов с Coursera. Именно поэтому, в Школу Данных изначально приходят самые мотивированные студенты. Обычно — размер группы не превышает 15-20 человек, что позволяет сделать обучение фактически индивидуальным.

Не говоря уже о том, что мы полностью продумали всю техническую сторону — заранее заготовленные Jupyter-тетрадки, эффективная система коммуникаций для удаленных участников, онлайн-трансляции — все это помогает даже удаленным участникам общаться прямо на занятии с остальными ребятами.

Мы не учим Data Scientist'ов — мы готовим полноценных людей, которые могут решать бизнес-задачи с помощью аналитики.

Начало нового курса у нас 23 сентября. По вопросам проектов просим к нам в Студию Данных.
Теги:
Хабы:
-9
Комментарии6

Публикации

Изменить настройки темы

Информация

Сайт
dataschool.digital
Дата регистрации
Дата основания
Численность
Неизвестно
Местоположение
Россия

Истории