В этом посте хочу поделиться своим переводом одной любопытной статьи на Medium на тему "кто есть кто в IT, и как бизнесу получить максимальную пользу от каждого специалиста".
Перевод подготовлен при поддержке сообщества аналитического курса DataLearn и телеграм-канала Инжиниринг Данных.
Примерное время прочтения: 3 минуты 32 секунды.
Дата-сайентист назван «самой сексуальной профессией 21-го века». The Harvard Business Review обьясняет это тем, что такой «гибрид хакера, аналитика, переговорщика и ценного советчика» — очень редкое сочетание навыков, и высоко оплачивается.
Слишком хорошо, чтобы быть правдой? По данным Forbes, да. Оказывается, что большую часть времени (до 79%) дата-сайентисты занимаются ненавистной им работой.
Спрос на дата-сайентистов
Тысячи компаний из различных сфер нанимают дата-сайентистов в качестве секретного оружия для своего бизнеса, подражая «квантам» Уолл-стрит 80-90-х гг, которые обладали уникальными способностями понимать и интерпретировать данные. Совсем как в клипе The Big Short.
Учитывая, что на рынке примерно 11 тысяч дата-сайентистов, а спрос на них резко растёт, конкуренция среди работодателей за этих специалистов очень жёсткая.
Бюро трудовой статистики США считает, что в 2018 году спрос будет превышать предложение на 50-60%. А по прогнозам McKinsey, в 2018 году только в США будет не хватать 1,5 миллионов аналитиков и менеджеров, которые умеют работать с данными и принимать на их основе решения.
Компании, которые сейчас не наймут дата-сайентистов, потом просто не смогут их найти.
Примечание переводчика:
статья 2017 года, поэтому конкретные цифры прогнозов не особо актуальны, но, согласно более свежим оценкам, в целом тренд не меняется – в ближайшие несколько лет спрос на DS продолжит расти, но сохранится и нехватка квалифицированных кадров.
Роль дата-сайентиста
Итак, компания нанимает дата-сайентиста, а что потом? Как они совершенствуют окружение, чтобы максимально развивать навыки специалиста и убедить его остаться?
Сначала рассмотрим, из чего состоит типичный рабочий день дата-сайентиста:
построение датасетов для обучения моделей (3% времени)
очистка и подготовка данных (60%)
сборка датасетов (19%)
поиск зависимостей в данных (9%)
совершенствование алгоритмов (4%)
прочее (5%).
И вот тут мы понимаем, насколько эта работа не секси, потому что подавляющее большинство специалистов единогласно заявляют, что самая нелюбимая часть их работы — это сборка датасетов, их подготовка и очистка. Более того, подготовка и очистка данных не имеют ничего общего с поиском инсайтов, это просто преобразование данных в нужную форму. Да, это требует серьёзных навыков, но не в области дата-сайенс.
Компании могли бы освободить до 79% времени дата-сайентистов (которое те могли бы потратить на аналитику), переложив обязанности по подготовке данных на кого-то другого. В этом случае компании, с одной стороны, получат выгоду от того, что их специалисты больше времени посвящают поиску инсайтов, а те в свою очередь получат возможность заниматься действительно любимым делом.
В свою очередь подготовка данных должна быть передана особому специалисту - инженеру данных.
Роль инженера данных
Потребность в инженерах данных тоже растёт. В статье The Rise of the Data Engineer Максим Бошемин, инженер данных в Airbnb, рассказывает о том, как в 2011 году он пришёл в Facebook на позицию BI разработчика, а спустя два года покинул компанию, будучи уже инженером данных. По его словам, потребность в более сложном ETL, основанном на коде, а также изменение моделей данных, – все это подогревает спрос на дата-инженеров.
Так в чем же заключается работа дата-инженера? Это извлечение данных, их обработка, наполнение, очистка и/или автоматизация анализа данных. Бошемин описывает это так: «инженер данных создаёт инструменты, инфраструктуру, фреймворки и сервисы. В небольших компаниях – где ещё нет команды, отвечающей за инфраструктуру — работа инженера данных может также включать в себя построение и поддержание инфраструктуры данных в компании.»
Другими словами, инженер данных сам по себе не находит инсайты, но занимается подготовкой достоверных данных. Для кого? Для дата-сайентистов и аналитиков данных.
Возвращение сексуальности (В оригинале - Bringing Sexy Back)
Если бы инженеры данных занимались чисткой, подготовкой и сборкой датасетов, дата-сайентисты могли бы сфокусироваться на поиске зависимостей, совершенствовании алгоритмов и прочей секси-части их работы. Ну, вы понимаете.
Говоря простыми словами, совместную работу инженера данных и дата-сайентиста можно описать так:
Чтобы построить систему, в которой к аналитикам попадают уже предварительно подготовленные данные, компаниям нужно сделать два шага:
Ввести новую должность – инженер данных – и создать культуру дата-инжиниринга и открытости данных.
Внедрить новые технологии обработки данных (Airflow, Kafka, Spark, Mesos и т.д.), которые позволяют быстро работать с большими объёмами информации.
Те компании, у кого это получится, точно станут привлекательнее для лучших дата-сайентистов. И, как результат, получат больше пользы от имеющихся данных.