Как стать автором
Обновить

Почему каждому Дата-сайентисту нужен Инженер данных?

Время на прочтение4 мин
Количество просмотров3K
Автор оригинала: LB

В этом посте хочу поделиться своим переводом одной любопытной статьи на Medium на тему "кто есть кто в IT, и как бизнесу получить максимальную пользу от каждого специалиста".

Перевод подготовлен при поддержке сообщества аналитического курса DataLearn и телеграм-канала Инжиниринг Данных. 

На фото: Eunice Lituanas.
На фото: Eunice Lituanas.

Примерное время прочтения: 3 минуты 32 секунды. 

Дата-сайентист назван «самой сексуальной профессией 21-го века». The Harvard Business Review обьясняет это тем, что такой «гибрид хакера, аналитика, переговорщика и ценного советчика» — очень редкое сочетание навыков, и высоко оплачивается. 

Слишком хорошо, чтобы быть правдой? По данным Forbes, да. Оказывается, что большую часть времени (до 79%) дата-сайентисты занимаются ненавистной им работой. 

Спрос на дата-сайентистов 

Тысячи компаний из различных сфер нанимают дата-сайентистов в качестве секретного оружия для своего бизнеса, подражая «квантам» Уолл-стрит 80-90-х гг, которые обладали уникальными способностями понимать и интерпретировать данные. Совсем как в клипе The Big Short

Учитывая, что на рынке примерно 11 тысяч дата-сайентистов, а спрос на них резко растёт, конкуренция среди работодателей за этих специалистов очень жёсткая. 

Бюро трудовой статистики США считает, что в 2018 году спрос будет превышать предложение на 50-60%. А по прогнозам  McKinsey, в 2018 году только в США будет не хватать 1,5 миллионов аналитиков и менеджеров, которые умеют работать с данными и принимать на их основе решения.  

Компании, которые сейчас не наймут дата-сайентистов, потом просто не смогут их найти. 

Примечание переводчика:

статья 2017 года, поэтому конкретные цифры прогнозов не особо актуальны, но, согласно более свежим оценкам, в целом тренд не меняется – в ближайшие несколько лет спрос на DS продолжит расти, но сохранится и нехватка квалифицированных кадров.

Роль дата-сайентиста 

Итак, компания нанимает дата-сайентиста, а что потом? Как они совершенствуют окружение, чтобы максимально развивать навыки специалиста и убедить его остаться? 

Сначала рассмотрим, из чего состоит типичный рабочий день дата-сайентиста

  • построение датасетов для обучения моделей (3% времени) 

  • очистка и подготовка  данных (60%) 

  • сборка датасетов (19%) 

  • поиск зависимостей в данных (9%) 

  • совершенствование алгоритмов (4%) 

  • прочее (5%). 

И вот тут мы понимаем, насколько эта работа не секси, потому что подавляющее большинство специалистов единогласно заявляют, что самая нелюбимая часть их работы — это сборка датасетов, их подготовка и очистка. Более того, подготовка и очистка данных не имеют ничего общего с поиском инсайтов, это просто преобразование данных в нужную форму. Да, это требует серьёзных навыков, но не в области дата-сайенс. 

Компании могли бы освободить до 79% времени дата-сайентистов (которое те могли бы потратить на аналитику), переложив обязанности по подготовке данных на кого-то другого. В этом случае компании, с одной стороны, получат выгоду от того, что их специалисты больше времени посвящают поиску инсайтов, а те в свою очередь получат возможность заниматься действительно любимым делом. 

В свою очередь подготовка данных должна быть передана особому специалисту - инженеру данных. 

Роль инженера данных 

Потребность в инженерах данных тоже растёт. В статье The Rise of the Data Engineer Максим Бошемин, инженер данных в Airbnb, рассказывает о том, как в 2011 году он пришёл в Facebook на позицию BI разработчика, а спустя два года покинул компанию, будучи уже инженером данных. По его словам, потребность в более сложном ETL, основанном на коде, а также изменение моделей данных, – все это подогревает спрос на дата-инженеров. 

Так в чем же заключается работа дата-инженера? Это извлечение данных, их обработка, наполнение, очистка и/или автоматизация анализа данных. Бошемин описывает это так: «инженер данных создаёт инструменты, инфраструктуру, фреймворки и сервисы. В небольших компаниях – где ещё нет команды, отвечающей за инфраструктуру — работа инженера данных может также включать в себя построение и поддержание инфраструктуры данных в компании.» 

Другими словами, инженер данных сам по себе не находит инсайты, но занимается подготовкой достоверных данных. Для кого? Для дата-сайентистов и аналитиков данных. 

Возвращение сексуальности (В оригинале - Bringing Sexy Back)

Мы не могли устоять.  

Если бы инженеры данных занимались чисткой, подготовкой и сборкой датасетов, дата-сайентисты могли бы сфокусироваться на поиске зависимостей, совершенствовании алгоритмов и прочей секси-части их работы. Ну, вы понимаете. 

Говоря простыми словами, совместную работу инженера данных и дата-сайентиста можно описать так: 

Чтобы построить систему, в которой к аналитикам попадают уже предварительно  подготовленные данные, компаниям нужно сделать два шага: 

  1. Ввести новую должность – инженер данных – и создать культуру дата-инжиниринга и открытости данных. 

  1. Внедрить новые технологии обработки данных (Airflow, Kafka, Spark,  Mesos и т.д.), которые позволяют быстро работать с большими объёмами информации. 

Те компании, у кого это получится, точно станут привлекательнее для лучших дата-сайентистов. И, как результат, получат больше пользы от имеющихся данных. 

Теги:
Хабы:
Всего голосов 9: ↑6 и ↓3+4
Комментарии3

Публикации

Истории

Работа

Data Scientist
78 вакансий

Ближайшие события

15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань