Недавно в разговоре с HR’ами одной крупной компании прозвучало «Каждый data engineer, приходящий к нам на интервью, мечтает стать data scientist’ом». Меня это тогда сильно удивило и стало очень обидно за дата инженера, честно говоря.
Мы здесь (и не только) уже публиковали несколько материалов про data engineer’ов и их ценность для бизнеса – например, интервью с Николаем Марковым или «4 причины стать data engineer», но это было давно. Время идет, материал накапливается, мир развивается, поэтому есть что рассказать.
Возможно, надо сначала коротко напомнить, из чего складывается круг задач дата инженера (плюс-минус, конечно, т.к. каждая компания может добавлять что-то свое\ что-то из перечисленного может выполняться другими сотрудниками):
— построение стабильных пайплайнов, делающих данные доступными для всех пользователей внутри компании;
— сбор, очистка и предобработка данных как часть ETL или ELT процесса;
— работа с DBA для создания хранилищ данных;
— использование фреймворков и микросервисов для обслуживания данных;
— мониторинг качества данных;
— вывод моделей в прод.
Рассмотрим рынки труда США, Германии и пообщаемся с местными, московскими, data engineer’ами.
США
В конце прошлого года компания Dice изучила данные платформы Burning Glass’s Nova, которая анализирует открытые позиции по рынку труда США, и оказалось, что относительно 2017 года спрос на data engineer увеличился на 96,7%, а то время как на data scientist – 51,1%.
Спрос на дата инженеров, конечно, огромен. Сейчас, например, на Indeed открыто более 131 000 вакансий только в США, больше всего их требуется в Сиэтле, Сан-Франциско и Нью-Йорке. Разбег по зарплате в целом соответствует диаграмме ниже. При этом, важно отметить, что зарплаты дата инженеров в США не уступают зарплатам дата сайентистов (есть мнение, что инженеры получают меньше), но они зависят, например, от города: так в Нью Йорке дата инженеры могут получать 132 тыс долл, а в Сан-Франциско и 151 тыс долл.
И для сравнения – там же на Indeed опубликовано всего 12 000+ вакансий data scientist’ов с такой же вилкой зарплат. В общем, цифры говорят сами за себя: самой востребованной и «сексуальной» профессией стал data engineer!
Германия
Неудовлетворенный спрос на дата инженеров есть и в Германии. В сентябре мы проводили корпоративную программу по data engineering для компании XING. Когда на рынке кадров не хватает, а в компании дата инженеры очень нужны, то один из выходов – развивать и обучать своих текущих сотрудников. Мартин Штоев, Director of Engineering в XING, рассказал, что в последние годы они постепенно переобучили более дюжины разработчиков и сделали их дата инженерами. Это было сделано главным образом из-за необходимости, но также и по тому, что они привносят важные знания предметной области в проекты.
Первые дата инженеры работали тесно с центральной DS командой в компании над одними проектами и это было очень органичным дополнением. С появлением все большего числа «выращенных» внутри дата инженеров, обнаружились сложности: центральная команда очень много времени инвестировала в обучение, они должны были в течение месяцев готовить несколько дата инженеров для работы в разных командах. И к моменту окончания обучения предыдущей группы, на подходе была уже следующая, а объединить их всех не получалось, т.к. все работали над разными проектами, приходилось обучать небольшими группками. Также было невозможно просто включить новых дата инженеров в проектные команды, потому что для многих команд это был первый дата инженер.
Большинство разработчиков, которые решили перейти в дата инжиниринг были либо джунами, либо senior, и они все хотели учиться, поэтому XING только надо было предоставить книги, туториалы и организовать воркшопы. Воркшопы проводились как сотрудниками, так и внешними провайдерами, и были посвящены таким основным технологиям, как: Hadoop, Scala и Kafka. Со временем дата инженеры уже не были чем-то новым для команд, и все меньше и меньше центральная команда работала с выросшими дата инженерами над длительными проектами. По словам Мартина, в среднем 6 месяцев требуется переобученному дата инженеру, чтобы начать работать самостоятельно над более сложными задачами, и затем еще через 6 месяцев компания меняет сотруднику должность. Конечно, чем меньше изначальный разрыв между навыками и знаниями сотрудника и требованиями к дата инженеру, тем процесс обучения идет быстрее.
За эти несколько лет обучения внутренних сотрудников компанией XING были сделаны несколько наблюдений:
— бэкенд разработчики, которые уже работали с пайплайнами, обычно схватывают новые знания быстрее, чем, например, фронтенд-разработчики;
— с меньшим успехом дата сайентисты переобучаются в дата инженеров;
— попытки переобучить разработчиков в data scientists тоже не были успешны, если только у человека не было хорошей математической базы и знаний научных методов или уж очень большого желания самостоятельно все это выучить, потому что разрыв по требуемым знаниям слишком велик.
Мне кажется, это очень важные наблюдения, которые могут сэкономить кучу денег и времени любому работодателю, потому что на рынке России дата инженеров тоже не хватает и обучать своих сотрудников все равно придется. Да и тем data engineer’ам, которые мечтают стать data scientist’ами, стоит прислушаться, что оно так не работает, потому что дата инженер и дата сайентист – два человека с разным складом ума.
Как раз недавно в канал #career в ODS Алексей Григорьев кидал отчет по рынку в Берлине от Darwin Recruitment. И вот в цитате, открывающей раздел про data engineering, говорится о развитии дата инжиниринга на уже сформированном рынке, и подтверждается факт нехватки местных дата инженеров: «все больше компаний в Германии нанимают сотрудников из других стран, и эти опытные дата инженеры привозят в страну отличные инструменты и технологии». Агентство говорит о 51% – именно столько кандидатов из других стран проходят интервью с их клиентами. Так что дата инжиниринг хорошая востребованная профессия, с которой можно получить и релокейшн. Именно так и переехал в Гамбург на позицию дата инженера выпускник Newprolab Николай Рекубратский, с кем мы в прошлом году делали интервью. По уровню зарплат в Берлине агентство приводит вилку 55-70 тыс. евро в год, но, возможно, в разных городах Германии есть разница и в зарплате, и в дополнительных корпоративных и социальных плюшках (по крайней мере в Гамбурге нам много хорошего про это рассказывали).
Россия
Ну, а в России про профессию дата инженер начали писать только году в 2017 (хотя в то время живые дата инженеры уже были, и на конференциях можно было слышать хорошие доклады по дата инжинирингу), но до сих пор у всех на слуху data scientist, и складывается впечатление, что все только и грезят о «самой сексуальной профессией 21 века». Не помогает и Хабр, отказавший мне еще в сентябре 2017 года сделать хаб data engineering: «Для инициирования рассмотрения заявки на создание нового хаба необходимо указать ссылки на не менее 10 материалов, которые уже размещены на страницах Хабра и могут быть отнесены к предлагаемому хабу». Полагаю, уже можно обратиться повторно, условие это выполнено.
Но ведь из каждого утюга только про ds говорится, поэтому и приходится слышать: «Каждый data engineer, приходящий к нам на интервью, мечтает стать data scientist’ом».
Как раз в тот момент, когда это было сказано, к концу подходила наша программа «Data Engineer 5.0», и я решила закинуть эту фразу в групповой чат и узнать мнение наших участников. И вот, какая дискуссия развернулась и какие соображения были высказаны:
«Мы сейчас к нам набираем команду [дата инженеров], уже пособеседовали человек 30, и почти все поголовно хотят сайентистами быть… Действительно обидно становится за наше направление :(»
«Все хотят много денег и при этом минимально напрягаться. И такие специалисты считают, что DS-ам платят больше, чем DE, хотя это не так. Тут проблема в том, что DE нужно учиться строить классные штуки с помощью разных технологий, иногда пилить свое, если ничего подходящего нет, а для DS уже почти все инструменты сделали, и они, по большинству своему, одни и те же для решения разных задач (Python/R + библиотеки с различными реализациями ML и нейросеток). В общем, для DS сейчас снижен порог входа, чем для DE, и типа работа эта гораздо проще из-за наличия готовых инструментов. Я считаю, тут дело в психологии людей: все хотят получать признание быть на виду, а в стеке Big Data всю магию делают DS. DE выступают как помощники… Приведу пару аналогий, которые я заметил:
1) Например, компьютерные игры – никто не хочет быть саппортом, зато все хотят быть керри/DD/.
2) Или футбол – все хотят быть нападающими и мало кто хочет быть защитниками.
Зачастую общаясь с DE, слышал такие вещи: типа меня на проекте никто не ценит, отношение как к грузчику, взял данные тут, принес сюда… Одно радует, сейчас все же идет процесс переосмысления и уже во многих командах DE начинают уважать и любить. Вот у меня, например, на работе все круто в этом плане, ко мне как DE все хорошо относятся, я помогаю DS, они мне, и так в симбиозе живем».
«Посмотрел бы я, как бы DS без DE жили) Вообще, Big Data без DE жить не может, а без DS худо-бедно, но норм. Только не закидывайте меня тухлыми помидорами».
Но было и альтернативное мнение: «DE точно не начальная ступень. Но, к сожалению, все знают только о DS и об этом вышло уже много материалов, курсов. Этому люди учатся. А курсов для DE мало. Изучать надо все и разное, в зависимости от проектов. К сожалению, мир двигается в сторону контейнеров. И ярн скорее всего будет на кубере часто юзаться. А все из-за ДС. Им легко поднять контейнер и поехали. Это я к тому, что всё идёт к облегчению процесса интеграции и выкатки на прод, что ведёт к уменьшению зоны ДЕ. #де_вымирают»
«Что вижу я: идет логичная гонка за стратегическое позиционирование. Продвинутые ds-ы шарят в инженерии не хуже de и могут/хотят претендовать на выкат в ПРОМ, чтобы снизить t2m [time to market], de же могут сами атаковать зону машинки через автомл и заходить на зону ds. Если выбирать из 2, мне ближе, конечно, второе. Думаю, в целом победят те, кто старается выходить за свои функциональные рамки, потому как стремление к функц-градации отлично характеризует процессный подход, но в перспективе побеждает то, что бесшовно».
Подключился к обсуждению и один из спикеров программы: «Меня как DS наоборот частенько тянет к инженерным задачам. Для меня переход в DE это существенное понижение грейда. Был период, когда я пытался попасть в DE в Amazon, даже летал в Люксембург на 6-часовое интервью, но было отказано с формулировкой «вы не DE, вы DS»».
А вот на эту формулировку с отказом я бы обратила ваше внимание, она еще раз подтверждает, что это разные люди. Поэтому, если среди ваших сильных сторон системный подход, инженерный склад ума, умение разбираться в новых технологиях, умение разбираться в документации, писать хороший код, проектировать стабильные решения, то развивайтесь дальше и становитесь грамотным дата инженером, ищите команду и компанию, в России или за границей, где вы сможете максимально реализоваться как дата инженер, а не будете пытаться стать кем-то другим.
А если среди вас есть дата инженеры, которым есть про что писать и рассказывать, давайте дружить и двигать дата инжиниринг :)
Мы здесь (и не только) уже публиковали несколько материалов про data engineer’ов и их ценность для бизнеса – например, интервью с Николаем Марковым или «4 причины стать data engineer», но это было давно. Время идет, материал накапливается, мир развивается, поэтому есть что рассказать.
Возможно, надо сначала коротко напомнить, из чего складывается круг задач дата инженера (плюс-минус, конечно, т.к. каждая компания может добавлять что-то свое\ что-то из перечисленного может выполняться другими сотрудниками):
— построение стабильных пайплайнов, делающих данные доступными для всех пользователей внутри компании;
— сбор, очистка и предобработка данных как часть ETL или ELT процесса;
— работа с DBA для создания хранилищ данных;
— использование фреймворков и микросервисов для обслуживания данных;
— мониторинг качества данных;
— вывод моделей в прод.
Рассмотрим рынки труда США, Германии и пообщаемся с местными, московскими, data engineer’ами.
США
В конце прошлого года компания Dice изучила данные платформы Burning Glass’s Nova, которая анализирует открытые позиции по рынку труда США, и оказалось, что относительно 2017 года спрос на data engineer увеличился на 96,7%, а то время как на data scientist – 51,1%.
Спрос на дата инженеров, конечно, огромен. Сейчас, например, на Indeed открыто более 131 000 вакансий только в США, больше всего их требуется в Сиэтле, Сан-Франциско и Нью-Йорке. Разбег по зарплате в целом соответствует диаграмме ниже. При этом, важно отметить, что зарплаты дата инженеров в США не уступают зарплатам дата сайентистов (есть мнение, что инженеры получают меньше), но они зависят, например, от города: так в Нью Йорке дата инженеры могут получать 132 тыс долл, а в Сан-Франциско и 151 тыс долл.
И для сравнения – там же на Indeed опубликовано всего 12 000+ вакансий data scientist’ов с такой же вилкой зарплат. В общем, цифры говорят сами за себя: самой востребованной и «сексуальной» профессией стал data engineer!
Германия
Неудовлетворенный спрос на дата инженеров есть и в Германии. В сентябре мы проводили корпоративную программу по data engineering для компании XING. Когда на рынке кадров не хватает, а в компании дата инженеры очень нужны, то один из выходов – развивать и обучать своих текущих сотрудников. Мартин Штоев, Director of Engineering в XING, рассказал, что в последние годы они постепенно переобучили более дюжины разработчиков и сделали их дата инженерами. Это было сделано главным образом из-за необходимости, но также и по тому, что они привносят важные знания предметной области в проекты.
Первые дата инженеры работали тесно с центральной DS командой в компании над одними проектами и это было очень органичным дополнением. С появлением все большего числа «выращенных» внутри дата инженеров, обнаружились сложности: центральная команда очень много времени инвестировала в обучение, они должны были в течение месяцев готовить несколько дата инженеров для работы в разных командах. И к моменту окончания обучения предыдущей группы, на подходе была уже следующая, а объединить их всех не получалось, т.к. все работали над разными проектами, приходилось обучать небольшими группками. Также было невозможно просто включить новых дата инженеров в проектные команды, потому что для многих команд это был первый дата инженер.
Большинство разработчиков, которые решили перейти в дата инжиниринг были либо джунами, либо senior, и они все хотели учиться, поэтому XING только надо было предоставить книги, туториалы и организовать воркшопы. Воркшопы проводились как сотрудниками, так и внешними провайдерами, и были посвящены таким основным технологиям, как: Hadoop, Scala и Kafka. Со временем дата инженеры уже не были чем-то новым для команд, и все меньше и меньше центральная команда работала с выросшими дата инженерами над длительными проектами. По словам Мартина, в среднем 6 месяцев требуется переобученному дата инженеру, чтобы начать работать самостоятельно над более сложными задачами, и затем еще через 6 месяцев компания меняет сотруднику должность. Конечно, чем меньше изначальный разрыв между навыками и знаниями сотрудника и требованиями к дата инженеру, тем процесс обучения идет быстрее.
За эти несколько лет обучения внутренних сотрудников компанией XING были сделаны несколько наблюдений:
— бэкенд разработчики, которые уже работали с пайплайнами, обычно схватывают новые знания быстрее, чем, например, фронтенд-разработчики;
— с меньшим успехом дата сайентисты переобучаются в дата инженеров;
— попытки переобучить разработчиков в data scientists тоже не были успешны, если только у человека не было хорошей математической базы и знаний научных методов или уж очень большого желания самостоятельно все это выучить, потому что разрыв по требуемым знаниям слишком велик.
Мне кажется, это очень важные наблюдения, которые могут сэкономить кучу денег и времени любому работодателю, потому что на рынке России дата инженеров тоже не хватает и обучать своих сотрудников все равно придется. Да и тем data engineer’ам, которые мечтают стать data scientist’ами, стоит прислушаться, что оно так не работает, потому что дата инженер и дата сайентист – два человека с разным складом ума.
Как раз недавно в канал #career в ODS Алексей Григорьев кидал отчет по рынку в Берлине от Darwin Recruitment. И вот в цитате, открывающей раздел про data engineering, говорится о развитии дата инжиниринга на уже сформированном рынке, и подтверждается факт нехватки местных дата инженеров: «все больше компаний в Германии нанимают сотрудников из других стран, и эти опытные дата инженеры привозят в страну отличные инструменты и технологии». Агентство говорит о 51% – именно столько кандидатов из других стран проходят интервью с их клиентами. Так что дата инжиниринг хорошая востребованная профессия, с которой можно получить и релокейшн. Именно так и переехал в Гамбург на позицию дата инженера выпускник Newprolab Николай Рекубратский, с кем мы в прошлом году делали интервью. По уровню зарплат в Берлине агентство приводит вилку 55-70 тыс. евро в год, но, возможно, в разных городах Германии есть разница и в зарплате, и в дополнительных корпоративных и социальных плюшках (по крайней мере в Гамбурге нам много хорошего про это рассказывали).
Россия
Ну, а в России про профессию дата инженер начали писать только году в 2017 (хотя в то время живые дата инженеры уже были, и на конференциях можно было слышать хорошие доклады по дата инжинирингу), но до сих пор у всех на слуху data scientist, и складывается впечатление, что все только и грезят о «самой сексуальной профессией 21 века». Не помогает и Хабр, отказавший мне еще в сентябре 2017 года сделать хаб data engineering: «Для инициирования рассмотрения заявки на создание нового хаба необходимо указать ссылки на не менее 10 материалов, которые уже размещены на страницах Хабра и могут быть отнесены к предлагаемому хабу». Полагаю, уже можно обратиться повторно, условие это выполнено.
Но ведь из каждого утюга только про ds говорится, поэтому и приходится слышать: «Каждый data engineer, приходящий к нам на интервью, мечтает стать data scientist’ом».
Как раз в тот момент, когда это было сказано, к концу подходила наша программа «Data Engineer 5.0», и я решила закинуть эту фразу в групповой чат и узнать мнение наших участников. И вот, какая дискуссия развернулась и какие соображения были высказаны:
«Мы сейчас к нам набираем команду [дата инженеров], уже пособеседовали человек 30, и почти все поголовно хотят сайентистами быть… Действительно обидно становится за наше направление :(»
«Все хотят много денег и при этом минимально напрягаться. И такие специалисты считают, что DS-ам платят больше, чем DE, хотя это не так. Тут проблема в том, что DE нужно учиться строить классные штуки с помощью разных технологий, иногда пилить свое, если ничего подходящего нет, а для DS уже почти все инструменты сделали, и они, по большинству своему, одни и те же для решения разных задач (Python/R + библиотеки с различными реализациями ML и нейросеток). В общем, для DS сейчас снижен порог входа, чем для DE, и типа работа эта гораздо проще из-за наличия готовых инструментов. Я считаю, тут дело в психологии людей: все хотят получать признание быть на виду, а в стеке Big Data всю магию делают DS. DE выступают как помощники… Приведу пару аналогий, которые я заметил:
1) Например, компьютерные игры – никто не хочет быть саппортом, зато все хотят быть керри/DD/.
2) Или футбол – все хотят быть нападающими и мало кто хочет быть защитниками.
Зачастую общаясь с DE, слышал такие вещи: типа меня на проекте никто не ценит, отношение как к грузчику, взял данные тут, принес сюда… Одно радует, сейчас все же идет процесс переосмысления и уже во многих командах DE начинают уважать и любить. Вот у меня, например, на работе все круто в этом плане, ко мне как DE все хорошо относятся, я помогаю DS, они мне, и так в симбиозе живем».
«Посмотрел бы я, как бы DS без DE жили) Вообще, Big Data без DE жить не может, а без DS худо-бедно, но норм. Только не закидывайте меня тухлыми помидорами».
Но было и альтернативное мнение: «DE точно не начальная ступень. Но, к сожалению, все знают только о DS и об этом вышло уже много материалов, курсов. Этому люди учатся. А курсов для DE мало. Изучать надо все и разное, в зависимости от проектов. К сожалению, мир двигается в сторону контейнеров. И ярн скорее всего будет на кубере часто юзаться. А все из-за ДС. Им легко поднять контейнер и поехали. Это я к тому, что всё идёт к облегчению процесса интеграции и выкатки на прод, что ведёт к уменьшению зоны ДЕ. #де_вымирают»
«Что вижу я: идет логичная гонка за стратегическое позиционирование. Продвинутые ds-ы шарят в инженерии не хуже de и могут/хотят претендовать на выкат в ПРОМ, чтобы снизить t2m [time to market], de же могут сами атаковать зону машинки через автомл и заходить на зону ds. Если выбирать из 2, мне ближе, конечно, второе. Думаю, в целом победят те, кто старается выходить за свои функциональные рамки, потому как стремление к функц-градации отлично характеризует процессный подход, но в перспективе побеждает то, что бесшовно».
Подключился к обсуждению и один из спикеров программы: «Меня как DS наоборот частенько тянет к инженерным задачам. Для меня переход в DE это существенное понижение грейда. Был период, когда я пытался попасть в DE в Amazon, даже летал в Люксембург на 6-часовое интервью, но было отказано с формулировкой «вы не DE, вы DS»».
А вот на эту формулировку с отказом я бы обратила ваше внимание, она еще раз подтверждает, что это разные люди. Поэтому, если среди ваших сильных сторон системный подход, инженерный склад ума, умение разбираться в новых технологиях, умение разбираться в документации, писать хороший код, проектировать стабильные решения, то развивайтесь дальше и становитесь грамотным дата инженером, ищите команду и компанию, в России или за границей, где вы сможете максимально реализоваться как дата инженер, а не будете пытаться стать кем-то другим.
А если среди вас есть дата инженеры, которым есть про что писать и рассказывать, давайте дружить и двигать дата инжиниринг :)