company_banner

«Да, они существуют!» Чем занимаются и сколько зарабатывают Data Science-специалисты в Казахстане?

Дмитрий Казаков, Data Analytics Team Lead в Kolesa Group, делится инсайтами из первого казахстанского опроса специалистов по работе с данными.


На фото: Дмитрий Казаков

Помните популярную фразу о том, что Big Data больше всего напоминает подростковый секс – все о нем говорят, но никто не знает, есть ли он на самом деле. То же самое можно было сказать и о рынке специалистов по работе с данными (в Казахстане) – хайп есть, а кто за ним стоит (и есть ли там вообще хоть кто-то), не было до конца понятно – ни эйчарам, ни менеджерам, ни самим дата-сайентистам.

Мы провели исследование, в рамках которого опросили более 300 специалистов об их зарплатах, функциях, скиллах, инструментах и много еще о чем.

Спойлер: да, они точно существуют, но все не так однозначно.

Приятный инсайт. Во-первых, специалистов по работе с данными больше чем мы ожидали. Нам удалось опросить 300 человек, среди которых есть не только product-, marketing- и BI-аналитики, но и ML-, DWH-инженеры, что особенно порадовало. В самой большой группе оказались все те, кто называет себя дата-сайентистами – это 36% опрошенных. Покрывает это запрос рынка или нет, сказать сложно, потому что сам рынок только формируется.



Смущает распределение уровней должности – тимлидов и руководителей почти столько же, сколько джунов. Причин тому может быть несколько. Например, большое количество маленьких команд по 2-3 человека, в которых руководителем может быть специалист уровня миддла или сениора.



Еще одной причиной может быть царящий пока на рынке хаос по части стандартов в распределении ролей и функционала. Тимлидами порой назначают тех, кто просто работает на год-два дольше других, без привязки к уровню скиллов и знаний. Мы видим это и в распределении функций по должностям — 38% руководителей и тимлидов занимаются предобработкой и еще 33% базовым стат.анализом.





Здесь мы попросили респондентов субъективно оценить уровень аналитики в их компаниях. Если присмотреться, можно увидеть, что 10% респондентов, которые работают в отделах аналитики из 2-3 человек, считают что у них “продвинутый уровень”.

А что такое “продвинутый уровень”? BI-система работает отлично. Есть DWH и Big Data. Регулярно проводятся A/B-тесты. Есть работающие системы ML и DS в production. Решения принимаются только по данным. Отдел работы с данными и Data Science – один из ключевых в компании.

Всего перечисленного практически невозможно добиться отделом из 2-3 человек. Считаю, что такой результат опроса – это небольшая болезнь роста – ребятам пока не с кем себя сравнивать, чтобы определить свой уровень более объективно.





Ожидаемо, больше всего времени специалисты по работе с данными тратят не на супер сложную математику или инженерию, а на предобработку, выгрузку, очистку данных. В каждой специализации мы видим предобработку в топ-3. А вот сложные вещи типа разработки ML-моделей или работы с Big Data, в топ-3 мы видим крайне редко – только у ML- и DWH-инженеров.



Есть и парочка грустных инсайтов. 40% задач специалисты ставят себе самостоятельно. В Казахстане пока только топовые компании-единороги распробовали преимущества работы с большими данными и научились делать это грамотно. Они транслируют на рынок, что Big Data и Machine Learning – это круто, а второй эшелон тянется следом, но далеко не всегда понимает, как устроена работа с данными. Поэтому мы видим, что задачи специалисты себе ставят сами, а бизнес не всегда знает, чего хочет.



Удивило, что 20% специалистов вообще не знают, есть ли в их компании Data Warehouse. Да, и с системами управления базами данных не все так хорошо – 41% используют MySQL, а еще 34% – PostgreSQL. О чем это может говорить? Они работают скорее со small data.



В вопросе про системы хранения мы снова видим MySQL и даже (!) Excel. Но это может говорить, например, о том, что у большинства компаний просто-напросто еще нет запроса на работу с большими данными.



Здесь все снова неоднозначно. В целом зарплаты оказались чуть ниже, чем я ожидал.



Лично мне сложно представить ML-инженера, который готов работать за 200 тысяч тенге – наверное, это стажер. Либо, компетенции у таких специалистов совсем слабые, либо компаниям пока сложно адекватно оценить работу Data Science. Но возможно это также говорит о том, что рынок пока в самом начале своего взросления. И со временем уровень зарплат установится на более адекватном уровне.
Kolesa Group
Строим классифайды в Центральной Азии

Комментарии 13

    +1

    Есть ли подобное исследование рынка в Казахстане для разработчиков?

    +1
    Если в компании нет DWH — откуда берутся большие данные?
    Я отлично понимаю, что для полезной и нужной аналитики и отчётов хватит excel + 32Gb оперативки в правильных руках, но это не совсем Big Data.
    Видимо, оттуда и зарплаты.
      0
      Добрый день
      Есть ощущение, что график «Источники постановки задач» содержит больше, чем 100% в сумме
        +1
        В вопросах с множественными ответами, в сумме не будет 100%, т.к. мы считаем % респондентов. Т.е. некоторые люди имеют несколько источников постановки задач.
          0
          Наверно лучше подобные результаты приводить в нормализованном виде (общепринятая практика), чтобы исключить эту или подобные ситуации
        0
        Интересно как “SQL-решения и реляционные базы данных” выводятся в отдельную категорию от “облачных сервисов”. Разве облачные сервисы не основаны на тех же “SQL-решениях и реляционных баз данных”?

        Еще интересно как MySQL можно эффективно использовать хотя бы для нужд аналитики, не говоря уже для полноценного ‘data science’ и разработки ML моделей.

        ИМХО, Data Scientist — не есть профессия, или даже специализация. Не имея понимания о специфике бизнеса, навыки ETL, или развертывание Hadoop кластера мало чем поможет в реальном понимании той информации, которую эти инструменты предоставляют (ну или могут предоставлять).
          +1
          Интересно как “SQL-решения и реляционные базы данных” выводятся в отдельную категорию от “облачных сервисов”. Разве облачные сервисы не основаны на тех же “SQL-решениях и реляционных баз данных”?

          Не всегда, некоторые облачные хранилища очень далеки от реляционных баз данных. Например Amazon S3 — объектное хранилище.

          Еще интересно как MySQL можно эффективно использовать хотя бы для нужд аналитики, не говоря уже для полноценного ‘data science’ и разработки ML моделей.
          Когда аналитика основана на small data вполне себе можно использовать как источник данных для аналитики DS и ML. Если данных много, то конечно MySQL станет узким местом в процессах.
            0
            Не всегда, некоторые облачные хранилища очень далеки от реляционных баз данных. Например Amazon S3 — объектное хранилище.

            Я говорил о хранилище данных для аналитики, при чем активной. Данные, конечно, хранить в объектном хранилище можно, ну нужно ли? Холодные копии для исторических данных разве что.

            Когда аналитика основана на small data вполне себе можно использовать как источник данных для аналитики DS и ML.

            Извините, но мне казалось, что аналитика на small data, Экселем называется. Ну и Machine Learning и Data Science, технически, на небольшом количестве данных проводить можно, но не целесообразно. Модели будут очень далеки от реальности.
              +1
              Извините, но мне казалось, что аналитика на small data, Экселем называется. Ну и Machine Learning и Data Science, технически, на небольшом количестве данных проводить можно, но не целесообразно. Модели будут очень далеки от реальности.

              Не соглашусь тут с Вами. Например на ежедневных данных продаж за последние 10 лет представленных как временной ряд + дополнительные регрессоры можно построить вполне себе приличный DS анализ, хотя размер таблицы будет немногом больше 3,5 тыс. строк.
              Или таблица по 10 тыс. покупателям и 50 характеристикам по каждому из них. На ней прекрасно можно провести кластерный анализ и сегментацию. Хотя размер таблицы 10000х51. Тут большими данными и не пахнет. А пользу из данных можно вытащить кучу.
              Так что и на small data также можно прекрасно DS алгоритмы применять. Хотя да в DS есть алгоритмы, которые требовательны к размеру данных (например нейронные сети, особенно глубокие)
                0
                Например на ежедневных данных продаж за последние 10 лет представленных как временной ряд + дополнительные регрессоры можно построить вполне себе приличный DS анализ, хотя размер таблицы будет немногом больше 3,5 тыс. строк.

                Мне казалось, что это называется бизнес аналитикой уже как лет 15. И занимаются ею бизнес аналитики, а не новомодные Data Scientist-ы.
                  +1
                  Вы не понимаете: в мск хороший бизнес-аналитик будет получать 200, а датасататанист — 350.
                  Поэтому есть огромный стимул переобуться и заниматься тем же, но более лучше зарабатывать ©, принося бизнесу профит и давая повод с гордостью вещать про ML, блокчейн и аджайил /sarcasm

        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

        Самое читаемое