company_banner

Data Science в России: языки, технологии и многое другое

    В декабре 2017 года мы провели опрос среди различных групп российских пользователей, так или иначе имеющих отношение к анализу данных. Нам хотелось узнать, какими языками программирования, технологиями и инструментами пользуются специалисты в этой области. Это важно в том числе и для развития PyCharm, который уже довольно популярен среди аналитиков. Лучшее понимание потребностей специалистов по анализу данных позволит сделать наш продукт еще удобнее.

    Позднее мы провели аналогичное исследование в других странах, и у нас появилась возможность сравнить ситуацию в России с мировой. Здесь мы поделимся самыми интересными наблюдениями, более полные данные по России и инфографика опубликованы на нашем сайте. Исходные данные доступны здесь (все ответы на открытые вопросы были удалены с целью соблюдения конфиденциальности). В скором времени мы также опубликуем результаты всемирного исследования.

    image

    Профиль специалиста в области Data Science

    В рамках исследования были проанализированы ответы 373 россиян и 1965 респондентов со всего мира. По возрасту российские специалисты в сфере Data Science практически не отличаются от своих зарубежных коллег, однако иностранные специалисты имеют более высокий уровень формального образования. Среди опрошенных россиян 59% имеют степень бакалавра, и только 20% степень магистра, в то время как в мире степень бакалавра имеют 45% респондентов, а степень магистра — 36%.

    Область Data Science сравнительно молодая, около половины респондентов (46%) работают в ней от 1 до 3 лет. И лишь 18% имеют опыт 3-6 лет. Показательно, что для абсолютного большинства респондентов (тех, у кого опыт от 0 до 6 лет, а таких >90%) средний возраст никак не связан с опытом. Вероятно, это обусловлено молодостью сферы и тем, что в нее активно переходят люди из смежных областей.

    Многие люди решают задачи анализа данных наряду с программированием и другими должностными обязанностями. Только 50% респондентов (в мире 36%, согласно нашему опросу) указали анализ данных как основную профессиональную деятельность, 33% опрошенных совмещают анализ данных с основными профессиональными обязанностями.

    Языки программирования

    Python — доминирующий язык анализа данных в России и в мире. За рубежом доли использования Python и R в области анализа данных составляют 73% и 40% соответственно, в России Python значительно популярнее R — 84% против 25%.

    Технологии и инструменты

    Более 60% респондентов так или иначе используют инструменты для глубокого обучения. TensorFlowTM является наиболее популярным фреймворком — 49%, Keras на втором месте c 39%.

    Apache Spark используют 40% респондентов, в том числе 92% тех, кто программирует на Scala. Все, для кого Scala является основным языком, используют Apache Spark. Доля тех, кто программирует только на Python и использует Spark, составляет порядка 14% (если не учитывать возможность использовать Spark из Lua и Julia, то эта доля увеличится до 20%).

    Заработная плата

    Знание технологий больших данных — ключ к высокой заработной плате. Средняя зарплата специалиста вне стека технологий больших данных составляет 127 тыс. рублей. Зарплаты специалистов существенно варьируются в зависимости от квалификации и опыта работы, однако в среднем в области анализа больших данных они значительно выше. Интересно, что несмотря на популярность Apache Spark, респонденты со знанием этой технологии уступают по зарплате специалистам, владеющим Apache Pig и Apache Hive — 157 тыс. рублей против 177 и 166 тыс. соответственно. Знание Apache Hadoop/MapReduce дает возможность зарабатывать в среднем 150 тыс. рублей.

    В вопросе зависимости зарплат от языка программирования мы не отличаемся от всего мира: специалисты в Scala зарабатывают больше остальных — в среднем 173 тыс. рублей. За ними идут респонденты со знанием Java — 158 тыс., и Python — 143 тыс. При этом зарплата специалистов, использующих Python, на 4-5% выше, чем специалистов, использующих R (136 тыс.), что вполне соответствует ситуации в мире.

    Больше подробностей о состоянии сферы Data Science в России можно узнать в полной версии отчета с инфографикой. Наше исследование не претендует на абсолютную репрезентативность, так как мы распространяли ссылку на опрос в каналах, где представлена достаточно активная часть Data Science сообщества:

    • в сообществах Slack Open Data Science (ODS),
    • рассылали напрямую в компании, в которых есть подразделения data analysis,
    • рассылали участникам конференции SmartData, распространяли в тематических пользовательских группах и т.д.

    Однако наш обзор дает определенное представление об отрасли в России.

    Для тех, кто хочет провести самостоятельный анализ и сделать собственные выводы, доступны исходные данные. Все ответы на открытые вопросы были удалены с целью соблюдения конфиденциальности.

    Мы планируем и дальше наблюдать за тенденциями в сфере Data Science и проводить подобные опросы. Если вы хотите участвовать в наших будущих исследованиях, подпишитесь на последней странице нашего отчета. Будем рады видеть вас в числе наших респондентов.

    JetBrains

    376,00

    Делаем эффективные инструменты для разработчиков

    Поделиться публикацией
    Комментарии 0

    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

    Самое читаемое