Перевели и дополнили статью Марины Уисс, applied scientist (дата-сайентист со специализацией в прикладной статистике) в Twitch. Когда-то Марина перешла в IT из не связанной с технологиями сферы деятельности, а потом помогла с этим переходом многим людям без IT-бэкграунда.
В этой статье она делится советами для дата-аналитиков, которым хотелось бы заниматься data science. А мы добавили мнение экспертов и рекомендации, актуальные для российских образовательных реалий.
Порой, накопив опыт, специалист понимает, что хочет решать технические задачи, углубиться в машинное обучение или просто больше зарабатывать. Переход из дата-аналитики в дата-сайентисты — это разумный выбор. Но, чтобы всё получилось, нужна грамотная стратегия.
Сравниваем профессии дата-аналитика и дата-сайентиста
Дата-аналитики работают со структурированными данными, на основании которых принимаются бизнес-решения. Их инструментарий обычно включает SQL, Excel, Tableau или Power BI, а также базовые знания Python для обработки данных, их визуализации и простого статистического анализа. Такой специалист прежде всего работает с накопившимися данными: он ищет ответы на вопросы «что случилось» и «почему».
Дата-сайентисты, помимо этих задач, занимаются прогностическим моделированием и автоматизацией процесса принятия решений. Они тоже используют SQL и Python, но активнее работают со статистическим моделированием, фреймворками машинного обучения и облачными платформами. В отличие от дата-аналитиков они составляют прогнозы на будущее и разрабатывают рекомендации.
Мысль, что для продвижения по службе надо переквалифицироваться из дата-аналитика в дата-сайентиста, — заблуждение. Старшие аналитики могут очень прилично зарабатывать и серьёзно влиять на бизнес, обходясь без глубоких познаний в области машинного обучения и статистики.
Давайте начистоту: не всем понравится работа дата-сайентиста. Напротив, многие предпочли бы и дальше работать дата-аналитиками.
Задайте себе следующие вопросы:
Вам интересно, как устроено машинное обучение?
Справляетесь ли вы со сложной математикой и статистикой?
Готовы решать сложные технические задачи и вникать в концепции разработки программного обеспечения?
Вам подойдёт работа с высокой степенью неопределённости как при решении ежедневных задач, так и при продвижении по службе?
Если вы всё ещё читаете статью и думаете: «Да, это точно моё» — далее разбираемся, как лучше сменить профессию.
Какие навыки нужны для перехода из аналитики данных в data science
Математика и статистика
Дата-аналитики так или иначе сталкиваются со статистикой, но для data science нужно сильнее углубиться в математику. Вот с чем должно быть комфортно работать:
Анализ функций многих переменных и линейная алгебра, в частности матричные операции и градиенты для понимания алгоритмов машинного обучения. Без паники: от вас не требуется быть гением математики. Достаточно просто понимать основы, чтобы разбираться в работе алгоритмов.
Теория вероятности и тестирование гипотез для планирования экспериментов.
Статистические теории, вроде разных типов распределений и методов регрессии.
И в идеале хорошо бы иметь какой-никакой опыт с причинными выводами.
Программирование
Если вы уже пользуетесь SQL и на базовом уровне применяете Python — это ваше преимущество на старте. Нужно только перейти на новый уровень. На чём стоит сосредоточиться:
Продвинутый уровень Python: основы OOP, написание легко сопровождаемого модульного кода, модульные тесты, оптимизация производительности и так далее.
ML-фреймворки, например: scikit-learn, TensorFlow и PyTorch.
Знакомство с базовыми структурами данных и алгоритмами для прохождения собеседований. Скорее всего, вас спросят о массивах и строках. Ничего сверхъестественного, но на собеседовании пригодится.
Основы машинного обучения и ИИ
Это другой атлант науки о данных, так что стоит освоить ключевые моменты машинного обучения:
контролируемое обучение (регрессия и классификация);
неконтролируемое обучение (кластеризация и сокращение размерности);
оценка и проверка модели;
основы глубокого обучения;
GenAI — будет полезно познакомиться с ним (навыки работы с API, а не обучение моделей с нуля).

Наталья Баданина
Методист академических программ ML-направления в Школе анализа данных Яндекса, преподаватель онлайн-магистратуры УрФУ и Нетологии «Прикладной искусственный интеллект»
К списку навыков для перехода из дата-аналитика в дата-сайентиста можно добавить понимание принципов feature engineering, то есть умение правильно готовить признаки для моделей. Часто это даже важнее, чем сама модель.
В ML и AI дата-сайентист должен уметь не только строить модели, но и выводить их в продакшен. В этом сильно поможет освоение MLOps: Docker, Airflow, MLflow.
Полагаю, что в наборе скиллов дата-аналитика уже есть A/B-тестирование, навыки визуализации данных и хорошие софт-скиллы. Они совершенно точно пригодятся и на позиции дата-сайентиста. А их дополнительное развитие только укрепит общий скиллсет обеих профессий.
Big data и понятия инженерии данных
Дата-сайентистам часто приходится работать с масштабными датасетами и создавать автоматизированные пайплайны. Для этого нужно знать:
платформы облачных вычислений, в частности такие сервисы AWS, как S3 и SageMaker;
разработку дата-пайплайнов с помощью инструментов вроде Airflow;
базовые принципы системного проектирования для масштабирования решений, — чем ближе вы к уровню сеньора или чем больше работаете с машинным обучением, тем это важнее.

Анна Чжу
Проектный аналитик в группе компаний «Европейский медицинский центр», студентка курса Нетологии «Аналитик данных»
Я работала проектным аналитиком: использовала в работе отчёты, созданные в Excel и Power BI. В какой-то момент осознала, что мне не хватает глубоких знаний в области data-science-аналитики. Чтобы решить, по какому карьерному пути двигаться дальше, я составила табличку из тех навыков аналитиков, которые больше всего востребованы на рынке труда. Среди них ожидаемо оказались навыки работы с ML-моделями, Python и SQL, а также математические знания. В число основных рабочих инструментов вошли:
scikit-learn,
pandas,
NumPy,
Apache Spark,
Hadoop.
Как и где развивать навыки дата-сайентиста
Теперь, когда мы выяснили, что вам нужно знать, давайте разберёмся, где и как приобрести эти навыки. Выбирая одну из множества дорог, исходите из своего бюджета, графика и стиля обучения.
Университеты
Если вы готовы серьёзно углубиться в data science и заодно завести связи в этой области, вам подойдёт учёба в вузе. Очевидные минусы этого подхода — дороговизна и долгий срок обучения. Зато очевидные плюсы — серьёзная теоретическая база, государственный диплом, практика и связи в отрасли.
О получении высшего образования стоит задуматься, если у вас нет опыта в IT или вы переживаете, что имеющееся образование и опыт работы не пройдут первичный отбор у HR.
Сегодня квалификация дата-сайентиста уже не воспринимается как нечто диковинное. По версии «Поступи онлайн», это перспективная профессия, востребованность которой будет расти в ближайшие 5–10 лет, а профильную подготовку предлагают более 150 университетов страны, например МГТУ им. Н. Э. Баумана и НИУ МЭИ в Москве. От Краснодара до Владивостока, от Питера до Хабаровска — практически в каждом крупном городе университет предлагает программу обучения, которая либо позволяет получить специализацию дата-сайентиста, либо даёт прочную теоретическую базу для этой профессии.
Самостоятельное обучение
Для дисциплинированных и мотивированных студентов самообразование — вполне разумный экономичный вариант перехода в data science. Самое главное — учиться регулярно и использовать подходящие ресурсы.
При самообразовании самое важное — это системность. Составьте график и придерживайтесь его. Учитесь каждый день хотя бы по чуть-чуть.

Наталья Баданина
Методист академических программ ML-направления в Школе анализа данных Яндекса, преподаватель онлайн-магистратуры УрФУ и Нетологии «Прикладной искусственный интеллект»
Можно перейти из дата-аналитика в дата-сайентисты самостоятельно, если у вас уже есть опыт работы с инструментами Python, C++, хорошая подготовка и знания в области статистики. Большое значение играет глубина погружения в ML и понимание его математического обоснования. Также важно знать на хорошем уровне алгоритмы и уметь писать на C++.
Работайте с платформами для совершенствования навыков программирования Codecademy и Dataquest, исследуйте мануал «Лёгкий способ выучить Python 3» и официальную документацию по Python.
Углубить и расширить знания по математике и статистике помогут учебные пособия:
полное руководство по математике и статистике для data science;
введение в статистику для data science;
полное руководство для начинающих по линейной алгебре для специалистов по data science;
онлайн-учебник Майкла Нильсена «Нейронные сети и глубокое обучение».
Наставничество
Какой бы путь развития вы ни выбрали, наставничество всегда приносит пользу. Когда у вас есть к кому обратиться за советом, обратной связью или помощью в выборе карьеры, это очень многое меняет.
Где искать наставников:
У себя в компании: если у вас работают дата-сайентисты, попроситесь к ним в помощники или ученики.
В онлайн-сообществах, например Reddit. Это ещё один способ законнектиться с профессионалами и другими студентами.
А ещё наставника можно нанять. Если вы серьёзно настроены быстро взбежать по карьерной лестнице, эти инвестиции того стоят.
Если у вас в компании есть команда дата-сайентистов, попроситесь к ним. Если нет, предложите начальству важный проект, во время которого вы сможете развить нужные навыки. В лучшем случае задумка закончится переводом из отдела в отдел. В худшем — вы наработаете и добавите в резюме показательные кейсы и настоящие data-science-проекты.
Если вы уже работаете дата-аналитиком, это открывает перед вами массу возможностей. Допустим, вы регулярно создаёте отчёты в Excel или Tableau. Автоматизируйте этот процесс с помощью скриптов Python, добавьте предиктивные элементы. А если ваша компания занимается A/B-тестами, предложите свою помощь со статистическим анализом.
Как получить работу дата-сайентиста
Правильно позиционируйте себя онлайн. Ваше резюме, профиль GitHub должны рассказывать убедительную историю о вашей квалификации дата-сайентиста.
Не надо писать о себе «дата-аналитик, который ищет работу дата-сайентиста». Лучше представьтесь как специалист по работе с данными, занимающийся предиктивной аналитикой и машинным обучением.
Выложите на GitHub свои лучшие проекты. Для аналитиков это особенно важно, ведь потенциальный работодатель внимательно оценивает ваши навыки программирования.
Закрепите лучшие ML-проекты наверху.
Дайте чёткие объяснения в README.
Хорошо структурируйте ваш код и снабдите его качественной документацией: покажите, что вы разбираетесь в принципах разработки ПО.
Демонстрируйте эффективность проектов с помощью визуализаций и полученных результатов. С вашим бэкграундом это вообще не проблема.
Выбирайте вакансии с гибридными функциями, где нужно совмещать традиционную аналитику и data science. Это отличный плацдарм.


Например, множество компаний называют вакансию «дата-сайентист», а на самом деле речь идёт о продвинутой аналитике. Во многих компаниях нет чёткого разделения между двумя профессиями. Воспользуйтесь этой двусмыслицей в собственных интересах.
Когда вы завязываете профессиональные знакомства или готовитесь к интервью, не отбрасывайте опыт работы аналитиком. Покажите, что вы разбираетесь в бизнес-контексте. Продемонстрируйте хорошие коммуникативные навыки и расскажите, как вы помогали компании добиваться измеримых результатов. Может статься, что более технически подкованные кандидаты уступят вам в плане коммуникации и понимания бизнеса. Не бойтесь показать свои сильные стороны.

Екатерина Прохорова
Инженер по машинному обучению и анализу данных в компании «Технологии Доверия», выпускница курса «Дата-журналист»
После получения диплома дата-журналиста я долго «копила» проекты, всё не решалась куда-то уходить, пока моя тимлид в отделе коммуникаций не передала мои контакты в смежный департамент разработки. Я прошла там собеседование, уверенная, что иду в отдел аналитиков, а попала на испытательный срок в отдел разработки решений на основе ИИ. Там оказалось интересно. К тому же, у меня основное образование лингвистическое, поэтому осталась развиваться в роли инженера по машинному обучению. Полёт нормальный.
Помните: переход в новую профессию не происходит в два счёта. И это нормально. Ключ к успеху — в системном движении вперёд. Каждая написанная строчка кода, каждое выученное понятие, каждый выполненный проект — всё идёт в копилку.
Чтобы расти, нужно выйти из привычной зоны и сделать шаг к переменам. Можно изучить новое, начав с бесплатных занятий. А стать востребованным дата-сайентистом и открыть бóльшие перспективы в карьере позволит обучение на онлайн-программах высшего образования: например, на магистратуре УрФУ «Прикладной искусственный интеллект».