Как стать автором
Обновить
250.56
Инфосистемы Джет
российская ИТ-компания

Аналитика vs Data Science: как я ускорил поиск себя в профессии и нашел те самые задачи

Время на прочтение11 мин
Количество просмотров14K

Мне 26 лет, я сменил направление карьеры с прикладной аналитики на Data Science. В моей истории не было кардинальной смены профессии, но я последовательно искал задачи «под себя».

Мой опыт может быть полезен тем, кто пытается найти себя в аналитике и смежных областях, но некоторые моменты и стратегии универсальны и будут полезны всем, кто задумался о переменах в карьере. Поиск «своих задач» похож на сборку LEGO, где блоки — это разные задачи, но вы можете выкидывать ненужные детальки, обмениваться ими с коллегами или даже брать элементы из другого набора, чтобы построить именно то, что нужно вам. Также я поделюсь списком из почти 20 источников и ресурсов, которые помогли мне сменить профессиональную область.


Как разогнаться на старте карьеры

Один из простых способов ускорить поиск себя в профессии — начать как можно раньше работать в коммерческих проектах. Я начал работать аналитиком в «Инфосистемы Джет» в отделе противодействия мошенничеству (антифроде) еще на четвертом курсе университета, где учился на прикладной математике. Нам давали хорошую теоретическую базу, но было понятно, что самые продвинутые и востребованные практики — в коммерческих компаниях.

Позиция антифрод-аналитика дала мне то, что я хотел — погружение в реальные проекты. С одной стороны, работа на бизнес помогает в учебе: часть знаний ты проверяешь на практике, освоение навыков происходит естественнее, быстрее, а результаты остаются с тобой, а не выветриваются через неделю после сессии.

С другой стороны, только практика в условиях реальных проектов дает настоящее понимание профессии. Это уже настоящие жизненные задачи, а не домашние задания. Ты понимаешь структуру работы, видишь, из чего складываются будни аналитика: что из этого тебя мотивирует, с чем ты готов мириться, а с чем — не очень.

На практике мы часто узнаем составляющие работы, о которых ни на вузовских лекциях, ни на онлайн-курсах не говорят или упоминают вскользь, при этом задачи этого класса занимают существенную часть времени и внимания. Я попробую декомпозировать свою деятельность на позиции прикладного аналитика, занимающегося антифродом.

Чем на самом деле занимаются каждый день антифрод-аналитики

Погрузиться в предметную область. До работы с нефтянкой я никогда не задумывался, что происходит, когда машина компании приезжает на АЗС, какие производятся операции и какие там есть возможности для мошенничества. После работы с ритейлерами я по-другому начал ходить в супермаркеты, внимательнее относиться к чекам и скидочным картам, потому что узнал о разных сценариях мошенничества с ними.

Одна из первостепенных задач прикладного аналитика (в моем случае, антифрод-аналитика) — это глубоко погрузиться в предметную область, проанализировать ключевые бизнес-процессы и выделить среди них интересующие и наиболее уязвимые. И здесь всегда есть выбор, куда пойти: ритейл, нефтянка, металлургия и т. д. Например, можно стать аналитиком, специализирующимся на фроде, связанном с финансовыми операциями в банках. И даже здесь будут варианты: можно заниматься внутренним фродом, то есть выявлением махинаций сотрудников, а можно — внешним, связанным с действиями мошенников вне организации.

Ставить себя на место злоумышленника. В профессии могут открыться и специфические задачи, и неожиданные требования. Например, в антифроде важно научиться ставить себя на сторону злоумышленника. Заказчик описывает бизнес-процессы компании, отмечает необычные и интересные сценарии, и ты должен посмотреть на происходящее через призму человека, который хочет незаконно получить прибыль, критичную информацию.

Общаться с заказчиком на его языке. Общение и требуемые для него развитые коммуникативные навыки — важная составляющая профессионализма аналитика. К тому же коммуникациям с заказчиками редко учат целенаправленно. Но аналитик должен общаться с заказчиком на его языке, чтобы глубоко погрузиться в процесс, доказать экспертность, заслужить необходимое для продуктивной работы доверие. Если ты анализируешь сделки трейдеров, ты должен разбираться в трейдерском деле. Если анализируешь систему начислений бонусов в ритейле — понимать всю цепочку от появления в системе нового клиента до момента списания бонусов. При анализе технологического процесса плавки стали в черной металлургии — должен разбираться в особенностях различных марок стали.

Решать инженерные задачи. Рано или поздно придет время внедрять разработанное решение для выявления и анализа мошеннических операций. В случаях, когда не требуется привлечение разработчиков для интеграции со специфичным источником данных, аналитику необходимо настраивать интеграции с различными системами. Например, это может быть сделано с использованием ETL-инструментов, которые позволяют настраивать набор процедур для загрузки, обработки и передачи данных в антифрод-решение. Как это реализуется на практике, зависит от требований заказчика, сложности и уникальности источника данных: чаще всего, переиспользуются или дорабатываются ранее разработанные интеграционные компоненты. Кроме проработки интеграции, любое решение адаптируется под нужды конкретной компании: настройка интерфейса, формирование уведомлений для ответственных лиц и создание регулярного отчета.

Разрабатывать документацию. Помимо настройки решения, на протяжении большей части проекта необходимо вместе с заказчиком разрабатывать и согласовывать документацию: технико-коммерческое предложение, техническое задание, аналитическую записку, спецификацию к формату обмена и др. Здесь необходимо опять же иметь системный подход — разрабатывать требования, которые бы удовлетворяли и заказчика, и подрядчика, и затем фиксировать их документально.

Что делать, если какие-то классы задач не подходят

Иногда есть классы задач, которые нам делать скучно или сложно. В профессии прикладного аналитика кого-то напрягает общение с заказчиками, кого-то — интеграции и оформление документации.

Чаще всего на проекте работает команда аналитиков, внутри которой разделены обязанности. Аналитик может фокусироваться на одной из зон ответственности:

  • Согласование с заказчиком требований к системе и разработка проектной документации.

  • Настройка антифрод-решения и реализация необходимых интеграций.

  • Анализ бизнес-процессов заказчика и выявление наиболее уязвимых мест и др.

Если есть серьезный интерес к какому-то из этих классов задач, а другие не столь интересны — имеет смысл развивать экспертизу в конкретном направлении.

Но есть ситуации, когда не удается собрать конструктор из имеющихся кубиков под свои особенности и потребности. Это и был мой случай. По мере наращивания опыта мне всё больше хотелось быть исследователем и глубже погрузиться в область Data Science: анализировать данные, строить прогнозные и оптимизационные модели, доказывать эффективность от внедрения сервисов на базе математических моделей. Мы часто застреваем на этапе таких сомнений и ничего не предпринимаем.

Не только в пабе: как мне помог разговор с руководителем

В такой ситуации мы иногда предпочитаем молчать и не делать ничего или резко меняем компанию и даже сферу деятельности. Но часто не нужны такие кардинальные действия, и работает теория «маленьких шагов».

На нашем корпоративном портале есть кнопка «Хочу перемен», и я ее нажал. Еще поговорил с руководителем. В команде не хотели, чтобы я уходил, но, когда поняли, что решение осознанное, никто ни разу мне не сказал: «Да куда ты собрался» и «Зря все это». Мой руководитель помог и познакомил с коллегами из центра машинного обучения. Когда я рассказываю знакомым, что поделился своим желанием с начальником, и он помог его осуществить, они удивляются: «А что, так можно было?». Можно. То есть в моем случае сработало то, что я озвучил запрос на изменения не друзьям в пабе, точнее, не только им, но и человеку, который может реально повлиять на ситуацию.

Плюсы большой компании для поиска своих задач

У работы в большой компании есть плюсы и минусы. В контексте темы поиска своих задач у масштабной организации есть преимущества. Если бы я с той же проблемой столкнулся в компании, у которой всего пара проектов, не факт, что мой запрос удовлетворили бы в силу объективных причин. Крупные компании развивают разные направления экспертизы, внутри каждого реализуется множество проектов и параллельно работают несколько команд.

В нашей компании много переходов из одного подразделения в другое, и многие из них — куда кардинальнее моего. Люди могут сменить сферу деятельности, профессию, не меняя компанию. Поэтому мне в этом смысле повезло: у нас уже появился центр машинного обучения, и я, пройдя несколько собеседований, перешел туда работать, и вот уже более трех лет занимаюсь разработкой и внедрением решений на базе моделей машинного обучения. На начальном этапе, конечно, максимально впитывал опыт команды и набивал руку в проектах. Сейчас руковожу группой Data Science специалистов, определяю, интересно ли нам браться за задачу, а еще:

  • продумываю архитектуру решения задачи с точки зрения Machine Learning (ML);

  • плотно общаюсь с заказчиками, выезжаю на площадки в другие города;

  • исследую применимость ML на рассматриваемом участке;

  • делаю презентации нашего подхода к решению и результатов, защищаю предложенный подход к решению;

  • вместе с командой разрабатываю и внедряю сервисы на базе ML;

  • и, конечно, слежу за новыми SOTA-результатами в ML.

Из чего состоит Data Science: ключевые задачи специалиста

Data Science (DS) можно грубо разделить на два направления: исследовательское и прикладное. В исследовательском люди в большей степени занимаются созданием новых подходов к решению задач и развитием уже существующих алгоритмов. В прикладном — к вам приходит заказчик со своей «болью», или ты приходишь к заказчику и предлагаешь решения в зависимости от предметной области, и вы вместе ищете способ, чтобы улучшить текущий процесс с использованием методов машинного обучения.

Погрузиться в предметную область. Общаться с заказчиком на его языке. Это сходные с прикладной аналитикой задачи, и навыки, приобретенные ранее, мне очень пригодились. Здесь ты также делаешь обследование, глубоко изучаешь процесс, в который нужно встроиться, и общаешься с людьми, экспертами предметной области. Металлурги не будут разговаривать с тобой на языке математики, и ты с ними не должен. Сталевары в своих терминах расскажут, как происходит плавка и сколько нужно кинуть ферросплавов, чтобы все получилось. Они не будут описывать происходящее в терминах из теории вероятностей и математической статистики. Это тебе нужно будет услышанное и увиденное перевести на язык математики.

Провести первичный анализ данных. Специалист DS существенную часть времени тратит не на построение алгоритма, потому что множество методов и готовых алгоритмов уже есть. Львиная доля усилий уходит на правильную подготовку имеющихся данных ко всем этим моделям и алгоритмам. При анализе данных и DS-специалист, и антифрод-аналитик первым делом пытаются разобраться в логике и структуре их формирования, выделить ключевые элементы и характерные показатели для рассматриваемого процесса.

Антифрод-аналитик в большей степени анализирует часть данных, которая существенно отличается от характерного поведения, разбирает единичные кейсы (схемы мошенничества) и декомпозирует их на последовательность или совокупность событий. DS-специалист сосредотачивает внимание на выявлении общих закономерностей. Это работа с большим объемом данных, который проблематично отсмотреть глазами, и поэтому необходимо использовать инструменты для визуализации и автоматизированной обработки.

Мы получаем от заказчика доступы к различным системам, базам данных, системам логирования или сырые данные, например, трендовые данные набора датчиков на агрегате для обработки стали. Затем разрабатываем скрипты для первичной обработки данных, после чего с помощью визуализации и расчета характеристик смотрим, насколько то, что мы видим в данных, реально отображается в процессе.

Допустим, мы исследуем технологический процесс плавки стали, и нам нужно определить характерные режимы работы агрегатов. После того, как мы из данных получим интересующие режимы, их нужно верифицировать со специалистами производства, поскольку и данные могут врать.

Первичный анализ данных, их подготовка — один из самых важных этапов. И 50-60% времени работы над проектом уходит на эту задачу. При этом DS-специалисты больше любят строить модели — но этот этап составляет 5-10% от объема работы.

Построить ML-модель. Тот самый момент, который для многих и является привлекательным в специальности. И именно этот класс задач делает работу DS-специалиста настолько отличной от работы прикладного аналитика. Для различных антифрод-решений привычен больше экспертный подход, когда формируется набор правил для выявления инцидентов. Для разработки моделей на базе машинного обучения необходимо знать нюансы различных методов прогнозирования, их отличия друг от друга и уметь объяснить, почему в той или иной задаче лучше использовать определенный алгоритм.

Запустить модель нетрудно. Сложнее решать задачи, для которых нужны развитые математические скиллы и опыт использования различных фреймворков машинного обучения:

  • правильно подготовить данные;

  • верно сформировать математическую постановку задачи;

  • корректно скрестить математическую постановку, технологию процесса и бизнес-потребность заказчика;

  • корректно оценить эффект от разработанной модели.

Разработка прогнозной модели, моделирование. Это тоже одна из самых любимых задач для DS-специалиста: 5-10% работы, когда видишь результат моделирования. Этот этап для многих и составляет всю романтику профессии. В этот момент мы понимаем, можно ли из данных, на предподготовку которых ушло столько сил и времени, получить какой-то сигнал, или нет. Причем всегда нужно быть готовым, что наша подготовка и усилия не оправдали ожиданий, и надо начинать пусть не с самого начала и чистого листа, но заново.

К заказчику и обратно. На этом этапе DS-специалист должен идти к бизнесу, менеджерам и экспертам заказчика и показывать результаты. Если мы решили проблему бизнеса — прекрасно, если нет — должны предложить необходимые изменения, чтобы получилось. И вот умение слышать обратную связь, спокойно и критично относиться к замечаниям заказчика, комментариям — это про развитые навыки общения и формирование у заказчика правильных ожиданий, умение ими управлять.

Оценить результат. Предположим, у нас получилось, и есть результат. Теперь нужно оценить, принесла ли разработанная система пользу для бизнеса или производства. Не просто сказать, что модели хорошо работают, а проанализировать, провести эксперименты и оценить реальный прирост «в бою». Большая часть ML-проектов уникальна, поэтому для оценки эффективности нужно каждый раз придумывать новый сценарий для доказательства полезности внедренного решения (не всегда есть возможность провести A/B тестирование). Важно «на берегу» вместе с заказчиком определить архитектуру такого эксперимента.

Как найти задачи под себя

Когда мы учимся или только присматриваемся к какой-то деятельности, мы часто искаженно представляем ее содержание: то, чем мы будем заниматься на этой работе изо дня в день. Нас могут поджидать неожиданные типы задач. Например, аналитикам и DS нужно много и эффективно общаться с заказчиками, которых, как известно, не выбирают. При этом важно учитывать специфику бизнеса и отрасли. Или в DS идут для того, чтобы строить модели и всегда получать wow-результат, а в реальных проектах эти задачи составляют всего 10%, и крутой результат мы получаем не всегда.

Поэтому желательно как можно раньше приходить работать в реальные проекты и изучать свои возможности и предпочтения. И, если какие-то задачи не устраивают, настраивать работу под себя: обсуждать с руководителем и командой, пробовать разные задачи, заглядывать в смежные области.

У меня получилось настроить под себя задачи, и сейчас я полностью доволен как профессией в целом, так и тем, чем занимаюсь каждый день. Для аналитиков, которые хотят полностью переехать в новую профессию, я собрал список источников и ресурсов, которые мне помогли это сделать. Также он может быть полезен и прикладным аналитикам, кто счастлив и доволен на своем месте, поскольку, как мне кажется, всем имеет смысл изучать инструменты Data Science, так как они пригодятся в любой аналитической работе.

Книги, курсы и ресурсы, которые помогут погрузиться в Data Science

Теория вероятностей и математическая статистика:

  1. А.И.Кибзун, Е.Р.Горяинова, А.В.Наумов, А.Н.Сиротин. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами

  2. Печинкин А.В., Тескин О.И., Цветкова Г.М. Теория вероятностей

  3. Горяинов В.Б., Павлов И.В., Цветкова Г.М. и др. Математическая статистика.

Data Science:

  1. Блог Александра Дьяконова

  2. Материалы ODS-сообщества: DataFest, ML-тренировки

  3. Блог Антона Мальцева

ML-классика:

  1. Курс OpenDataScience

  2. МФТИ: Лекторий ФМПИ
    Видео лекций
    Видео семинаров

  3. Курс от CSC: Анализ данных на Python в примерах и задачах. Часть 1 (весна 2018)

  4. Курсы от DMIA

  5. Материалы и курсы от факультета компьютерных наук ВШЭ

  6. Книга Pattern Recognition and Machine Learning

Deep Learning:

  1. Курс Deep Learning на пальцах

  2. Книга Николенко С.И., Кадурин А. А. «Глубокое обучение. Погружение в мир нейронных сетей»:

  3. Курс от CSC: Анализ данных на Python в примерах и задачах. Часть 2 (осень 2018).

  4. МФТИ: Лекторий ФМПИ: Видео лекций, Видео семинаров

  5. Курс по компьютерному зрению от Stanford

  6. Видеозаписи лекций по классическому компьютерному зрению

Python

Курс на Stepik

Андрей Тарасов

Руководитель группы машинного обучения

Теги:
Хабы:
+11
Комментарии3

Публикации

Информация

Сайт
jet.su
Дата регистрации
Дата основания
1991
Численность
1 001–5 000 человек
Местоположение
Россия