Data Science уже давно вышла за пределы ИТ-компаний, шагнула дальше банков и телекома и пришла в промышленность, в том числе тяжёлую. Как и любой бизнес, металлургия, нефтегаз, нефтехимия и машиностроение заинтересованы в повышении своей эффективности и прибыли, а также в снижении себестоимости производства продукции.
Традиционные подходы исчерпали свой потенциал за десятки лет постоянных оптимизаций и улучшений. Поэтому все обратили внимание на работу с данными, ведь они справедливо считаются новой нефтью, а их правильное использование даёт компаниям существенные преимущества. Обилие разнообразных задач со своей спецификой привело к появлению отдельного направления — Data Science (DS) в промышленности.
Светлана Потапова
Руководитель кластера «Искусственный интеллект» Северстали
Привет, Хабр! Меня зовут Светлана Потапова, я руковожу «Северсталь Диджитал» — подразделением ИТ-функции Северстали, которое занимается разработкой и внедрением решений на основе машинного обучения. Например, с помощью моделей машинного обучения мы уже ускоряем агрегаты на несколько тонн стали в час и научились детектировать и классифицировать дефекты на миллионах фотографий металлополосы. Системы компьютерного зрения следят за соблюдением технологического процесса, техники безопасности на площадках и помогают снижать выбросы вредных веществ на коксовых батареях.
В этой статье расскажу, зачем становиться дата-сайентистом в промышленности, кто это такой и чем занимается и почему повышать цифровизацию производства непросто, но того стоит.
Чем занимается дата-сайентист в промышленности
Дата-сайентист использует машинное обучение для поиска закономерностей в больших объёмах данных, на их основе разрабатывает математические модели и, самое главное, с их помощью решает задачи бизнеса. С работой алгоритмов искусственного интеллекта мы соприкасаемся каждый день: это рекомендации музыки и кино в стриминговых сервисах, прогноз пробок, различные чат-боты и подсказки подходящих товаров от маркетплейсов.
В промышленности свои задачи — сложнее и масштабнее, ведь с их помощью решаются проблемы непрерывного производства со сложной цепочкой процессов, спецификой и большим уровнем ответственности. С помощью алгоритмов машинного обучения можно найти скрытые резервы, в разы улучшить производственные показатели, изменить технологию производства, повлиять на качество выпускаемой продукции. Например, ускорить агрегат, чтобы производить больше травленого проката, увеличить производство бутадиена или создать рецептуру моторного масла.
В процессе создания и внедрения Data-Science-решения принимает участие не только дата-сайентист, а целая команда квалифицированных специалистов в своих областях.
Расскажу, как это устроено, на нашем примере. Задача обычно приходит непосредственно от производства через владельца продукта. Он формирует конечное видение решения, прорабатывает сценарий использования и внедрения решения в бизнес-процесс вместе с остальной командой. Ядро команды со стороны ИТ — дата-сайентист, руководитель проекта и архитектор. Дата-сайентист в нашем понимании совмещает функции аналитика данных и ML-инженера: анализирует имеющиеся данные, проверяет гипотезы и создаёт модель машинного обучения. Когда модель готова и получаемые метрики достаточны для решения поставленной задачи, мы идём во внедрение. Начинаем с этапа проектирования архитектуры: определяем, из каких сервисов будет состоять решение и какими будут логические связи между ними, проектируем интеграции с другими системами. Далее для непосредственной разработки привлекаются фронтенд- и бэкенд-разработчики, дата-инженеры, девопс-инженеры. В период промышленной эксплуатации решение передаётся технической поддержке.
А теперь как это выглядит на практике. Бизнесу нужно найти способ произвести больше оцинкованного проката без значительных дополнительных инвестиций. При этом важно сохранить качество продукции и соблюсти технологию. У владельца продукта есть гипотеза, что за счёт более оптимального управления режимами работы агрегата непрерывного горячего цинкования (АНГЦ-4) можно повысить его производительность.
Команда из руководителя проекта и аналитиков данных едет на производственную площадку, чтобы лично поговорить с операторами, технологами и изучить процесс горячего цинкования и особенности агрегата, а также понять текущий уровень автоматизации агрегата, ведь это определит режим работы будущей модели: советчик или непосредственно управляющая модель.
Для старта работы дата-инженер делает выгрузку исторических данных, настраивает сбор данных в режиме реального времени, чтобы накопить их и потом использовать. С этого момента дата-сайентист приступает к исследованию данных (англ. exploratory data analysis, EDA): порой это целое расследование, которое даёт понимание, как данные взаимосвязаны, какие есть аномалии в процессе, какие факторы оказывают влияние и насколько существенное.
В рассматриваемом примере мы пришли к выводу, что для решения задачи нужен нестандартный подход: комплекс моделей на основе технологической экспертизы, физического моделирования, машинного обучения, а также современных подходов теории управления. Предложенный подход к достижению цели по увеличению производительности агрегата обсудили с бизнесом. После утверждения запустили разработку архитектуры и компонентов решения, произвели доработки на уровне АСУ ТП, чтобы туда поступали управляющие сигналы от моделей. Для отслеживания работы системы спроектировали и настроили мониторинг. Всё это время дата-сайентист непрерывно участвует в процессе для доведения решения до целевого состояния — когда оператор сможет управлять процессом в автоматическом режиме, созданном с помощью модели, максимально возможный процент времени.
В результате мы получили решение, которое автоматически управляет скоростью агрегата в технологической части и нагревом полосы в печи термохимического отжига. Производительность АНГЦ-4 только за первые три месяца увеличилась на 3,4%, а экономический эффект составил более 100 млн рублей. Разве не потрясающе!
Чем отличается DS в промышленности от DS в других сферах
Из инструментов у дата-сайентистов в ходу Python, математическая статистика, оптимизационные алгоритмы, классические методы машинного обучения и нейронные сети. Казалось бы, всё то же самое. Но у Data Science в промышленности есть особенности.
Во-первых, это особенности самих данных. Основной источник данных — сигналы с датчиков, установленных на производственных агрегатах. Для моделей, которые управляют агрегатами, данные идут непрерывно, и обрабатывать их необходимо также в режиме реального времени. Этих сигналов может быть огромное количество. Только с одной доменной печи собирается и обрабатывается свыше 10 000 сигналов в секунду.
Датчики периодически калибруются, но не всегда это происходит своевременно и достаточно часто, поэтому в периодах между калибровками измерения могут постепенно смещаться и становиться менее точными. Сигналы с датчиков часто бывают зашумлены. Прежде чем использовать такие данные для обучения модели, необходимо производить очистку и сглаживание сигналов.
Изучение принципа работы конкретного агрегата и осуществляемых им технологических процессов тоже помогает в работе с данными. Информацию о расположении датчиков на агрегате можно использовать для интерпретации наблюдаемых корреляций между сигналами, а также для расчёта лагов каждого датчика при агрегации всех сигналов в единый датасет.
Всё это помогает не только очистить и правильно предобработать данные, но и глубже погрузиться в нюансы производственного процесса. Эти знания позволяют придумывать киллер-фичи для будущей модели.
В качестве примера рассмотрим область предиктивных ремонтов. Часто возникают ситуации, когда исторические данные об отказах и неисправностях ограничены или даже отсутствуют, точное время не зафиксировано, не существует измеряемых показателей, которые могут указывать на возможные отказы. В таких случаях нужны специальные подходы, основанные во многом на экспертном понимании работы оборудования.
Во-вторых, в промышленности управляют агрегатами, каждый из которых отвечает за отдельный технологический процесс со своими особенностями и физическими закономерностями. Если вы не металлург, химик, нефтяник или машиностроитель, вы их не знаете, но погрузиться в них придётся. Здесь сложнее представить себя на месте пользователя и примерить на себя паттерны поведения. Нужно понимать, что КПД не может быть больше 100%, и не пытаться подогнать решение под ответ, перебирая разные DS-методы без понимания сути задачи.
Готовые решения задач встречаются редко: к каждому процессу и оборудованию нужно искать свой подход. Бывают случаи, где можно перенять чей-то опыт, но чаще всего приходится справляться самостоятельно — это особо нравится пытливым умам, склонным к исследованиям. Однообразных задач здесь нет. Наоборот, всегда что-то новенькое.
В-третьих, на большом производстве высока цена ошибки. Простой на агрегате обходится очень дорого. Может произойти эффект домино, когда простой на одном агрегате приводит к остановке агрегатов дальше по цепочке производства.
Например, когда происходит задержка выдачи сляба из печи, стан простаивает в ожидании сляба. В итоге это может привести к денежным потерям на миллионы рублей. Всё становится ещё серьёзнее, когда речь идёт о безопасности персонала. Поэтому любое Data-Science-решение тщательно перепроверяется и тестируется.
Какие плюсы и минусы есть у профессии
Да, дата-сайентист в промышленности сталкивается с большим количеством физики, ответственности и постоянных перепроверок. Однако материальные и нематериальные плюсы тоже имеются. Например, в условиях производства с его объёмами и масштабами даже небольшая для обывателя оптимизация в 1–3% может вылиться в солидный экономический эффект на миллионы рублей. Сэкономленные средства не передадут вам лично в руки, но это неплохое выражение и подтверждение эффективности приложенных усилий. А если есть доказанная эффективность, то будет конкурентная заработная плата и прочие материальные поощрения.
Михаил Деулин
Ведущий аналитик данных «Северсталь Диджитал»
Побывать в цеху, посмотреть на этот размах, на огромнейшие агрегаты размером со здание — есть в этом своя романтика. А ещё впечатлить бывалых коллег-металлургов. Когда люди работают десятки лет, у них есть опыт, своё понимание, как должны идти процессы, есть убеждённость, что так можно, а вот так нельзя. И потом вы с ними вместе разбираетесь, строите модели и расширяете эти границы: оказывается, и так тоже правильно и даже лучше! Иногда твоя работа выглядит магией, и это очень вдохновляет.
Елена Смольникова
Ведущий аналитик данных «Северсталь Диджитал»
Во-первых, ты можешь потрогать результат своей работы, ведь твои модели управляют реальными гигантскими машинами. И это действительно впечатляет. Во-вторых, интересно разбираться в работе этих машин, вникать в принципы. Но это одновременно и плюс, и минус: возможно, человеку без должной технической подготовки будет поначалу сложно погрузиться. Однако огромный плюс для меня — это разнообразие выполняемой работы: каждый раз новое оборудование, новое знакомство, новая проблема.
Но небольшая ложка дёгтя всё же нужна. Не все идеи по внедрению машинного обучения доходят до промышленной эксплуатации. И причин может быть несколько: недостаточно данных для построения модели, качество решения на имеющихся данных может не подходить заказчику, есть внешние факторы или действия персонала, которые влияют на качество модели. В компьютерном зрении это могут быть агрессивные условия внешней среды, неразличимость объектов и так далее.
Например, мы хотели сократить потребление мазута агрегатом в процессе сушки железорудного концентрата и построили модель на имеющихся данных. Режим работы агрегата носит сезонный характер и актуален только в холодное время года при высокой влажности — то есть каждый раз при подготовке к сезону сушка проходит настройку режимов и они могут, как выяснилось, не совпадать с предыдущими периодами. Таким образом, рекомендации нашей модели оказались нерелевантными для нового режима.
Кроме того, не всегда задача должна решаться именно с помощью машинного обучения. Иногда лучше использовать модели на основе простых правил или вовсе настроить дашборд. А где-то человек может справляться лучше машины, так как обладает более полной информацией о происходящем, которая не переведена в цифровой вид.
С какими навыками берут в индустриальные дата-сайентисты
База у дата-сайентиста едина для любой сферы: высшая математика и статистика, программирование на Python или R, технический английский, навыки работы с базами данных. Также требуются знания инструментов обработки и визуализации данных. В промышленности к этому списку добавляются основы физики и химии, так как производство сильно завязано на них.
Когда собиралась команда DS в нашей компании, в неё приходили экономисты, люди с инженерным бэкграундом, опытом в точных науках или разработке, но ни одного металлурга среди них не было. На самом деле этого никто и не ожидает: иначе нанять кого-либо было бы очень сложно, — пока это не самое популярное сочетание профессий. Сегодня переквалификация из смежных профессий — всё ещё популярный способ прийти в промышленную DS.
Сейчас обучиться DS можно несколькими способами.
Во-первых, классический университетский путь с факультетами прикладной математики и компьютерных наук. Программы в этой области как для студентов, получающих основное образование, так и для тех, кто проходит профессиональную переподготовку, предлагают Высшая школа экономики, МГУ, СПбГУ, МФТИ, РАНХиГС и другие крупнейшие вузы страны.
Во-вторых, онлайн-платформы, чьи платные программы рассчитаны на год или два, так как за два месяца овладеть профессией, тем более с нуля, не получится. Например, мы принимаем на стажировку выпускников Нетологии, — у них недавно открылась специализация «Data Science в промышленности». На курсе студенты знакомятся со всеми особенностями индустриальной «цифры», получают представление о типичных задачах и готовятся к работе в этой сфере.
Третий вариант — площадки, которые предоставляют доступ к бесплатным курсам от университетов, например Stepik. Однако бесплатные программы, как правило, короткие и поверхностные: знакомят с основами аналитики данных. Параллельно с обучением можно и нужно читать научные статьи на английском языке.
Как понять, что вы готовы стать дата-сайентистом в промышленности
Расскажу на нашем опыте найма. От джуна мы ожидаем знание Python и основ статистики и линейной алгебры, понимание классических алгоритмов машинного обучения, умение писать SQL-запросы, работать с системой командной разработки Git и запускать Jupyter Notebook — популярный инструмент для анализа данных и быстрого прототипирования. Важным преимуществом будет опыт работы с Linux или хотя бы отсутствие страха и предубеждений по отношению к этой ОС.
Мидлу потребуется всё то же самое плюс понимание, как работают Hadoop и Apache Spark, как происходит контейнеризация в Docker и оркестрация контейнеров в Kubernetes, как устанавливать причинно-следственные связи (causal inference) и решать задачи математической оптимизации.
Сеньору добавляем понимание deep learning и reinforcement learning, а также теорий автоматизированного управления и оптимального управления.
Это только hard skills. А ещё нужна усидчивость, готовность пробовать разные варианты решения задачи, умение работать в команде.
Хотя промышленность считается консервативной сферой, этаким большим заводом с проходной, Data Science в ней прижилась. Более того, потребность в кадрах для цифровизации промышленности только растёт.