bapxat 14 мар 2024 в 11:07

«Иногда твоя работа выглядит магией»: что делают дата-сайентисты в промышленности и почему так востребованы

10 мин

13K

Блог компании НетологияBig Data*Учебный процесс в ITКарьера в IT-индустрииData Engineering*

Data Science уже давно вышла за пределы ИТ-компаний, шагнула дальше банков и телекома и пришла в промышленность, в том числе тяжёлую. Как и любой бизнес, металлургия, нефтегаз, нефтехимия и машиностроение заинтересованы в повышении своей эффективности и прибыли, а также в снижении себестоимости производства продукции.

Традиционные подходы исчерпали свой потенциал за десятки лет постоянных оптимизаций и улучшений. Поэтому все обратили внимание на работу с данными, ведь они справедливо считаются новой нефтью, а их правильное использование даёт компаниям существенные преимущества. Обилие разнообразных задач со своей спецификой привело к появлению отдельного направления — Data Science (DS) в промышленности.

Светлана Потапова

Руководитель кластера «Искусственный интеллект» Северстали

Привет, Хабр! Меня зовут Светлана Потапова, я руковожу «Северсталь Диджитал» — подразделением ИТ-функции Северстали, которое занимается разработкой и внедрением решений на основе машинного обучения. Например, с помощью моделей машинного обучения мы уже ускоряем агрегаты на несколько тонн стали в час и научились детектировать и классифицировать дефекты на миллионах фотографий металлополосы. Системы компьютерного зрения следят за соблюдением технологического процесса, техники безопасности на площадках и помогают снижать выбросы вредных веществ на коксовых батареях.

В этой статье расскажу, зачем становиться дата-сайентистом в промышленности, кто это такой и чем занимается и почему повышать цифровизацию производства непросто, но того стоит.

Чем занимается дата-сайентист в промышленности

Дата-сайентист использует машинное обучение для поиска закономерностей в больших объёмах данных, на их основе разрабатывает математические модели и, самое главное, с их помощью решает задачи бизнеса. С работой алгоритмов искусственного интеллекта мы соприкасаемся каждый день: это рекомендации музыки и кино в стриминговых сервисах, прогноз пробок, различные чат-боты и подсказки подходящих товаров от маркетплейсов.

В промышленности свои задачи — сложнее и масштабнее, ведь с их помощью решаются проблемы непрерывного производства со сложной цепочкой процессов, спецификой и большим уровнем ответственности. С помощью алгоритмов машинного обучения можно найти скрытые резервы, в разы улучшить производственные показатели, изменить технологию производства, повлиять на качество выпускаемой продукции. Например, ускорить агрегат, чтобы производить больше травленого проката, увеличить производство бутадиена или создать рецептуру моторного масла.

Так выглядит непрерывно-травильный агрегат

В процессе создания и внедрения Data-Science-решения принимает участие не только дата-сайентист, а целая команда квалифицированных специалистов в своих областях.

Расскажу, как это устроено, на нашем примере. Задача обычно приходит непосредственно от производства через владельца продукта. Он формирует конечное видение решения, прорабатывает сценарий использования и внедрения решения в бизнес-процесс вместе с остальной командой. Ядро команды со стороны ИТ — дата-сайентист, руководитель проекта и архитектор. Дата-сайентист в нашем понимании совмещает функции аналитика данных и ML-инженера: анализирует имеющиеся данные, проверяет гипотезы и создаёт модель машинного обучения. Когда модель готова и получаемые метрики достаточны для решения поставленной задачи, мы идём во внедрение. Начинаем с этапа проектирования архитектуры: определяем, из каких сервисов будет состоять решение и какими будут логические связи между ними, проектируем интеграции с другими системами. Далее для непосредственной разработки привлекаются фронтенд- и бэкенд-разработчики, дата-инженеры, девопс-инженеры. В период промышленной эксплуатации решение передаётся технической поддержке.

А теперь как это выглядит на практике. Бизнесу нужно найти способ произвести больше оцинкованного проката без значительных дополнительных инвестиций. При этом важно сохранить качество продукции и соблюсти технологию. У владельца продукта есть гипотеза, что за счёт более оптимального управления режимами работы агрегата непрерывного горячего цинкования (АНГЦ-4) можно повысить его производительность.

Команда из руководителя проекта и аналитиков данных едет на производственную площадку, чтобы лично поговорить с операторами, технологами и изучить процесс горячего цинкования и особенности агрегата, а также понять текущий уровень автоматизации агрегата, ведь это определит режим работы будущей модели: советчик или непосредственно управляющая модель.

Так выглядит агрегат непрерывного горячего цинкования

Для старта работы дата-инженер делает выгрузку исторических данных, настраивает сбор данных в режиме реального времени, чтобы накопить их и потом использовать. С этого момента дата-сайентист приступает к исследованию данных (англ. exploratory data analysis, EDA): порой это целое расследование, которое даёт понимание, как данные взаимосвязаны, какие есть аномалии в процессе, какие факторы оказывают влияние и насколько существенное.

В рассматриваемом примере мы пришли к выводу, что для решения задачи нужен нестандартный подход: комплекс моделей на основе технологической экспертизы, физического моделирования, машинного обучения, а также современных подходов теории управления. Предложенный подход к достижению цели по увеличению производительности агрегата обсудили с бизнесом. После утверждения запустили разработку архитектуры и компонентов решения, произвели доработки на уровне АСУ ТП, чтобы туда поступали управляющие сигналы от моделей. Для отслеживания работы системы спроектировали и настроили мониторинг. Всё это время дата-сайентист непрерывно участвует в процессе для доведения решения до целевого состояния — когда оператор сможет управлять процессом в автоматическом режиме, созданном с помощью модели, максимально возможный процент времени.

В результате мы получили решение, которое автоматически управляет скоростью агрегата в технологической части и нагревом полосы в печи термохимического отжига. Производительность АНГЦ-4 только за первые три месяца увеличилась на 3,4%, а экономический эффект составил более 100 млн рублей. Разве не потрясающе!

Чем отличается DS в промышленности от DS в других сферах

Из инструментов у дата-сайентистов в ходу Python, математическая статистика, оптимизационные алгоритмы, классические методы машинного обучения и нейронные сети. Казалось бы, всё то же самое. Но у Data Science в промышленности есть особенности.

Во-первых, это особенности самих данных. Основной источник данных — сигналы с датчиков, установленных на производственных агрегатах. Для моделей, которые управляют агрегатами, данные идут непрерывно, и обрабатывать их необходимо также в режиме реального времени. Этих сигналов может быть огромное количество. Только с одной доменной печи собирается и обрабатывается свыше 10 000 сигналов в секунду.

Датчики периодически калибруются, но не всегда это происходит своевременно и достаточно часто, поэтому в периодах между калибровками измерения могут постепенно смещаться и становиться менее точными. Сигналы с датчиков часто бывают зашумлены. Прежде чем использовать такие данные для обучения модели, необходимо производить очистку и сглаживание сигналов.

Изучение принципа работы конкретного агрегата и осуществляемых им технологических процессов тоже помогает в работе с данными. Информацию о расположении датчиков на агрегате можно использовать для интерпретации наблюдаемых корреляций между сигналами, а также для расчёта лагов каждого датчика при агрегации всех сигналов в единый датасет.

Процессы в управлении главного энергетика тоже цифровизированы. Здесь команда «Северсталь Диджитал» внедрила модель машинного обучения для автоматического управления воздушными компрессорами

Всё это помогает не только очистить и правильно предобработать данные, но и глубже погрузиться в нюансы производственного процесса. Эти знания позволяют придумывать киллер-фичи для будущей модели.

В качестве примера рассмотрим область предиктивных ремонтов. Часто возникают ситуации, когда исторические данные об отказах и неисправностях ограничены или даже отсутствуют, точное время не зафиксировано, не существует измеряемых показателей, которые могут указывать на возможные отказы. В таких случаях нужны специальные подходы, основанные во многом на экспертном понимании работы оборудования.

Во-вторых, в промышленности управляют агрегатами, каждый из которых отвечает за отдельный технологический процесс со своими особенностями и физическими закономерностями. Если вы не металлург, химик, нефтяник или машиностроитель, вы их не знаете, но погрузиться в них придётся. Здесь сложнее представить себя на месте пользователя и примерить на себя паттерны поведения. Нужно понимать, что КПД не может быть больше 100%, и не пытаться подогнать решение под ответ, перебирая разные DS-методы без понимания сути задачи.

Готовые решения задач встречаются редко: к каждому процессу и оборудованию нужно искать свой подход. Бывают случаи, где можно перенять чей-то опыт, но чаще всего приходится справляться самостоятельно — это особо нравится пытливым умам, склонным к исследованиям. Однообразных задач здесь нет. Наоборот, всегда что-то новенькое.

В-третьих, на большом производстве высока цена ошибки. Простой на агрегате обходится очень дорого. Может произойти эффект домино, когда простой на одном агрегате приводит к остановке агрегатов дальше по цепочке производства.

Выдача сляба из нагревательной печи: паузы между выдачами рассчитывает комплекс моделей машинного обучения

Например, когда происходит задержка выдачи сляба из печи, стан простаивает в ожидании сляба. В итоге это может привести к денежным потерям на миллионы рублей. Всё становится ещё серьёзнее, когда речь идёт о безопасности персонала. Поэтому любое Data-Science-решение тщательно перепроверяется и тестируется.

Какие плюсы и минусы есть у профессии

Да, дата-сайентист в промышленности сталкивается с большим количеством физики, ответственности и постоянных перепроверок. Однако материальные и нематериальные плюсы тоже имеются. Например, в условиях производства с его объёмами и масштабами даже небольшая для обывателя оптимизация в 1–3% может вылиться в солидный экономический эффект на миллионы рублей. Сэкономленные средства не передадут вам лично в руки, но это неплохое выражение и подтверждение эффективности приложенных усилий. А если есть доказанная эффективность, то будет конкурентная заработная плата и прочие материальные поощрения.

Михаил Деулин

Ведущий аналитик данных «Северсталь Диджитал»

Побывать в цеху, посмотреть на этот размах, на огромнейшие агрегаты размером со здание — есть в этом своя романтика. А ещё впечатлить бывалых коллег-металлургов. Когда люди работают десятки лет, у них есть опыт, своё понимание, как должны идти процессы, есть убеждённость, что так можно, а вот так нельзя. И потом вы с ними вместе разбираетесь, строите модели и расширяете эти границы: оказывается, и так тоже правильно и даже лучше! Иногда твоя работа выглядит магией, и это очень вдохновляет.

Елена Смольникова

Ведущий аналитик данных «Северсталь Диджитал»

Во-первых, ты можешь потрогать результат своей работы, ведь твои модели управляют реальными гигантскими машинами. И это действительно впечатляет. Во-вторых, интересно разбираться в работе этих машин, вникать в принципы. Но это одновременно и плюс, и минус: возможно, человеку без должной технической подготовки будет поначалу сложно погрузиться. Однако огромный плюс для меня — это разнообразие выполняемой работы: каждый раз новое оборудование, новое знакомство, новая проблема.

Но небольшая ложка дёгтя всё же нужна. Не все идеи по внедрению машинного обучения доходят до промышленной эксплуатации. И причин может быть несколько: недостаточно данных для построения модели, качество решения на имеющихся данных может не подходить заказчику, есть внешние факторы или действия персонала, которые влияют на качество модели. В компьютерном зрении это могут быть агрессивные условия внешней среды, неразличимость объектов и так далее.

Например, мы хотели сократить потребление мазута агрегатом в процессе сушки железорудного концентрата и построили модель на имеющихся данных. Режим работы агрегата носит сезонный характер и актуален только в холодное время года при высокой влажности — то есть каждый раз при подготовке к сезону сушка проходит настройку режимов и они могут, как выяснилось, не совпадать с предыдущими периодами. Таким образом, рекомендации нашей модели оказались нерелевантными для нового режима.

Кроме того, не всегда задача должна решаться именно с помощью машинного обучения. Иногда лучше использовать модели на основе простых правил или вовсе настроить дашборд. А где-то человек может справляться лучше машины, так как обладает более полной информацией о происходящем, которая не переведена в цифровой вид.

С какими навыками берут в индустриальные дата-сайентисты

База у дата-сайентиста едина для любой сферы: высшая математика и статистика, программирование на Python или R, технический английский, навыки работы с базами данных. Также требуются знания инструментов обработки и визуализации данных. В промышленности к этому списку добавляются основы физики и химии, так как производство сильно завязано на них.

Когда собиралась команда DS в нашей компании, в неё приходили экономисты, люди с инженерным бэкграундом, опытом в точных науках или разработке, но ни одного металлурга среди них не было. На самом деле этого никто и не ожидает: иначе нанять кого-либо было бы очень сложно, — пока это не самое популярное сочетание профессий. Сегодня переквалификация из смежных профессий — всё ещё популярный способ прийти в промышленную DS.

Оператор цеха выплавки и внепечной обработки электростали наблюдает за технологическим процессом ведения плавки

Сейчас обучиться DS можно несколькими способами.

Во-первых, классический университетский путь с факультетами прикладной математики и компьютерных наук. Программы в этой области как для студентов, получающих основное образование, так и для тех, кто проходит профессиональную переподготовку, предлагают Высшая школа экономики, МГУ, СПбГУ, МФТИ, РАНХиГС и другие крупнейшие вузы страны.

Во-вторых, онлайн-платформы, чьи платные программы рассчитаны на год или два, так как за два месяца овладеть профессией, тем более с нуля, не получится. Например, мы принимаем на стажировку выпускников Нетологии, — у них недавно открылась специализация «Data Science в промышленности». На курсе студенты знакомятся со всеми особенностями индустриальной «цифры», получают представление о типичных задачах и готовятся к работе в этой сфере.

Третий вариант — площадки, которые предоставляют доступ к бесплатным курсам от университетов, например Stepik. Однако бесплатные программы, как правило, короткие и поверхностные: знакомят с основами аналитики данных. Параллельно с обучением можно и нужно читать научные статьи на английском языке.

Как понять, что вы готовы стать дата-сайентистом в промышленности

Расскажу на нашем опыте найма. От джуна мы ожидаем знание Python и основ статистики и линейной алгебры, понимание классических алгоритмов машинного обучения, умение писать SQL-запросы, работать с системой командной разработки Git и запускать Jupyter Notebook — популярный инструмент для анализа данных и быстрого прототипирования. Важным преимуществом будет опыт работы с Linux или хотя бы отсутствие страха и предубеждений по отношению к этой ОС.

Мидлу потребуется всё то же самое плюс понимание, как работают Hadoop и Apache Spark, как происходит контейнеризация в Docker и оркестрация контейнеров в Kubernetes, как устанавливать причинно-следственные связи (causal inference) и решать задачи математической оптимизации.

Сеньору добавляем понимание deep learning и reinforcement learning, а также теорий автоматизированного управления и оптимального управления.

Это только hard skills. А ещё нужна усидчивость, готовность пробовать разные варианты решения задачи, умение работать в команде.

Хотя промышленность считается консервативной сферой, этаким большим заводом с проходной, Data Science в ней прижилась. Более того, потребность в кадрах для цифровизации промышленности только растёт.

Хабы: