Не трогай наш реактор. Мы тут 100 лет без вашей математики работали / Хабр

«Есть у вас инструмент, чтоб у нас реактор меньше обрастал? Можете что-нибудь придумать, чтоб нам его пореже останавливать?»

Примерно так звучал запрос от технологов производства полиэтилена на ЗапСибНефтехиме. Звучит просто, а за этим стояла проблема, которую не могли решить несколько лет. Реакторы приходилось останавливать на чистку каждые 3-5 месяца. Внутри полукилометровых труб нарастал слой полимера, до нескольких см, пока теплообмен не ухудшался настолько, что приходилось останавливаться для проведения чистки. Каждая остановка означала, что будем сливать 300 тонн растворителя с продуктом, бригады подрядчиков с механическим и гидро- инструментом и дни простоя. Каждый день простоя — это незаработанные миллионы рублей.

При этом мы слышали и знали о лучших мировых практиках, где такие же реакторы работали без остановки порядка года. То есть решение существует.

Меня зовут Илья Чебарев, я инженер химик-технолог с ~~большой~~ примесью экономиста. В СИБУРе я руководил проектом по внедрению мультивариантного анализа. Это набор математических методов, который помог нам разобраться, что на самом деле влияет на обрастание реакторов. Расскажу, как мы собрали команду, нашли инструмент и прошли путь от перебора 70 параметров до конкретных рекомендаций как реже останавливать реактор, снизить затраты на остановку с чисткой и заработать на дополнительных тоннах, которые можно получить при увеличении длительности работы.

Как мы собирали команду

Начну не с реакторов, а с людей. Без правильной команды ничего бы не получилось.

Нам нужны были люди, которые одновременно понимают технологию и не боятся математики. Звучит просто, а на практике такие встречаются редко. Есть такая штука: у многих людей сохраняется детская травма от математики или химии. Кто-то в школе не подружился с формулами, и эта боязнь проходит через всю жизнь. Произносишь «сокращение размерности данных», и человек уже закрывается.

Мы исходили из того, что технологу проще объяснить математику, чем математику объяснить химию. Технолог уже понимает, как устроен реактор, почему давление связано с температурой и что значит «обросла четвёртая петля». Ему нужно освоить инструмент. А математику пришлось бы с нуля объяснять всю эту физику, химию, машины и механизмы.

Поэтому более 80% команды составили технологи. Набирали из нефтехимии, нефтепереработки, кто-то пришёл из научной сферы. Математики тоже приходили и встраивались в процесс, если не боялись технологии. Главное условие: человек должен уметь найти общий язык с технологом на заводе. Потому что именно технолог потом скажет, имеют ли полученные выводы смысл в реальной жизни.

Потом мы поняли, что слишком замкнулись в своей отрасли. Метод, который мы использовали, называется сокращение размерности данных, и он давно и активно применяется в фармакологии, в медицинских исследованиях. Там решают похожие задачи: как из огромного набора переменных выделить те, что действительно влияют на результат. Как отличить ложноположительные результаты от настоящих. Как добиться оптимума. Мы могли бы искать людей и оттуда.

Что внутри петлевого реактора

Теперь о том, с чем мы работали. На ЗапСибНефтехиме в Тобольске есть производство суспензионного полиэтилена высокой плотности. Основа производства — петлевые реакторы.

Представьте: трубы диаметром 70 сантиметров, высота каждой петли 70 метров. В каждом реакторе по 2 секции, каждая секция – это 2 витка. Суммарная протяжённость — больше полукилометра труб. И все они заполнены растворителем, в котором непрерывно идёт реакция.

Сама реакция полимеризации, если смотреть глазами чистого химика, довольно простая. Берёшь этилен, добавляешь катализатор, температуру, давление и получаешь полиэтилен:

n CH₂=CH₂ → [—CH₂—CH₂—]ₙ

Молекулы этилена соединяются в длинные цепи. Но это когда ты чистый химик и пишешь формулу на доске. А технологический процесс — это совокупность химии, оборудования и аппаратов. Автоматика, которая открывает и закрывает клапаны, поддерживает давление и температуру. Две петли, между ними промежуточные ёмкости, промывки. Обвязка оборудования на выходе, где нужно выгрузить растворитель с порошком, отсеять порошок, растворитель вернуть обратно. Всё это тоже влияет на обрастание. Даже вибрация от насосов даёт дополнительный импульс к налипанию.

Общий объём системы: порядка 300 кубометров. Процесс непрерывный, 24/7. Остановить линию — долго и дорого.

Почему на стенках нарастает полимер и почему это сложная задача

Обрастание — это физика. В процессе полимеризации часть продукта неизбежно налипает на стенки труб. Полностью избежать этого, скорее всего, невозможно. Но можно ограничить.

Проблема в том, что на процесс влияет огромное количество факторов. Температура, давление, количество катализатора и мономера, сомономера, скорость циркуляции — и это только начало. Две петли, промежуточные ёмкости, промывки, всё оборудование обвязки. Суммарно мы насчитали порядка 70 технологических параметров, каждый из которых в той или иной степени влияет на обрастание.

И вот здесь начинается главная проблема. Эти 70 параметров связаны между собой. Температура связана с давлением. Скорость циркуляции влияет на теплоотвод, который влияет на температуру, которая влияет на активность катализатора. Изменил один параметр — и пять других поменялись. Это называется мультиколлинеарность данных: параметры коррелируют друг с другом, и выделить, какой из них на самом деле влияет на обрастание, а какой просто попал в корреляцию, классическими методами почти невозможно.

До нас эту задачу пытались решить базовым статистическим анализом. В Minitab строили простые линейные регрессии, смотрели зависимости. Но линейная регрессия не работает с коррелирующими переменными. Для неё это фундаментальное ограничение. Приходилось исключать большую часть параметров из модели, и результат получался неполным. Привлекали зарубежных экспертов: это помогало, но не системно.

А потом мы услышали, что на мировых бенчмарках, где реакторы работали без остановки по году, применяли продвинутый статистический анализ. Так мы пришли к мультивариантному методу (MVA).

При сильной корреляции параметров Minitab может приписать эффект не тому параметру. Например, показать, что рост температуры снижает обрастание, хотя на самом деле влияла скорость циркуляции. MVA преобразует связанные параметры в независимые компоненты.

Модель, которой всё равно, что внутри реактора

Тут надо сразу объяснить важную вещь, потому что она ломает интуицию. Мультивариантный анализ — это не физико-химическая модель. Это чистая математика. Модели всё равно, что перед ней: полимеризация этилена, дегидрирование пропана или клинические испытания лекарства. Она не знает, что такое катализатор, не понимает, почему давление связано с температурой.

Модель работает так: мы задаём целевой параметр (в нашем случае скорость обрастания) и загружаем набор данных по 70 параметрам. Модель ищет математические зависимости между входными данными и целью. Какие параметры сильнее всего влияют на обрастание? Как они взаимодействуют? В каких диапазонах нужно их держать?

Именно поэтому при работе с такой моделью критически важно правильно задать границы данных. Модель не знает физики. Она не понимает, что при определённой температуре катализатор просто перестанет работать, или что давление и температура связаны уравнением состояния газа. Если загрузить данные без осмысленных ограничений, модель может выдать рекомендации, которые физически недостижимы. Например, одновременно высокое давление и низкую температуру в сочетании, которое в реальном реакторе просто невозможно получить.

Поэтому работа всегда начинается с определения периметра: вместе с технологами и экспертами мы решаем, какие параметры включаем, в каких диапазонах они реально существуют и что является целевым показателем.

В основе инструмента лежит метод главных компонент, изобретённый более 100 лет назад. Просто с развитием вычислительных мощностей и численных алгоритмов стало гораздо проще считать. Хороший математик может провести весь этот анализ на бумаге. Но мы 70-мерное пространство на бумаге даже нарисовать не сможем. А в ПО по картинкам на экране видим результат.

Мы работали в Aspen ProMV. Это специализированное ПО для статистического анализа больших массивов данных. Оно позволяет строить модели без знания языков программирования: загружаешь данные, строишь модель, смотришь визуализацию. В нём реализованы два метода: PCA (анализ главных компонент) и PLS (проекция на латентную структуру, он же частичная регрессия наименьших квадратов).

Как мы «нарезали» 70-мерное пространство

Теперь к самому анализу. У нас 70 параметров. Каждый — отдельное измерение. Получается 70-мерное пространство. Представить его невозможно: всё, что больше четырёх измерений, когнитивно недостижимо.

Метод главных компонент «нарезает» это пространство на плоскости, на двумерные срезы, которые можно увидеть на экране. Это не моменты времени, не этапы процесса, а математическая операция. Как если бы вы резали сложный объект под разными углами и изучали каждый срез отдельно.

Яблоко — это наши данные: снаружи все 4376 состояний системы выглядят однородно, и непонятно, где прячутся режимы, ведущие к обрастанию. Стоит сделать срез — и внутри видны кластеры: вот «чистые» периоды работы, а вот «грязные». У нас вместо трёх осей 70, вместо одного среза понадобилось семь.

Первый срез строится по максимальному рассеиванию данных, чтобы захватить как можно больше информации. Второй — по максимуму оставшегося разброса, без учёта первого. Третий — без учёта первого и второго. Логика всегда одна: каждый следующий срез описывает максимум того, что не описали предыдущие.

Каждая точка — это один шестичасовой интервал работы реактора. Слева все 4376 точек перемешаны в облако, групп не видно. Справа, после проекции, появляется структура: основная масса и отдельный кластер в правом верхнем углу. Технолог сразу спрашивает: «Что происходило в те дни, когда точки ушли наверх?»

В каждом срезе видны свои ключевые параметры, те, что вносят наибольший вклад. Один срез показывает, что максимальное влияние оказывают температура и скорость циркуляции. Другой — что количество катализатора и давление. Параметры где-то пересекаются между срезами, и из этого пересечения складывается общая картина.

Около 7-8 срезов достаточно, чтобы описать более 80% всех данных. Дальше работает правило «локтя»: есть критическая точка, после которой увеличение количества срезов уже не улучшает картину. В каждом из семи срезов обнаруживаются 2-3 ключевые точки. Они где-то пересекаются, где-то нет. В итоге из 70 параметров мы выделяем 10-12, которые максимально влияют на обрастание.

Откуда брали данные и почему шестичасовые интервалы

Данные мы тянули из заводской MES-системы. Она непрерывно записывает все производственные параметры и хранит их за много лет. То есть сводить данные из разных систем нам не пришлось. На ЗапСибНефтехиме выгрузка работает особенно удобно, на других предприятиях бывают ограничения: можно выгрузить данные только за месяц или за две недели, и тогда приходится подавать несколько запросов. Но в целом процесс автоматический.

Ключевой вопрос: дискретность данных. С какой частотой усреднять? Мы начинали с двухчасовых выгрузок. Смотрим — никаких явных изменений не видно. Увеличиваем шаг, снова смотрим. И так до тех пор, пока не начинаем различать реальные закономерности.

Остановились на 6 часах. Почему именно столько? Потому что система очень инерционная. 300 кубометров растворителя, полкилометра труб. Всё это варится, крутится, циркулирует. Если изменить какой-то параметр на входе, эффект на систему в целом проявится примерно через 6 часов. Если брать данные чаще, просто не увидим изменений.

Для других задач дискретность другая. На компактных установках, которые быстро реагируют на возмущения, мы использовали получасовые интервалы. Всё зависит от того, с какой скоростью система откликается.

В итоге датасет по пилотному кейсу: 77 технологических параметров, 547 дней работы, 2 технологические линии. Порядка 4376 состояний системы. Не самый большой датасет, но для этого метода достаточный.

Как мы нашли профессора из Томска

У нас была команда технологов, которые понимали процесс. Был инструмент, Aspen ProMV. Но между «нажать кнопку в программе» и «понять, что ты видишь на экране» лежала пропасть. Нам нужно было разобраться в математике.

В рамках пилотного проекта мы запланировали средства на обучение и нашли профессора из Томска, который специализировался на методах сокращения размерности. Он читал нам начальный курс: какие есть основные математические методы помимо тех двух, что реализованы в ПО, как устроены PCA и PLS, как интерпретировать результаты.

Однажды он подключился к лекции удалённо и извинился: «Простите, я сегодня во Владивостоке. У меня здесь курс лекций на конференции медиков, рассказываю им про сокращение размерности данных для практических исследований». И тут мы поняли: тот же мат-аппарат, те же методы, а задачи совсем другие. Медики, фармакологи, биологи — все работают с тем же инструментом.

Мы-то думали, что у нас какая-то уникальная нефтехимическая история. А оказалось, математика универсальна.

Мы просто слишком замкнулись в своей отрасли.

Поняв, что базовая математика, в общем-то, понятная и не такая страшная, мы пошли дальше. Разработали два собственных курса: вводный и базовый. Вводный объясняет, что такое MVA и зачем он нужен. Его прошли более 270 инженеров-технологов. Базовый учит самостоятельно строить модели. Его прошли более 50 человек. Изначально мы хотели, чтобы технологи на заводах сами проводили аналитику. Но, честно говоря, переоценили возможности. И их, и свои. Выделенная экспертиза работает лучше, чем попытка обучить всех всему. Сейчас курсы нужны для другого: чтобы нам было проще разговаривать с технологами, и чтобы они понимали, что мы им показываем.

Как мы обсуждали результаты с заводом

Когда модель выдаёт результат, начинается самое интересное: разговор с технологами. Они химики-технологи по образованию, но понимают всю взаимосвязь: что на что влияет в реальной системе химия, оборудование, аппараты, автоматика.

Процесс выглядел так: мы приносим первичные результаты. Вот параметры, которые модель считает ключевыми. Вот их вклад в обрастание. Технолог смотрит и говорит: «Логично». Или: «Нет, этот параметр сюда попал случайно, уберите, он засоряет модельку».

А иногда модель выдавала рекомендации по оптимальным диапазонам параметров, а технолог говорил: «Подождите, катализатор при такой температуре работать не будет». Или: «Вы предлагаете одновременно вот такое давление и вот такую скорость, но это физически недостижимая совокупность». Модель не знает физику, не понимает, что два параметра связаны уравнением. Она работает только с тем, что видела в данных. Поэтому экспертная проверка — не формальность, а обязательный этап.

Заинтересованный заказчик — это 50% успеха. Если у технолога есть боль, частые остановки, незаработанные деньги, он не скажет: «Что за ерунду ты мне принёс, не трать моё время». Он скажет: «Давай выделим время, посмотрим, что получилось. Есть логика — уходим глубже».

Что получилось

Четыре месяца от первой выгрузки данных до работающих рекомендаций. Альтернатива — заказать сложную ML-модель у дата-аналитиков, но это 10-12 месяцев и требует знания языков программирования. MVA закрывает промежуток между простой статистикой и тяжёлым машинным обучением.

По пилотному кейсу на ПЭВП мы создали более 120 моделей в процессе работы. 120 — не потому что первые 119 были неправильные. Это разные модели для разных условий, разных режимов, разных периодов. Из них выработали 5 индивидуальных стратегий и собрали 24 отдельных модели для проведения опытных пробегов.

В итоге из 77 параметров выделили 14, которые нужно контролировать и держать в расчетных оптимальных границах.. Запустили опытный пробег: 45 дней непрерывной работы без остановки на чистку. Это было начало.

Экономический эффект пилотного кейса составил 103 миллиона рублей. За счет вовлечения наших коллег с производства удалось обеспечить регулярное применение расчетных рекомендаций и увеличить пробег установки между чистками сначала до 6 месяцев, а потом и свыше года. Суммарный эффект за 2022-2023 годы на производстве суспензионного полиэтилена более 500 миллионов за счет снижения ремонтных затрат и прибыли от дополнительных тонн продукции.

Успех пилотного кейса позволил тиражировать инструмент на четыре ключевых предприятия: ЗапСибНефтехим, КазаньОргСинтез, Нижнекамскнефтехим и Томскнефтехим.

При этом мы решили более 60 технологических кейсов, и не только по обрастанию - снижение потерь со сдувками на производстве полиэтилена, оптимизация расхода катализатора на полипропилене, увеличение пробега реакторов дегидрирования, снижение давления в конденсаторах пиролиза.

На каждом заводе свои установки, своё сырьё и свои особенности обрастания. Поэтому одну модель нельзя перенести с завода на завод: датасет приходится собирать заново, но метод остаётся тем же.

Потенциал при тиражировании на остальные предприятия СИБУРа — более 2 миллиардов рублей.

Что дальше

Проект развивается в новых условиях, может и не самых для нас приятных. Мы успешно работали на зарубежном ПО Aspen ProMV, но срок лицензий подходит к концу, и продлить их сейчас невозможно.

За 2,5 года мы накопили глубокую экспертизу: понимаем ключевые функции, интерфейс, задачи, которые инструмент решает (и которые нет). На рынке РФ аналогов такого ПО пока нет. Поэтому мы передали нашу экспертизу отечественному партнёру-разработчику — одной из компаний, которая взяла на себя инициативу по созданию решения.

Они уже работают над проектом бесплатно для нас: мы не вкладываем средства в разработку. Выстроили регулярное взаимодействие — сверяем ключевые этапы, берём на себя вопросы пользовательского опыта. Программисты воспроизводят возможности зарубежного аналога, а мы как эксперты-пользователи уточняем нужные результаты.

Задача — к концу года получить прототип для тестирования. Ведь на других предприятиях есть похожие производства с похожей проблематикой. И мы уже знаем, при помощи какого инструмента её можно решить.

Подписывайтесь на наш тг-канал. Он полезен айтишникам, которые хотят понять, что реально происходит в промышленном ИТ.

Там мы рассказываем о цифровых технологиях для производства — от IIoT и аналитики до инженерных инструментов и ИИ. Делимся кейсами, экспериментами, новостями и выкладываем вакансии.

Не трогай наш реактор. Мы тут 100 лет без вашей математики работали