Comments 28
А какие были данные? Что мониторили?
В дополнение к вопросу выше - использовались ли мат.модели добывающих скважин для генерации дополнительных данных? Как решали проблему с разной дискретизацией измерений? Или в исходных данных подобной проблемы не было? Динамика обводненности нефти и общего объема жидкости учитывалась?
Основой являются: токи, напряжения, вибрации и темпы отбора жидкости - это ключевые параметры.
Дискретизация есть, но мы не нашли универсального способа. Каждый параметр подгонялся, благо они относительно однообразны.
Пластовое давление и прочие показатели по гидродинамике - не измеряются на объекте? Или их использование не рассматривалось?
В СССР мониторил энергопотребление. Если начинает расти, то мотор на выброс.
А сейчас в моторах есть микрофоны и если на частоте вращения вала, подшипника, шарика подшипника и т.п. начинает расти энергия вибраций - значит началось разрушение. И растет почти линейно до поломки.
Я так понимаю, предсказание отказов строится на предположении, что существуют какие-то предвестники, или точно известно, что при определенных режимах работы неизбежно случится отказ в течение известного времени
Чтобы правильно отобрать регрессоры (предвестники отказов) нужно провести обучение модели с проверкой, т.е. часть выборки использовать для обучения, часть для проверки, причем разбивку выборки на обучающую и проверочную следует делать случайным образом, но сохраняя статистические атрибуты
Когда-то я занимался именно получением устойчивых регрессионных моделей, путем перебора всех возможных вариантов, максимизируя коэфф. корреляции на обучающей и проверочной выборке, и точно могу сказать, что некоторые переменные хоть и повышают R2 при обучении, но на проверке оказываются, что получены случайные взаимосвязи, не подтверждающиеся на проверочной выборке
Я как-то решал похожую задачу, но с гидравлическим насосом:
Основным параметром, с помощью которого можно было спрогнозировать выход из строя насоса была величина расхода в линии дренажа (утечка) из корпуса. И еще температура масла там же.
Остальное - это только косвенные параметры, по которым модель не особо информативная получалась.
Сырые данные пришлось переснимать самим, все что предоставила эксплуатация было неверным - что-то сняли неправильно, где-то хотели скрыть свои ошибки, иногда просто предоставляли сэмулированные данные "на отшибись"
Но столкнулись в итоге с главной проблемой - 80% неисправностей происходило по вине неквалифицированных действий обслуживающего персонала, а их спрогнозировать невозможно
А что за компания?
А может надо посмотреть на физику процесса, а не на численные данные каких-то параметров?
Вы удивитесь но проблема не в физике, а том, что данные не корректны. И не всегда, то что работает по логике работает в жизни. Пример. Инженеры говорят, чем чаще происходят остановки тем выше вероятность отказа. Мы собираем модель, в частном случае этот да работает, но скажем когда мы пытаемся перенести опыт на 1000 единиц, это перестаёт работать и более того, это становится негативным фактором для прогноза.
Лет 20 назад довелось участвовать в «автоматизации» управления погружными насосами. После того, как был сделан и внедрен проект, при первой же попытке выключить-включить насос он вышел из строя. Пришел главный механик объекта (хз, где он был раньше) и сказал: мы эти насосы никогда не выключаем, они ломаются при пуске, с чего вы вообще решили что ими можно управлять?)
Предполагаю что механику можно было ответить так "человеку приятно чувствовать, что он чем-то да управляет, машиной или людьми".
А вообще, перед внедрением того проекта, проводили общие проверки насосов на предмет "оно живое"?
Для погружения нужны специальные люди, а тут видимо просто "надо автоматизировать спрогнозировать".
Думаю дать пару советов/идей автору(ам), быть может они им помогут, или советы будут бесполезны.
В любом случае фидбек будет желателен.
Что и нашло подтверждение вашим доводам в авторском тексте -- "... Нам изначально выдали неполный и некорректный набор данных".
Коллеги! Изначально пишите не о результатах экспериментов, подтверждаемые ваши гипотезы, а, реальный десятилетний опыт в формировании аналогичных данных)
И, вот тогда, не будут ляпы в вашей красоте!
Вот, из сегодняшней жизни сырых актуальных данных по заявленной тематике:
См. первый абзац данного комментария)
УПП или частотный преобразователь заметно снижают пусковые моменты и токи...20 лет прошло не зря
В статье, насколько я понимаю, речь идет о нефтяных скважинах.
Сейчас 78% отказов в последние сутки, в потенциале 85%.
Текущие модели не выполняют заказ бизнеса, они работают только в последний день,требуемые сроки: 7 или 14 дней.
Мы уже понимали, что существует несколько кардинально различных режимов работы оборудования, и что надо подстраивать модели под эти режимы.
Почему сразу не были разделены модели на режимы работы?
Основой являются: токи, напряжения, вибрации и темпы отбора жидкости - это ключевые параметры.
В моделях импользовались:
входные параметры: напряжения и токи.
выходные параметры: вибрации и темпы отбора жидкости.
Что я предлагаю:
Уточнить:
ресурсоемкость оборудования в целом:
заявленную от производителя,
реальную,
вероятность заводского брака,
влияние каждого режима работы на ресурсоемкость.ресурсоемкость деталей оборудования: у какой детали(деталей) минимальная из всех, а у какой -- максимальная.
Добавить:
для ближайшего отказа оборудования брать срок детали с минимальной ресурсоемкостью.
в модели -- изменение предпологаемого срока выхода оборудования из строя после ремонта.
зависимость отказа оборудования от ремонта конкретной детали(деталей).
Ремонт может быть разным, заменили что-то или просто разобрали и собрали, а другие компоненты так и остались старыми, через какое-то время они тоже выйдут из строя.
периодичность замены комплектующих в модели выхода оборудования из строя, вместе с корректировкой состояния после ремонта.
помехи.
внешние и/или внутренние.внешние:
климатических условия,характеристики скважины,наличие фильтров для жидкости перед оборудованием,химические и физические свойства жидкости.внутренние:
брак комплектующих (микротрещины, дефекты выплавки детали),состояние смазывающих жидкостей,плотность соединения деталей,при отсутствии фильтров — попадание инородных объектов (камней, сгустков).
Вообще перед созданием моделей данных нужно было проанализировать задачу, все объекты интереса и уже после данные давать машине на обучение.
В IT есть специалисты, которые занимаются анализом данных, тем более сама формулировка задачи звучит как обычный тервер, а не набор похожих данных, на основе которых создается/подгоняется новое.
А теперь, Внимание, время сарказма:
Нам выдали данные за 2019 год (и это была первая ошибка, которая очень замедлила исследования).
Я так понимаю что через год поменялась гравитация, и жидкость нужно было притягивать искусственно.
Первым делом мы решили обратиться к мировому опыту и стали искать, делал ли уже кто-то что-то подобное. Оказалось, что делали, но информации, как именно делали нет, в некоторых статьях описывались провалы. Стало понятно, что придется изобретать собственный велосипед. Но мы верили в успех :-) и после непродолжительного изучения вопроса, согласились попробовать создать такую модель данных.
Такое ощущение что вы взялись за ту сферу, в которой ранее никто из вас не работал вообще.
Я надеюсь что мои идеи/советы/замечания помогут вам, и фидбек будет желателен(если меня заметят вообще 0_0)
Режимы начали выделать, когда в этом оказался смысл... Если у вас модель условно прогнозирует 5%, то создание еще одной модели под какой то специфический момент вам не поможет, мы на ранних этапах мы просто отбрасывали данные.
То что вы описываете, я так понимаю вы хотите узнать наработку на отказ, это можно сделать проще, такие эксперименты мы делали. Но она все рано будет плюс минус километр, дело в том, что вы не может сказать в оптимальном ли режиме работает оборудование в данной конкретной точке установки и данный момент времени (это весьма динамичная характеристика). Если эти данные есть, то можно достаточно точно наработку на отказ прогнозировать при условии, что у вас есть достаточно данных на это оборудование. Но опять же, я хочу заметить, отказ в нашем случае - это не наработка на отказ. Причин отказов гораздо больше.
Я так понимаю что через год поменялась гравитация, и жидкость нужно было притягивать искусственно.
На самом деле все очень печально с этой точки зрения, мы когда начали более глубоко по годам раскладывать данные выяснилось, что кое где напряжения вообще указаны как 220в, а этого впринципе не может быть.
Такое ощущение что вы взялись за ту сферу, в которой ранее никто из вас не работал вообще.
Вы удивитесь, но часто лучше спросить или ознакомится с опытом других людей, прежде чем делать, что-то свое.
Ребята, никогда не доверяйте данным, полученным от нефтяников. Тем более за прошлые годы. Только если не лично вы сняли их со станции управления. Это я вам как нефтяник говорю.
не увидел какие данные собирали...
Одна модель на все скважины? Как выделяли отдельные скважины? Состав флюида, его, анализ, глубина спуска ВСО, НКТ?
78 процентов — это true positive, а какой показатель false positive? При валилации от какой метрики отталкивались?
Работа интересная. Ещё бы рекомендательную систему прикрутить в помощь эксплуатации.
С false positive тут сложный вопрос. Дело в том, что их действительно достаточно много, но при изучении результатов и наложения данных об других остановках, и плановых работах в целом ложно-положительных срабатываний становится не много. Сейчас прорабатываем систему сглаживаний пиков и в целом при снижении true positive 5-7%, то false positive, которые не поддавались объяснению сводятся к единичным случаям.
Классификация отказов это следующий этап нашей работы.
Моделей работающих несколько. К сожалению я не могу рассказать всех подробностей технических и как многие вещи делали.
"улучшили качество прогноза, подняли его до 78% реальных отказов"
А за метрика у вас?
Просто я с ходу могу предсказать 100% отказов - только false positive будет ни к черту, но зато 100%.))))
Машинное обучение и прогнозирование отказа оборудования