Как стать автором
Обновить

Предсказания от математиков. Разбираем основные методы обнаружения аномалий

Время на прочтение15 мин
Количество просмотров26K
Всего голосов 81: ↑78 и ↓3+75
Комментарии22

Комментарии 22

Я бы постеснялся выкладывать такой неаккуратный код, если честно.
спасибо за комментарий! тем не менее, это лишь код для примера, а не для активной задачи.
Честно говоря хотелось бы, что бы было какое-то терминологическое разделение между строго математическими методами машинного обучения, которые работают по алгоритму и поэтому их работа поддаётся объяснению и нейронными сетями, которые по сути есть чёрный ящик.
На мой взгляд сейчас такое разделение в мире ИИ в целом отсутствует. Нейронные сети не являются абсолютно черным ящиком. Тем более простые варианты, про которые идет речь в тексте. Их поведение можно по-разному анализировать: смотреть на значения на промежуточных слоях, на веса, на поведение при отключении входов и т.п. А изоляционный лес, который не нейронная сеть, тоже в определенном смысле черный ящик :)
Я просто припоминаю (слышал про это на банковской конференции) что в Евросоюзе есть какой-то закон, который запрещает принимать решение, например о выдаче/не выдаче кредита, без возможности обосновать его и поэтому нейронные сети (и вероятно некоторые другие методы) в таких случаях не очень подходят, а значит кто-то должен был провести границу.
Согласен, когда речь идет о случаях связанных с юридическими вопросами, медициной и т.п. — прозрачная интерпретируемость важна, но только если решение принимается алгоритмом самостоятельно. Если же решение является рекомендацией, требует подтверждение и т.п., то достаточно и той аргументации, которую можно извлечь из любого метода. Как правило в предиктивном обслуживании все равно требуется присутствие соответствующего специалиста в конце пайплайна. Но одно дело время затрачиваемое на реакцию на алерт, и время, которое бы он тратил самостоятельно просматривая простыни показаний датчиков.
Это очень философский вопрос, что значит обосновать. К примеру, дерево решений выдает правило вроде «если возраст больше 25.32 лет и есть работа с зарплатой больше 29,432 рублей то выдать кредит». Нейронная сеть же выдает правило вроде «если значение логистической функции от суммы возраста умноженного на 1.45 и зарплаты умноженной на 0.67 больше 0.5 то выдать кредит». И тут очень сложно обозначить грань между обосновынным условием и необоснованным.
Наверное, хотя первый вариант значитель более понятен для человека.
Но намного легче человеку принять, что ему не дали кредит, потому что это результат перемножения и суммирования, а не по правилу «количество детей >=3» ;)
Нейросети это один из инструментов МО. Какое может быть терминологическое разделение? Они не чёрный ящик, просто у них очень много параметров, потому их сложнее анализировать.

Обратите внимание на статью https://habr.com/ru/company/netcracker/blog/442620/
Ровно тот же predictive maintenance по алгоритму SIAT используем в продакшн — конечно он проприетарный(математическая составляющая опубликована) и это сужает область применения, но благодаря опыту использования в проде — мы уже лучше пониманием, что конкретно нужно и как выглядит архитектура решений.

Спасибо, хорошая статья! Обязательно изучим подробнее.
SIAT — хороший подход для мониторинга взаимосвязей между переменными системы, но все-таки дает лишь срез возможностей (например, учитывает только линейную взаимосвязь между переменными) по анализу данных и детекции аномального поведения
НЛО прилетело и опубликовало эту надпись здесь
«показания нескольких датчиков для 30 заводов» — в данном случае слово «plant» надо было перевести как «установка», «агрегат», «объект управления» а не «завод». Вообще в литературе по системам управления, а по ссылке именно она, «plant» это всегда «объект управления»
Согласен. Действительно даже на одну установку как правило порядка 100 датчиков навешено. Но слово plant настолько въелось со школы, что сложно перевести по-другому. Исправил по тексту
НЛО прилетело и опубликовало эту надпись здесь
SAP внедрил IIoT + предиктивное обслуживание в Trenitalia. Согласно их рекламке сокращение затрат (на обслуживание, от простоев, аварий, срыва графиков поездов, пр.) ожидается 8-10%.
news.sap.com/2016/09/trenitalia-showcases-railway-innovation-with-sap
Ну и всякие Аксенчи и Маккинзи обещают астрономическое сокращение затрат. Цифры можете сами поискать.
НЛО прилетело и опубликовало эту надпись здесь
Стоит конечно. В России пока мало распространен такой подход, но вот ребята из Северстали даже проводили митап и рассказывали, что они делают: youtu.be/6WglJwU-9i4
Вот еще про хакатон Сибура: habr.com/ru/company/sibur_official/blog/426719
Вот например еще был хакатон по предсказанию выхода из строя ветряков. Вот ссылка на презентацию одного из участников. В конце приведены цифры в евро: github.com/DenisVorotyntsev/hackthewind2018/blob/master/ODS%20AI.pdf
Вот здесь вроде тоже есть цифры в деньгах: medium.com/@lselectric_dm/proactive-predictive-maintenance-using-ir-thermography-2439a00f554b
Тема интересная, весь вопрос в данных и их качестве — это слабое место. Например, у вас есть уникальная турбина, которая, к счастью, ещё не ломалась ни разу. Как вы будете прогнозировать её поломку?
Или у вас есть парк старых насосов в 10000 шт. Они ломаются постоянно, но на них нет никаких датчиков (вибрации, температуры, давления, пр.), чтобы судить о том, что очередной вот-вот сдохнет. А обновление парка на новые насосы с датчиками и наработка данных по их отказам произрйдёт лет через 15.
Да это самая большая боль предиктивного обслуживания. Но собственно поэтому основная часть статьи и нацелена на методы обнаружения аномалий, а не стандартных подходов по классификации и регрессии, потому что практически любой кейс нельзя решить через fit+predict, а требуется именно аналитика.
Что касается уникальной турбины — может и не стоит прогнозировать ее поломку, раз она такая качественная) На упомянутом выше митапе северстали ребятам задавали вопрос не хотят ли они предсказывать выход из строя всего станка, а не каких-то деталей, на что ответ был, что станок работает с 76-го года.
Что касается второго кейса, ну когда данных нет и суда нет)
Я в своё время исследовал стабильность работы парка из нескольких сотен PC. Мониторинг собирал десятки разных параметров с каждого в течение месяцев. Но даже этого коичества данных было недостаточно, чтобы не то что предсказать, а хотябы выявить закономерности зависаний и перезагрузок. Уж очень велика вариативность, а зависания/перезагрузки относительно редки. После того, как явные проблемы были пойманы — перегрев и старые драйвера, ловить остальные стало очень сложно. Что уж говорить о насосах, где данных гораздо меньше и поломки реже.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий