Именно туда по нефтянке и идем, в т.ч. хотим идти вместе с ЦМИ. Это, конечно, не совсем social good, но даже с чисто технологической точки зрения мега-интересно.
Заказ на статью по классификации и метрикам принял)
По Спутникам — работали с собранным китайцами и доступным OpenSARShip, там Sentinel-1 и Gaofen-3. Другие Сентинелы не трогали пока, но мы начали общаться с Climate4Media, есть мысль на SAR искать загрязнения сливами судов — они же и обещали помочь с данными.
Привет! Пока не трогали чистую акустику, хотя мысли в ту сторону есть
Там 2 больших домена: военный и био. Про военный в принципе понятно, и войти туда с улицы почти нереально. По биологии: общение китов и дельфинов, как пример. Эта тема интересная и рано или поздно мы до нее доберемся.
Четыре направления, под каждое направление по 2 сегмента (они, соответственно, пересекаются). В каждом сегменте по несколько конкретных метрик, их расположение внутри сегмента зависит от того, попадают они только внутрь этого сегмента (ближе к центру сегмента), или, например, они могут быть в двух сегментах, тогда точка, соответственно, ближе к границе.
Про геологию приведу один пример: СУЭК. Используют на некоторых разрезах ML-based софтины для анализа пластов. Где стоит взрывать, где не стоит, где лучше взрывчатку размещать и т.п.
Другой вопрос, что не широко и не всеми. Но это уже, ИМХО, от компании завистит.
По ремонтам — называть не буду, права не имею, но ресурсники и помимо Газпрома сейчас пытаются выйти на Predictive Maintenance. В каждом отдельном случае надо считать бизнес-кейс: сначала надо поделить оборудование на то, где адекватно применить стратегию «по отказу», а где «по состоянию», например. Потом уже считать, там, где по состоянию, окупится ли МЛ-решение и когда. И есть ли нормальные данные. И после этого только пилить. Вот это вот все — это долгий процесс в ресурсных компаниях.
Ну кто говорит, что не применяют?:) Пытаются, еще как. Сибур, ГПН как примеры.
Если говорить в целом про индустрию, то, конечно, ритейл и прочий телеком применяют активнее. Выскажу ИМХО, что O&G слишком уж монструозные в плане внутренней организации, пока согласуешь проект — уже что-то новое надо пилить. Ну и, кроме того, пока цены на сырье позволяют жить как есть, напрягаться никто не хочет. Как однажды мне сказал топ-менеджер одной из ресурсных компаний «вот видишь яму? Эта яма нас кормит. Думать будем, когда все выкопаем».
Ну и про качество данных не будем забывать. Если у какого-нибудь АШАНА все транзакции на серваках, но на ГОКе или НПЗ, если копнуть, все еще в журналах передачи смен. Журналах не электронных, само собой:) Это проблема, которую еще пока не все решили. Хотя тот же Сибур и ЕВРАЗ, например, активно к этому идут.
Корень зла именно тут:) важно определить, какой порог отсечения будет, для этого с клиентом согласовываестя трейд-офф между производительностью и желаемым объемом вывода. На совсем больших данных надо совсем другие инструменты юзать: FIUT, FiDoop, TPFP, например.
Но он не вызвал практически никакого интереса со стороны участников курса. Поэтому на ресерч я забил.
ИМХО нет тут никакой корреляции, в смысле между интересом к CLOPE\ROCK, и количеством лайков в слаке в группе ml course open :) Arules как тьюториал тоже не зашли, потмоу что, наверное, это не тьюториал:)
Так что заходите на слак на ods_habr, кидайте черновик всем на почитать.
А вот ничего не скажу:( Пробовать надо, честно, не пробовал.
В плане? Не понял коммента. Т.е. А чем по Вашему является CLOPE? Разве не алгоритмами кластеризации категориальных объектов?
Так я и говорю, что иногда алгоритмы кластеризации (в частности CLOPE, ROCK), справляются с такими задачками лучше, чем правила. Надо будет потестить. Можете, кстати, статью запилить про них, если знакомы с ними. Было бы круто:)
Ну все сильно зависит от конкретного клиента и задачи. В премиальном сегменте, например, хороший бандл получился, когда выяснилось, что покупают вместе мягкий сыр, мед и варенье:)
1) Charm является экспоненциальным алгоритмом в худшем случае. Рассмотрите квадратную матрицу размера n заполненую единицами кроме главной диагонали. У вас количество замкнутых itemsets будет экспонециально.
Сидеть и водить мышкой ооооочень долго.
И таки да, это у нас в бэклоге)
Именно туда по нефтянке и идем, в т.ч. хотим идти вместе с ЦМИ. Это, конечно, не совсем social good, но даже с чисто технологической точки зрения мега-интересно.
Заказ на статью по классификации и метрикам принял)
По Спутникам — работали с собранным китайцами и доступным OpenSARShip, там Sentinel-1 и Gaofen-3. Другие Сентинелы не трогали пока, но мы начали общаться с Climate4Media, есть мысль на SAR искать загрязнения сливами судов — они же и обещали помочь с данными.
Там 2 больших домена: военный и био. Про военный в принципе понятно, и войти туда с улицы почти нереально. По биологии: общение китов и дельфинов, как пример. Эта тема интересная и рано или поздно мы до нее доберемся.
Четыре направления, под каждое направление по 2 сегмента (они, соответственно, пересекаются). В каждом сегменте по несколько конкретных метрик, их расположение внутри сегмента зависит от того, попадают они только внутрь этого сегмента (ближе к центру сегмента), или, например, они могут быть в двух сегментах, тогда точка, соответственно, ближе к границе.
Другой вопрос, что не широко и не всеми. Но это уже, ИМХО, от компании завистит.
По ремонтам — называть не буду, права не имею, но ресурсники и помимо Газпрома сейчас пытаются выйти на Predictive Maintenance. В каждом отдельном случае надо считать бизнес-кейс: сначала надо поделить оборудование на то, где адекватно применить стратегию «по отказу», а где «по состоянию», например. Потом уже считать, там, где по состоянию, окупится ли МЛ-решение и когда. И есть ли нормальные данные. И после этого только пилить. Вот это вот все — это долгий процесс в ресурсных компаниях.
Если говорить в целом про индустрию, то, конечно, ритейл и прочий телеком применяют активнее. Выскажу ИМХО, что O&G слишком уж монструозные в плане внутренней организации, пока согласуешь проект — уже что-то новое надо пилить. Ну и, кроме того, пока цены на сырье позволяют жить как есть, напрягаться никто не хочет. Как однажды мне сказал топ-менеджер одной из ресурсных компаний «вот видишь яму? Эта яма нас кормит. Думать будем, когда все выкопаем».
Ну и про качество данных не будем забывать. Если у какого-нибудь АШАНА все транзакции на серваках, но на ГОКе или НПЗ, если копнуть, все еще в журналах передачи смен. Журналах не электронных, само собой:) Это проблема, которую еще пока не все решили. Хотя тот же Сибур и ЕВРАЗ, например, активно к этому идут.
Ну это вот работа условного продакта\проджекта: объянить\уговороить
Корень зла именно тут:) важно определить, какой порог отсечения будет, для этого с клиентом согласовываестя трейд-офф между производительностью и желаемым объемом вывода. На совсем больших данных надо совсем другие инструменты юзать: FIUT, FiDoop, TPFP, например.
ИМХО нет тут никакой корреляции, в смысле между интересом к CLOPE\ROCK, и количеством лайков в слаке в группе ml course open :) Arules как тьюториал тоже не зашли, потмоу что, наверное, это не тьюториал:)
Так что заходите на слак на ods_habr, кидайте черновик всем на почитать.
А вот ничего не скажу:( Пробовать надо, честно, не пробовал.
Так я и говорю, что иногда алгоритмы кластеризации (в частности CLOPE, ROCK), справляются с такими задачками лучше, чем правила. Надо будет потестить. Можете, кстати, статью запилить про них, если знакомы с ними. Было бы круто:)
Тогда и ROCK надо вспомнить:) Иногда кластеризация дейтсвительно лучше справляется.
Колчиество да, но мы же про эффективность. Тут неплохие бенчи: pdfs.semanticscholar.org/fc59/bb528815efc84c2a08a3ad09f9ced8cc7508.pdf
В принципе, часто коммонсенс справляется, если данные маленькие.