Как стать автором
Обновить

Необычные модели Playboy, или про обнаружение выбросов в данных c помощью Scikit-learn

Время на прочтение 7 мин
Количество просмотров 124K
Python *Data Mining *Алгоритмы *Машинное обучение *
Мотивированный статьей пользователя BubaVV про предсказание веса модели Playboy по ее формам и росту, автор решил углубиться if you know what I mean в эту будоражащую кровь тему исследования и в тех же данных найти выбросы, то есть особо сисястые модели, выделяющиеся на фоне других своими формами, ростом или весом. А на фоне этой разминки чувства юмора заодно немного рассказать начинающим исследователям данных про обнаружение выбросов (outlier detection) и аномалий (anomaly detection) в данных с помощью реализации одноклассовой машины опорных векторов (One-class Support Vector Machine) в библиотеке Scikit-learn, написанной на языке Python.
Читать дальше →
Всего голосов 84: ↑77 и ↓7 +70
Комментарии 36

Поиск звуковых аномалий

Время на прочтение 6 мин
Количество просмотров 8.1K
Машинное обучение *

Попробуем решить задачу поиска аномалий в звуке.
Микрофоны, на данное время, представляют из себя одни из самых распространенных универсальных детекторов. Они маленькие, дешевые, надежные. И они по-умолчанию присутствуют в сотовых телефонах. Их можно использовать практически везде. Поэтому задача обработки звука, не только речи, стоит перед нами прямо сейчас. Это классический пример Low hanging fruit — "низко висящего фрукта". :)


Примеры аномалий звука:


  • Неисправности в работе двигателя.
  • Изменения в погоде: дождь, град, ветер.
  • Аномалии работа сердца, желудка, суставов.
  • Необычный трафик на дороге.
  • Неисправности колесных пар у поезда.
  • Неисправности при посадке и взлете самолета.
  • Аномалии движения жидкости в трубе, в канале.
  • Аномалии движения воздуха в системах кондиционирования, на крыле самолета.
  • Неисправности автомобиля, велосипеда.
  • Неисправности станка, оборудования.
  • Расстроенный музыкальный инструмент.
  • Неправильно взятые ноты песни.
  • Эхолокация кораблей и подводных лодок.
Читать дальше →
Всего голосов 19: ↑16 и ↓3 +13
Комментарии 2

Ложные срабатывания. Новая техника ловли двух зайцев

Время на прочтение 4 мин
Количество просмотров 8.1K
Блог компании Ростелеком-Солар Информационная безопасность *Алгоритмы *Математика *


Проблема ложных срабатываний. Точность и полнота.


Если есть универсальная болевая точка DLP-систем, то это, без сомнения, ложные срабатывания. Они могут быть вызваны неправильной настройкой политик, но соль в том, что даже если интегратор постарался, и все внедрено-настроено грамотно, ложные срабатывания все равно никуда не исчезают. И их много. Если услышите, что у кого-то их нет, не верьте, “everybody lies”. Мы долго в этой отрасли, и все серьезные конкурентные решения регулярно тестируем. Ложные срабатывания – это бич всех современных DLP, от которого страдают прежде всего заказчики.

В этой статье мы расскажем о новом подходе к политикам фильтрации информационного трафика на предмет риска ИБ. Метод основан на применении двух этапов фильтрации, что отличает его от традиционной одноуровневой фильтрации. Такой подход позволяет более эффективно решать проблему ложных срабатываний, т.е. сокращать и мусор, и долю пропущенных инцидентов.
Читать дальше →
Всего голосов 27: ↑27 и ↓0 +27
Комментарии 6

Ложные срабатывания. Новая техника ловли двух зайцев. Часть 2

Время на прочтение 5 мин
Количество просмотров 4.8K
Блог компании Ростелеком-Солар Информационная безопасность *Алгоритмы *Математика *


Итак, в первой части статьи мы говорили о том, что поймать двух зайцев сразу, т.е. построить фильтрацию со 100% точностью и полнотой, можно лишь в «вакууме» — для конечного числа состояний искомых объектов и условий их передачи. При выходе из этого «вакуума» мы получим резкое ухудшение по обоим показателям.
Читать дальше →
Всего голосов 27: ↑25 и ↓2 +23
Комментарии 0

Я, РобоЛойер, или как искать аномалии в документах

Время на прочтение 8 мин
Количество просмотров 5.5K
Блог компании Digital Design Машинное обучение *
Представляете ли вы, сколько нормативных документов в час приходится просматривать корпоративному юристу и к каким последствиям может привести его невнимательность? Бедолага юрист должен вчитываться в каждый договор, тем более, если для него нет типового шаблона, что случается часто.

Глядя в уставшие глаза нашего корпоративного юриста, мы решили создать сервис, который будет находить проблемы в документах и сигнализировать о них задремавшему юристу. В результате мы создали решение с агрегацией знаний по некоторой базе договоров и подсказками юристам, на что следует обратить особое внимание. Конечно, не обошлось без магии. Математической магии под названием Anomaly Detection.

В основном, подходы Anomaly Detection применяются для анализа поведения разнообразного оборудования для выявления отказов, или в банковском секторе для определения фрода. А мы попробовали применить эти алгоритмы для анализа юридических документов. Следуйте под кат, чтобы узнать, как мы это делали.

Читать дальше →
Всего голосов 24: ↑23 и ↓1 +22
Комментарии 7

Сетевой мониторинг и выявления аномальной сетевой активности с помощью решений Flowmon Networks

Время на прочтение 8 мин
Количество просмотров 17K
Блог компании TS Solution Информационная безопасность *Системное администрирование *Сетевые технологии *
Туториал


В последнее время в Интернете можно найти огромное кол-во материалов по теме анализа трафика на периметре сети. При этом все почему-то совершенно забыли об анализе локального трафика, который является не менее важным. Данная статья как раз и посещена этой теме. На примере Flowmon Networks мы вспомним старый добрый Netflow (и его альтернативы), рассмотрим интересные кейсы, возможные аномалии в сети и узнаем преимущества решения, когда вся сеть работает как единый сенсор. И самое главное — провести подобный анализ локально трафика можно совершенно бесплатно, в рамках триальной лицензии (45 дней). Если тема вам интересна, добро пожаловать под кат. Если же читать лень, то, забегая вперед, можете зарегистрироваться на предстоящий вебинар, где мы все покажем и расскажем (там же можно будет узнать о предстоящем обучении продукту).
Читать дальше →
Всего голосов 7: ↑6 и ↓1 +5
Комментарии 2

9 типовых проблем в сети, которые можно обнаружить с помощью анализа NetFlow (на примере Flowmon)

Время на прочтение 3 мин
Количество просмотров 7.9K
Блог компании TS Solution Информационная безопасность *Системное администрирование *Сетевые технологии *Серверное администрирование *


Относительно недавно мы публиковали статью “Сетевой мониторинг и выявления аномальной сетевой активности с помощью решений Flowmon Networks”. Там мы кратко рассмотрели возможности этого продукта и процесс установки. Неожиданно для нас, после статьи и вебинара, поступило большое кол-во запросов на тестирование Flowmon. И первые же пилотные проекты выявили несколько типовых проблем с сетью, которые не увидишь без использования NetFlow. Сразу стоит отметить, что в рамках тестирования продукта наиболее интересные результаты получались благодаря модулю определения аномалий (ADS). После короткого “обучения” (хотя бы неделю) мы начинали фиксировать различные инциденты. В этой статье мы рассмотрим самые частые из них.
Читать дальше →
Всего голосов 12: ↑11 и ↓1 +10
Комментарии 4

Детектирование аномалий с помощью автоенкодеров на Python

Время на прочтение 14 мин
Количество просмотров 17K
Python *Программирование *Машинное обучение *
Туториал

Детектирование аномалий — интересная задача машинного обучения. Не существует какого-то определенного способа ее решения, так как каждый набор данных имеет свои особенности. Но в то же время есть несколько подходов, которые помогают добиться успеха. Я хочу рассказать про один из таких подходов — автоенкодеры.

Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 4

Выявление аномалий в микросервисной архитектуре — обзор инструментов для DevOps и SRE

Время на прочтение 7 мин
Количество просмотров 6.4K
Блог компании Proto Разработка веб-сайтов *Системное администрирование *DevOps *Микросервисы *

Всем привет. Сегодня мы хотели бы поговорить про выявления аномалий в микросервисной среде. Данный пост является краткой выжимкой нашего 40 минутного доклада, который мы делали на онлайн конференции DevOps Live 2020 и, чтобы не писать лонгрид, мы решили сфокусироваться на обзоре инструментов выявления аномалий в распределении значений метрик для автоматизации мониторинга микросервисов, которые возможно быстро начать использовать любой команде.


Тема детектирования аномалий сейчас очень актуальна, так как с переходом на микросервисы для SRE и DevOps приоритет задач, связанных с преобразованием алертов в осмысленный сигнал, снижением MTTD и упрощением настройки алертов в мониторинге распределенных сред значительно повысился.


Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 0

Быстрое и точное обнаружение аномалий по копулам (COPOD)

Время на прочтение 6 мин
Количество просмотров 5K
Блог компании OTUS Машинное обучение *Искусственный интеллект
Перевод

Выбросы или аномалии – это точки данных, которые отклоняются от нормы набора данных. Порой кажется, что они были получены с помощью какого-то другого механизма.

Обнаружение аномалий – это обычно задача обучения без учителя, цель которой состоит в выявлении подозрительных наблюдений в данных. Ограничение состоит в стоимости неправильного обозначения нормальных точек как аномалий и невозможности найти фактические аномалии.

Областью применения поиска аномалий может быть обнаружение вторжений в сеть, мониторинг качества данных и арбитраж цен на финансовых рынках.

Обнаружение выбросов на основе копул (COPOD) – это новый алгоритм обнаружения аномалий. В Python он реализован в пакете PyOD.

У этого алгоритма есть несколько ключевых функций, которые выделяют его среди конкурирующих алгоритмов:

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 0

Обзор — ConvNet для 2020

Время на прочтение 4 мин
Количество просмотров 1.5K
Блог компании OTUS Машинное обучение *
Перевод

В последние годы трансформеры, которые изначально были разработаны для обработки естественного языка, становятся все более важными в таких областях компьютерного зрения, как обнаружение объектов, сегментация изображений и т.д., опережая традиционные архитектуры, основанные только на сверточных слоях.

Среди наиболее известных архитектур трансформеров можно назвать Google ViT или Microsoft Swin Transformer, которые доминируют в обнаружении объектов и сегментации естественных изображений. Эти две архитектуры являются лишь одним из примеров многих работ, которые были сделаны для того, чтобы адаптировать трансформеры к обработке естественных изображений.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 0

Anomaly Detection

Время на прочтение 5 мин
Количество просмотров 3.2K
Блог компании OTUS Машинное обучение *

Зачастую на производстве или в других ситуациях задач автоматизации каких-то монотонных действий возникает необходимость проверки качества полученной продукции. С первого взгляда — учи классификатор и задача решена, но, к сожалению, реалистичные задачи очень часто имеют несбалансированные данные, которые не размечены никоим образом, но которых достаточно много. Очевидным решением кажутся алгоритмы группировки без учителя (unsupervised). Но тогда остается вопрос нахождения правильных фич, что является проблематичным в условии сложных, многомерных данных. И, что более важно, аномалии будут проявляться в абсолютно случайных местах из-за ваших фичей, что с сильно меньшей вероятностью даст вам нечто полезное. 

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 0

ML-модели VS осложнения при бурении нефтяных скважин

Время на прочтение 10 мин
Количество просмотров 2.6K
Блог компании Цифра Data Mining *Машинное обучение *IT-компании

Всем привет. Меня зовут Семён. Я занимаюсь разработкой интеллектуальных приложений для нефтегазовой отрасли в компании «Цифра». В этой статье я и моя коллега Анна Тарасова расскажем, как мы искали решение для проблемы с прихватами при бурении нефтяных скважин с помощью машинного обучения и к чему в результате пришли.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 5

Примитивы Desbordante: Функциональные зависимости и их применение в эксплорации и очистке данных

Время на прочтение 16 мин
Количество просмотров 1.3K
Блог компании Юнидата Open source *Data Mining *Машинное обучение *Data Engineering *

Функциональные зависимости – концепция, которой уже много десятков лет, её преподают практически в каждом курсе баз данных. Их классическое применение – нормализация схемы данных. В последние годы у концепции появилось множество иных приложений в контексте data science, касающиеся эксплорации и очистки данных.

В статье мы расскажем о функциональных зависимостях (точных и приближенных), опишем, что с ними можно делать в контексте работы с данными, и покажем, что с ними умеет делать наш профайлер Desbordante. Статья является продолжением нашей прошлой статьи, в которой мы рассказали о профилировании данных.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 0