hse_spb 18 янв 2022 в 14:33

Градиенты в нейронных сетях для поиска аномалий в данных

9 мин

6.1K

Блог компании Питерская ВышкаАлгоритмы*Математика*Машинное обучение*

+15

Комментарии 5

mihteh 18 янв 2022 в 16:12

Прекрасная статья, спасибо! Особенно радует множество ссылок на научные работы

NekittpppetroV 19 янв 2022 в 13:14

Отличная статья, очень интересно было читать

Nikoobraz 20 янв 2022 в 09:53

Вопрос от полнейшего нуба: имеет ли смысл использовать меру аномальности во время обучения для корректировки скорости обучения?

То есть если нейронка считает такой случай аномальным, значит ее веса далеки от того значения, которое нужно для корректного и уверенного понимания такого примера. Тогда возможно имеет смысл для конкретно этого примера увеличить скорость обучения в число раз зависящее от меры аномальности. А когда нейрока распознает следующий пример как типичный, но мера аномальности будет мала, и скорость обучения для такого примера наоборот снизится. Если поэксперементировать с функцией зависимости скорости обучения от меры аномальности, возможно удастся ускорить процесс обучения.

Или это глупая идея и не имеет смысла? И если действительно глупая, то почему?

herr-bilbo 22 янв 2022 в 12:24

Приветствую! На связи автор статьи со своего личного аккаунта :)

Вопрос совершенно не нубский, мы сами им задавались, правда, в немного другой форме.

Оказывается, если посмотреть на качество out-of-distribution детекции в процессе обучения модели (то есть, взять, например, чекпоинты модели с 50% accuracy, затем с 60%, 70%, 80%, 90%), то можно заметить, что градиетный метод и ODIN подчиняются одной тенденции: с ростом качества модели на первоначальной задаче в процессе обучения растёт и качество детекции аномалий.

Правда, на начальных чекпоинтах качество решения обеих задач будет слабым, поэтому предложенный Вами метод, скорее всего, никак не поможет модели в начале обучения, так как, по сути, мы испортим ground truth с помощью предсказания самой модели.

Возможно, на последних эпохах обучения это может дать некий профит, здесь нужно проводить конкретные эксперименты.

Также, вполне возможно, что такая идея может выстрелить, если у нас уже есть одна обученная модель на конкретном датасете, тогда мы можем использовать её как детектор аномалий при обучении другой модели на этом же датасете.

Но это всё правдоподобные рассуждения, которые нужно обязательно проверять на практике, как и все теории в современном дып лёрнинге :)

Nikoobraz 22 янв 2022 в 22:08

Кстати да, об этом и не подумал. На начальных этапах это не имеет смысла, причем, наверное, в первую очередь даже не из-за озвученных причин, а хотябы даже по тому, что до тех пор, пока модель не обучится "хоть как-то", аномальным для нее будет практически каждый встреченный вариант, так что мы просто зря тратим вычислительные мощности для проверки аномальности в ситуации, когда ответ и так с огромной вероятностью известен заранее. Так что попытка его применить не только испортит ground truth, но и замедлит процесс. Да и кроме того, на начальных этапах обучения итак часто берут повышенную скорость роста.

Так что это действительно может быть полезно только в описанных вами случаях. Спасибо за подробный ответ, и спасибо за саму статью. Очень полезная идея.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий