Mariia-Anisimova 6 дек 2023 в 10:13

Умная рыбалка: как мы учим ML работать с фишингом

Средний

6 мин

3.4K

Блог компании VKИнформационная безопасность*Машинное обучение*

Роадмэп

+21

Комментарии 6

dprotopopov 6 дек 2023 в 19:33

один ML учится пробивать, другой ML учится отвергать.

Сейчас вы что-то улучшили. Потом спамеры что-то улучшат.

В среднем на периоде доля спама видимо такой же и останется.

ЗЫ. Это всё не концепция решения проблемы, а очередная затычка (или как говорят сантехники - чопик https://otvet.mail.ru/question/13803296)

Mariia-Anisimova 7 дек 2023 в 09:05

Привет! Согласна, что это вечная гонка щита и меча без конечной точки, но основная идея в том - что когда что-то улучшают спамеры, ML-автоматика и наша команда быстро адаптируются и закрывают новый спам. А для обхода ML-модели, в отличие от простых эвристик, надо потратить немало времени. Поэтому это более долгосрочное решение, чем "очередная затычка" :)

PS Чопики используют не только сантехники)

Vlagor 7 дек 2023 в 09:10

Это вечное соревнование щита и меча , продолжите мысль - что им следует сделать? Совсем не развивать защиту? Ну так злоумышленники тогда приспособятся настолько что существующая вообще не будет работать. Просто взять и решить проблему? Отличная идея , но ,очевидно, они не знают как это сделать, может быть вы знаете? Предложите свой вариант решения проблемы.

kdduha 8 дек 2023 в 07:16

Спасибо за статью, есть вопрос скорее к технической реализации лосса. Как я понимаю, в logloss подаются логиты (если речь о torch) и метки классов, а что идёт в MSE? Речь идёт о сравнении логитов старой и новой моделей или смотрят на proba (но тогда просто разница двух вероятностей всегда будет < 1, а при возведении в квадрат ещё ближе к 0, или множитель альфа как раз и решает эту проблему?)

Mariia-Anisimova 8 дек 2023 в 08:10

Привет! спасибо что обратили внимание) Да, в MSE идет именно proba и разница всегда < 1, как следствие при возведении в квадрат становится еще меньше. Нам это подходит, поскольку нет цели прибить модель к прошлой 1 в 1 (если есть такая цель - то лучше использовать логиты), достаточно чтобы они были близки, а насколько сильно обращать внимание на это слагаемое - здесь уже помогает alpha. В целом, если модель хорошо учится и другие слагаемые в лоссе не выдают запредельных значений, то и alpha особо выкручивать не приходится)

kdduha 9 дек 2023 в 17:29

Интересный подход, спасибо за ответ!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий