EditorF_A_C_C_T Aug 31 2018 at 16:09

Деньги на ветер: почему ваш антифишинг не детектирует фишинговые сайты и как Data Science заставит его работать?

10 min

4.9K

F.A.C.C.T. corporate blogInformation Security*Algorithms*Mathematics*Machine learning*

Comments 5

lancerx Sep 3 2018 at 00:06

Спасибо за интересный пост!

Хочется задать пару-тройку вопросиков:

1) Как сейчас оценивается точность в вашем варианте кластеризации?
2) Будет ли использоваться получаемая разметка для дальнейших изысканий, или дрифт данных в этой задаче очень высок?
3)

Стандартные методы кластеризации не работают из-за большого количества признаков. Проклятье размерности не позволяет даже загрузить данные в память,… какие-то алгоритмы кластеризации.

Не хочу показаться капитаном, но ведь сейчас хватает инструментов для distributed computing (Spark, Dask), или объем данных настолько немыслим? Как же вы сейчас с обработкой справляетесь? :)

EditorF_A_C_C_T Sep 3 2018 at 11:56

1) Каждая построенная группа проверяется вручную, поэтому точность кластеризации оценивается так: количество утвержденных групп, разделённое на общее количество построенный групп. Что касается качества классификации, то оно, очевидно 100%, т.к. все работающие группы утверждены вручную.
2) Конечно. После построения группы, она начинает использоваться «в боевом режиме». Все новые URL, попавшие под утвержденную группу отправляются на дальнейшую обработку в CERT.
3) Верно, Spark, Dask тут совсем не применимы. Объем данных — по 10 000-20 000 новых урлов. При этом для каждого урла свои ресурсы. Если создавать матрицу наличия или отсутствия ресурсов, то она даже в оперативную память не поместиться. Прикидывали (на бумаге, естественно), примерно около 1 ТБ будет ;)

pansa Sep 3 2018 at 10:29

Занятно. Но ведь обфусцировать css/js/image/font не сложнее, чем html. Ведь скорее всего вы храните хэши о ресурсов, а значит достаточно поменять 1 байт. Есть, конечно, методы сравнения похожести для бинарных/произвольных данных, но это уже другие нагрузки и снижение точности…

EditorF_A_C_C_T Sep 3 2018 at 13:26

Верно, если поменять 1 байт — то алгоритм, описанный в данном посте, не будет работать.
Для решения этой проблемы нужно использовать перцептивные функции хеширования.
Но это тема отдельной статьи.

pansa Sep 3 2018 at 15:14

Да, перцептивные, я знал их как fuzzy hashes. Но по ним уже есть статьи даже на хабре.
Но если не разбирать их алгоритмы, то на статью там мало, имхо. Хотя, применительно к ваше теме я бы с интересом почитал :)
А что-то еще у вас используется, там, байес тот же? Группируете ли по таким критериям, как ip/subnet/ns/as?