Andrewaeva Apr 29 2016 at 09:03

Распознавание DGA доменов. А что если нейронные сети?

7 min

14K

Digital Security corporate blogInformation Security*Machine learning*

+18

Comments 8

lostpassword Apr 29 2016 at 11:58

Рыбка.
На пятом графике я вижу рыбку!

Заголовок спойлера

А вы видите рыбку?

Morfin_brood Apr 29 2016 at 12:02

Я вижу половинку сердца с большим рожком мороженного

ajaxtpm Apr 29 2016 at 15:45

А в чем принципиальная разница от подхода из этой статьи?

Breaking news

Andrewaeva Apr 29 2016 at 16:08

Принципиальное отличие заключается в использовании рекуррентных нейронных сетей, а не простой N-gram модели с использованием линейных классификаторов или решающих деревьев. В конечном итоге использование модели Biderection GRU, в совокупности с механизмом внимания показывают результат, превосходящий модели, построенные только на энтропии, N-gram моделях и моделях, использующих алгоритм TF-IDF.

sim0nsays Apr 29 2016 at 19:30

Клево! Больше нейросетей! А расскажите какие-нибудь детали про процесс войны за обучение? Что попробовали и не сработало? Как выбирали толщину? Какой размер датесета?
В общем, больше мяса!

Andrewaeva Apr 30 2016 at 00:13

Воу, тут материала наверно на ещё одну статью :)
Если из интересного и кратко, то я был удивлен, что SVM — не выстрелило, а оптимальным количеством units для нейронной сети стало 128. Их увеличение до 256 или 512 только ухудшало модель — почему, загадка.
Пробовал разные алгоритмы градиентного спуска — остановился на Adam.
Ну а самая сложная модель, которую попробовал выглядит примерно так.

Скрытый текст

Размер датасета у нас 1кк легитимных доменов и 800к вредоносных (по 100к на каждое из 8 рассмотренных семейств).

tsvetkovpa Apr 29 2016 at 22:10

А последний график построен по Training Set или по Test Set?

Andrewaeva Apr 30 2016 at 00:06

Точность на тестовой выборке