Привет, Хабр!
Сегодня поговорим о «больших данных» в кибербезопасности, а точнее, о том насколько легко - или сложно - обойти защиту, использующую Big Data. Иначе говоря, как надурить и объегорить передовые системы обнаружения угроз, мимо всевидящего ока которых, как утверждают маркетологи, лишний байт не проскочит.
О чём, собственно говоря, речь? О системах идентификации кибератак, использующих анализ «больших данных» в качестве одного из основных инструментов выявления подозрительной активности, - системы SIEM и XDR. Такие платформы в принципе ориентированы на средний и крупный бизнес, крупные сети и облачную инфраструктуру, в которой происходят миллионы событий ежечасно. Естественно, и речи не может идти о том, чтобы анализировать их «вручную», всё это осуществляется с интенсивным использованием технических средств, хотя наличие квалифицированных специалистов - и в области «больших данных», и в области кибербезопасности, - абсолютно необходимая составляющая.
Что делают такие системы? Позволяют идентифицировать в огромных (Big, очень Big) массивах структурированных и неструктурированных данных признаки несанкционированной активности. Иначе говоря, кибератак. Учитывая, что в средних размеров сети, насчитывающей 20 тысяч конечных точек, за сутки транслируется около 50 терабайт данных, задача «прошерстить» всё это становится очень неординарной.
Для этого существуют множественные алгоритмы. Основным критерием качества платформ обнаружения угроз - в частности, XDR, является точность обнаружения аномалий в системах, которые они защищают. XDR-решения, как правило, включают в себя и SIEM-платформы, отвечающие за сбор и обработку событий, и EDR - обнаружение и реагирование на аномалии, и UBA/UEBA - системы, которые собирают (большие) массивы данных о действиях пользователей и/или конечных точек, серверов и сетевого оборудования, а затем с помощью алгоритмов машинного обучения выстраивают модели поведения и пытаются выявить отклонения от них.